首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

剧透：扣子正上线「大模型竞技场」

科技 2024-06-12 17:06 广东

长话短说

扣子将在今日正式更新

带来「大模型竞技场」，盲测版

可以试试下面这个链接，现在放出来了没

https://www.coze.cn/model/arena

也就是

让俩大模型答一个问题

用户投票决优劣

比如

询问：桃源结义时，刘关张拜的谁？

在大模型回复结束后，会弹框

而在用户评价后

才会告诉说这是哪个模型

（豆包竟然还不错...之前一直觉得挺...）

然后这些成绩会被并入榜单

（下个月初会发榜）

为什么我会说，这个更新很重要？

众所周知，各家评分都是第一

很困扰开发者

有盲测榜单，会好很多

保守来说，大多数的排名、测试、评分，不可信：- 任何的大模型，在特有约束下，都可以是第一 - 任何的大模型，都可以通过一定方法，在某些测试里成绩突出 - 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明，公众号：赛博禅心AI 生态：我说几句实话

实际体验

由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频

「魔兽世界怀旧服」的相关新闻

「让狗狗给猫猫让窝」的策略

对于结果的分享图，长这样：

一些额外

刷榜技巧 / 反作弊须知

如果我是大模型厂，想刷榜，也有法（很多），只举一个例子：

作弊：

设立一个问题集，可能有1000个题，或者更多。被问到这些题的时候，就返回的时候包含字段的内容，或者某个预设结果。
找一些人，或者脚本，反复问这些预设问题

如果 2 个答案中，存在命中情况，对其点赞；
如果均未命中，刷新页面（不计入成绩）

应对：

过程：检查用户的输入行为，和模型的返回行为，是否异常
输出：看是否频繁出现特定标识
时间：看大模型点赞增长，是否过于偏离自然增长
结果：看某些用户的评分是否过于偏离均值

看看是扣子的朋友先看到这条，还是大模型厂的朋友先看到条（然后卷国外的LMSYS)

LMSYS Chatbot Arena

这是最早被大众认可的大模型竞技场

地址：https://arena.lmsys.org/

规则相似：

向两个匿名模型（如 ChatGPT、Claude、Llama）提问，并为表现更好的投票！
你可以进行多轮对话，直到选出优胜者。
如果在对话中透露了模型身份，投票将不被计入。

LMSYS 当前排行榜

GPT 一马当先，Gemini 紧随其后，国产零一万物杀入前十

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247489120&idx=1&sn=71fb3d3a946b03f387c989fd4b94d4f5

拜AI古佛，修赛博禅心

最新文章

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

史诗更新！1080 可跑的 Sora，可商用！超大杯 CogVideoX 5B 开源！GLM-Flash 免费！

大厂山寨 Cursor，不如做好邮箱

征集｜ComfyUI 全球社区峰会 AI 展：新艺术宣言

你需要的不是智能体，而是工作流

谷歌前 CEO：「盗用内容也不是不行」

看完这篇，你也能做 AI 搜索：论「结构化输出」

系统性「造人」：论 AI 拟人的实现

OpenAI 开发者大会，现开放报名

全网首发：智谱「Sora」此刻开源，单卡可跑可调，附训练细节

历史新高：24Q2，美国近期 AI 项目融资，总计 122 亿美金

并非25亿收购：谷歌与 C.AI 交易细节

学外企员工，「中英夹杂」记 word

入口之战：AI 时代的「二维码」，在哪里？

ChatGPT Search 正开放内测，附申请地址

剑指 Meta：Mistral Large2 凌晨开源，媲美 Llama3.1

最大405B：Llama-3.1 发布，第一时间详解

我做了两个 JSON：涵盖各模型接口信息

GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug

大模型真实速度一览（附：测试脚本）

对于 AI & AGI，我有 3 个问题

WAIC 的这几天，咱从业者们聚一聚？

大模型 API 文档一览：有的简洁易用，有的乱七八糟

全军覆没：国产大模型，都没做好 OpenAI 兼容

AI 画图正经入门：ComfyUI 的基础七课

MarsCode：AI 在线 IDE，很好用

OpenAI 收购 Multi，一款协作工具

第一批背靠 OpenAI 的公司，已经倒下了

Anthropic：Claude 3.5 发布，更快更强，还便宜

从 OpenAI 发布的 36 个实践，窥探真实的 AI 产业机会

Meta：悄悄发布多款模型、研究和数据集

Runway：稳定、可控的视频方案 Gen-3 Alpha

Perplexity 怎么读？Qwen 又怎么读？常见 AI 名词发音一览

Luma：发个AI，比 Sora 真实、连贯、迅速

SD 3：已开源，附即用方案，附测试对比

剧透：扣子正上线「大模型竞技场」

Apple：属于每个人的 AI，在这里

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉