剧透:扣子正上线「大模型竞技场」

科技   2024-06-12 17:06   广东  


长话短说

扣子将在今日正式更新

带来「大模型竞技场」,盲测版

可以试试下面这个链接,现在放出来了没

https://www.coze.cn/model/arena


也就是

让俩大模型答一个问题

用户投票决优劣


比如

询问:桃源结义时,刘关张拜的谁?

在大模型回复结束后,会弹框


而在用户评价后

才会告诉说这是哪个模型

(豆包竟然还不错...之前一直觉得挺...)



然后这些成绩会被并入榜单

(下个月初会发榜)



为什么我会说,这个更新很重要?

众所周知,各家评分都是第一

很困扰开发者

有盲测榜单,会好很多

保守来说,大多数的排名、测试、评分,不可信:- 任何的大模型,在特有约束下,都可以是第一 - 任何的大模型,都可以通过一定方法,在某些测试里成绩突出 - 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明,公众号:赛博禅心AI 生态:我说几句实话




实际体验


由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频


「魔兽世界怀旧服」的相关新闻


「让狗狗给猫猫让窝」的策略


对于结果的分享图,长这样:



一些额外

刷榜技巧 / 反作弊须知


如果我是大模型厂,想刷榜,也有法(很多),只举一个例子:


作弊:

  • 设立一个问题集,可能有1000个题,或者更多。被问到这些题的时候,就返回的时候包含字段的内容,或者某个预设结果。

  • 找一些人,或者脚本,反复问这些预设问题

    • 如果 2 个答案中,存在命中情况,对其点赞

    • 如果均未命中,刷新页面(不计入成绩)


应对:

  • 过程:检查用户的输入行为,和模型的返回行为,是否异常

  • 输出:看是否频繁出现特定标识

  • 时间:看大模型点赞增长,是否过于偏离自然增长

  • 结果:看某些用户的评分是否过于偏离均值


看看是扣子的朋友先看到这条,还是大模型厂的朋友先看到条(然后卷国外的LMSYS)

LMSYS Chatbot Arena


这是最早被大众认可的大模型竞技场

地址:https://arena.lmsys.org/

规则相似:

  • 向两个匿名模型(如 ChatGPT、Claude、Llama)提问,并为表现更好的投票!

  • 你可以进行多轮对话,直到选出优胜者。

  • 如果在对话中透露了模型身份,投票将不被计入。


LMSYS 当前排行榜


GPT 一马当先,Gemini 紧随其后,国产零一万物杀入前十


赛博禅心
拜AI古佛,修赛博禅心
 最新文章