首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

文摘 2024-06-06 12:16 浙江

对战发起团队｜SuperCLUE

2024年6月6日，国内首个中文大模型匿名对战竞技场「琅琊榜」正式发布，首期榜单包含17个中文代表性大模型，截止6月5日共获得12608次有效投票。

#大模型竞技场「琅琊榜」

「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场，旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。

在这里，顶尖的中文大模型们将在完全匿名的环境下进行激烈对决，通过真实用户投票，实时产生排名和分析报告，为研究者和开发者提供宝贵的数据支持。琅琊榜致力于推动中文人工智能技术的发展，打造中文大模型领域的权威竞技场和榜单。

「琅琊榜」竞技场官方唯一地址：www.langyb.com

#首期榜单

在首期大模型竞技场「琅琊榜」榜单中，MiniMax的abab6.5-chat以1173分暂列榜首，智谱AI的GLM-4和月之暗面的moonshot-v1-128k（Kimi）紧随其后，分别取得1079分和1059分。在本次榜单中，超过1000分的大模型有10个，均有不俗表现。

注：已排除获得少于300票的模型，因为它们的置信区间可能会很大。部分模型API的价格是分别基于输入和输出的 token 数量确定的。这里我们依照输入 tokens 与输出 tokens 1:3 的比例来估算整体价格。

#「琅琊榜」性价比象限图

琅琊榜-性价比象限代表模型的能力和成本的均衡。我们将模型在「琅琊榜」竞技场中的分数与模型API的价格相结合，形成了区分性价比的四个象限。理想之选象限代表模型能力和成本均有很强的竞争优势。

#「琅琊榜」用户数据解析

我们分析了10000多条用户问题，通过主题建模深入探究用户如何与模型互动。分析采用了OpenAI的文本嵌入模型text-embedding-3-small和K-means聚类算法，最后利用GPT-4对每个聚类的主题进行了总结，并展示了前10个主题。

以下为各类别的用户提问示例。

个人生活与知识探索

在目前的大环境下，普通人的出路在哪里？

职场探讨与个人发展

怎么更有效地安排我的日程，确保我有足够的时间进行自我提升？

关于社会和文化的探讨

您认为政府和社会应该如何提高老年人的生活质量和社会地位？

关于应用和系统的开发

创建一个网络安全教育平台 — 开发一个平台，提供网络安全相关的教学内容和互动课程。为企业员工提供网络安全培训，开发一个包含视频教程、测验和模拟网络攻击的在线学习平台，帮助员工识别和防范网络威胁。

解决优化问题和统计分析

便民肉菜市场售出的鸡肉的千克数是猪肉的3/5，售出的猪肉千克数是牛肉的4/5，售出的鸡肉、猪肉共1152千克，售出牛肉多少千克？

教育方法与策略的探讨

假如你是一名老师，看到学生都不想举手回答问题，用什么方法可以调动他们的积极性？

有关数据分析和预测建模

餐厅位置与销售分析 — 利用地理数据分析不同地点的餐厅销售表现。场景描述：餐饮集团希望了解地理位置如何影响其各餐厅的销售表现。数据集包括各餐厅的位置信息、月销售额和客流量。需要创建一个分析报告，展示地理位置与销售表现之间的关系，并识别表现优异或不佳的地点。请给出满足要求的模拟数据。

Python编程与功能实现

利用Python进行AB测试的数据分析。一个网站运营团队进行了两种不同的首页设计测试，需要分析哪种设计能带来更高的用户点击率。

关于科学研究和技术应用

在水稻种植中，现代农业技术（如生物技术、信息技术等）有哪些应用？它们对水稻产业的发展有何影响？

关于写作的各种问题和技巧讨论

编写一个关于友谊与信任的故事，展现人际关系的美好。创作一个以友谊与信任为主题的故事，描绘人际关系的美好。通过情节和角色，探讨友谊和信任的价值。

经过对用户提问长度分析，我们发现主要集中在20-40的Token之间。

#「琅琊榜」对战数据

此外，琅琊榜还展示了排位赛中每个模型的对战胜率。

#「琅琊榜」新增多模态理解对战

本次竞技场更新，新增了多模态理解体验入口，用户可以选择模型-上传图片-输入问题，进行多模态理解能力的体验，同时可以对模型能力进行投票评价。

#模型如何申请加入「琅琊榜」对战列表？

欢迎模型研发机构参与中文大模型匿名对战。

申请邮件标题：申请加入琅琊榜大模型竞技场，发送到contact@superclue.ai；请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看琅琊榜详情

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247522792&idx=1&sn=3f7eb7696c865bd9c057bdd74ba78cde

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉