首个中文大模型匿名竞技场「琅琊榜」榜单发布! 12000次投票,近20个领先模型,最高1173分

文摘   2024-06-06 12:16   浙江  

对战发起团队|SuperCLUE
2024年6月6日,国内首个中文大模型匿名对战竞技场「琅琊榜」正式发布,首期榜单包含17个中文代表性大模型,截止6月5日共获得12608次有效投票

#大模型竞技场「琅琊榜」

「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场,旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。

在这里,顶尖的中文大模型们将在完全匿名的环境下进行激烈对决,通过真实用户投票,实时产生排名和分析报告,为研究者和开发者提供宝贵的数据支持。琅琊榜致力于推动中文人工智能技术的发展,打造中文大模型领域的权威竞技场和榜单。

「琅琊榜」竞技场官方唯一地址:www.langyb.com

#首期榜单

在首期大模型竞技场「琅琊榜」榜单中,MiniMax的abab6.5-chat以1173分暂列榜首,智谱AI的GLM-4和月之暗面的moonshot-v1-128k(Kimi)紧随其后,分别取得1079分和1059分。在本次榜单中,超过1000分的大模型有10个,均有不俗表现。
注:已排除获得少于300票的模型,因为它们的置信区间可能会很大。部分模型API的价格是分别基于输入和输出的 token 数量确定的。这里我们依照输入 tokens 与输出 tokens 1:3 的比例来估算整体价格。

#「琅琊榜」性价比象限图

琅琊榜-性价比象限代表模型的能力和成本的均衡。我们将模型在「琅琊榜」竞技场中的分数与模型API的价格相结合,形成了区分性价比的四个象限。理想之选象限代表模型能力和成本均有很强的竞争优势 。

#「琅琊榜」用户数据解析

我们分析了10000多条用户问题,通过主题建模深入探究用户如何与模型互动。分析采用了OpenAI的文本嵌入模型text-embedding-3-small和K-means聚类算法,最后利用GPT-4对每个聚类的主题进行了总结,并展示了前10个主题。

以下为各类别的用户提问示例。

个人生活与知识探索

在目前的大环境下,普通人的出路在哪里?

职场探讨与个人发展

怎么更有效地安排我的日程,确保我有足够的时间进行自我提升?

关于社会和文化的探讨

您认为政府和社会应该如何提高老年人的生活质量和社会地位?

关于应用和系统的开发

创建一个网络安全教育平台 — 开发一个平台,提供网络安全相关的教学内容和互动课程。为企业员工提供网络安全培训,开发一个包含视频教程、测验和模拟网络攻击的在线学习平台,帮助员工识别和防范网络威胁。

解决优化问题和统计分析

便民肉菜市场售出的鸡肉的千克数是猪肉的3/5,售出的猪肉千克数是牛肉的4/5,售出的鸡肉、猪肉共1152千克,售出牛肉多少千克?

教育方法与策略的探讨

假如你是一名老师,看到学生都不想举手回答问题,用什么方法可以调动他们的积极性?

有关数据分析和预测建模

餐厅位置与销售分析 — 利用地理数据分析不同地点的餐厅销售表现。场景描述:餐饮集团希望了解地理位置如何影响其各餐厅的销售表现。数据集包括各餐厅的位置信息、月销售额和客流量。需要创建一个分析报告,展示地理位置与销售表现之间的关系,并识别表现优异或不佳的地点。请给出满足要求的模拟数据。

Python编程与功能实现

利用Python进行AB测试的数据分析。一个网站运营团队进行了两种不同的首页设计测试,需要分析哪种设计能带来更高的用户点击率。

关于科学研究和技术应用

在水稻种植中,现代农业技术(如生物技术、信息技术等)有哪些应用?它们对水稻产业的发展有何影响?

关于写作的各种问题和技巧讨论

编写一个关于友谊与信任的故事,展现人际关系的美好。创作一个以友谊与信任为主题的故事,描绘人际关系的美好。通过情节和角色,探讨友谊和信任的价值。

经过对用户提问长度分析,我们发现主要集中在20-40的Token之间。

#「琅琊榜」对战数据

此外,琅琊榜还展示了排位赛中每个模型的对战胜率。


#「琅琊榜」新增多模态理解对战
本次竞技场更新,新增了多模态理解体验入口,用户可以选择模型-上传图片-输入问题,进行多模态理解能力的体验,同时可以对模型能力进行投票评价。
#模型如何申请加入「琅琊榜」对战列表?

欢迎模型研发机构参与中文大模型匿名对战。

申请邮件标题:申请加入琅琊榜大模型竞技场,发送到contact@superclue.ai;请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE


   点击阅读原文,查看琅琊榜详情

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章