登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

科技 2024-11-20 22:24 北京

在“最难AI榜”，拿下中国第一、全球第五。

作者｜王艺‍‍‍

编辑｜栗子‍‍‍

11月19日，国际权威榜单LiveBench官网公布了最新的语言大模型测评结果：作为唯一进入前十名的中国公司，阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411（下文简称Step-2）位列全球第五，成绩逼近OpenAI的o1-mini-2024-09-12，超越 gpt-4o-2024-08-06、gemini-1.5-pro-002等国际主流模型，是表现最佳的中国基座大模型。

图源： LiveBench官网

根据榜单，Step-2在IF Average（Instruction Following）一项表现突出，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

在AI届， LiveBench榜单一直以严苛的标准被人称为“最难AI榜”。而在国内AI“六小强”中阶跃星辰一直以技术实力强和低调著称，此次登顶LiveBench榜单中国第一，也掀开了这家大模型创业公司的神秘面纱。

1.最权威榜单的最惊艳亮相

事实上，LiveBench是今年新推出的大模型基准测试，但它已经迅速跻身为AI圈“最具权威性和挑战性”的榜单。

不仅因为LiveBench是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构推出的大模型测评基准，更因为它特殊的评测机制，被行业内誉为“无法被操纵的LLM基准测试”。

图源：LiveBench官网

LiveBench自设立之初就致力于消灭“刷榜作弊”的可能性：在评估前就用评估基准数据集相关或完全相同的数据进行训练，最终取得较高排名（就像手机厂商针对安兔兔跑分优化一样）。

而且LiveBench每月会发布新问题，并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题，以限制可能出现的数据污染现象，并且每个问题都有可验证的、客观的基本真实答案，最大限度保证结果的客观性。

LiveBench的权威性也部分源自评测范围广泛，截至今年6月，已经评估了几个著名的闭源模型和数十个开源模型。

LiveBench有多难？此前GPT-4-Turbo曾在SuperCLUE-OPEN基准上取得了98.40的高分。但在LiveBench上，GPT-4-Turbo整体准确率却只有50%左右。

在这样严苛的测试标准下，阶跃星辰Step-2-16k-202411万亿参数MoE模型不仅拿下了中国第一、全球第五的名次，其成绩更是超越了GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型，直逼OpenAI 的o1-mini-2024-09-12。

尤为值得一提的是，Step-2在IF Average（Instruction Following，指令跟随）一项表现突出，超越了包括o1-preview-2024-09-12 在内的所有国内外语言大模型。这项指标意味着大模型在语言生成上对细节有最强的控制力，模型能够更好地理解和遵循人类指令。

Step-2-16k-202411指令跟随能力全榜第一，图源：LiveBench

2.模型能力不断进化，指令跟随全榜第一

阶跃星辰之所以能够首次参加LiveBench评测就取得如此高的成绩，与其自研Step-2大模型的两大特点密不可分——万亿参数和MoE架构。

相对于阶跃星辰自研的千亿参数语言大模型Step-1，Step-2的综合能力提升了近50%，无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。

在模糊指令方面，Step-2具备出色的理解能力，能够从上下文中推断出用户的需求，精准捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应。在知识分布方面，Step-2在知识覆盖范围和深度上都取得显著突破，不仅能够处理常见领域知识，还能深入理解和回答在特定领域或边缘分布中的复杂问题。

我们在阶跃星辰的C端智能助手「跃问」上测试了Step-2的效果。

给出一道数学题，「跃问」能很快给出解答。

数学题，图源：跃问

在文字创作方面，Step-2能够生成高质量、有创意的文字内容，同时具备出色的细节控制能力，能够根据用户的指令对文本进行精确地调整和优化。

阶跃星辰CEO姜大昕认为，想把模型参数扩大到万亿的话，MoE几乎是一个必选项。但从千亿模型到万亿模型，所遇到的挑战是前所未有的。阶跃星辰团队在设计Step-2 MoE架构时候选择了迎难而上，完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新MoE架构设计，Step-2中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分稠密模型。

这也是Step-2之所以具有超强能力的根本原因所在。

3.模型矩阵完善，战略布局全面

大模型算法结构复杂、对算力要求高、对数据需求大，大语言模型和多模态大模型的技术路线也存在差异。也正是因此，不少公司都选择了“取其一点、打穿打透”的策略，专攻大语言模型或多模态大模型。

但阶跃不同。在众多国产模型厂商中，阶跃星辰是为数不多同时布局大语言模型与多模态模型、两个方向齐发力的公司。

除了完整、全面的模型矩阵，阶跃星辰的模型迭代速度也走在全国前列：

在2024年3月23日的全球开发者先锋大会上，阶跃发布了语言大模型Step-2的预览版——这也是国内初创公司，首次交出的万亿参数模型的答卷。

而今年7月，仅仅时隔100天，阶跃星辰就在2024 WAIC上发布了Step-2万亿参数大语言模型正式版，以及Step-1.5V多模态大模型、Step-1X图像生成大模型。

相较于其他厂商每半年或一年才更新一个新版本，阶跃星辰的迭代速度不可谓不快。

目前，阶跃星辰 Step 系列通用大模型矩阵，已经覆盖了从千亿参数到万亿参数，从语言到多模态，从理解到生成的全面能力。

阶跃星辰创始人兼CEO姜大昕认为，要实现AGI的终局需要走一条“单模态—多模态—多模理解和生成的统一—世界模型—AGI（通用人工智能）”的路。

今年随着o1的发布，AI技术也出现了新的范式，国内外基座大模型研发的竞赛还在继续。相信包括阶跃星辰的国产大模型，会继续在实现AGI之路上创造更多惊喜。

（封面图来源：阶跃星辰官网）

END.

http://mp.weixin.qq.com/s?__biz=MzU5OTI0NTc3Mg==&mid=2247538272&idx=1&sn=f3e61ca228bd2d0a7af40123e34790a5

甲子光年

甲子光年是一家科技智库，包含智库、社群、企业服务版块，立足中国科技创新前沿阵地，动态跟踪头部科技企业发展和传统产业技术升级案例，推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

最新文章

登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

中国电子签，十年已过万重山｜甲子光年

全球eVTOL研发排名第9，沃飞长空如何用钉钉做研发？｜甲子光年

独家专访新型神经网络FAN作者：用傅里叶分析弥补Transformer重要缺陷｜甲子光年

美国政府COO马斯克｜甲子光年

对话李彦宏：应用驱动是百度的第一性原理，基础模型两年一个大版本就够了｜甲子光年

首批重磅嘉宾曝光！2024甲子引力年终盛典等你参与！｜甲子引力

2024，终会成为直播电商拐点｜甲子光年

AI如何在物理世界更好的产生效用？｜甲子光年

“AI+代码”是暂存的假象，还是前途无量？｜甲子光年智库

新消费时代，柔性供应链如何帮助工厂打造“新质生产力”？｜甲子光年

零一万物发布行业解决方案：AI to B如何才能不赔钱？｜甲子光年

甲小姐对话RockAI刘凡平：以群体智能挑战OpenAI的造神之路｜甲子光年

【榜单征集：2024全球AI华人青年科学领袖奖】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

为什么这款只有345克重的手写AI笔记办公本出圈了？｜甲子光年

美国大选前的硅谷：政治漩涡中的权力游戏｜甲子光年

「甲子光年」在第19届亚洲品牌盛典、第十八届中国品牌节揽获四项大奖｜甲子光年

香港科技产业，不必再提“失去的二十年”｜甲子光年

独家直击Liquid AI发布会：非Transformer架构AI模型有了听觉和视觉｜甲子光年

【榜单征集：全球青年科学领袖奖】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

《2024年AI代码平台及产品发展简报》——重构智能时代的开发模式，释放AI数字生产力｜甲子光年智库

年度最大港股IPO诞生，地平线做对了什么？｜甲子光年

【万千流变，一如既往】2024甲子引力年终盛典将于12月10日-11日在北京召开｜甲子引力

城市算力网，为什么是海淀？｜甲子光年

【榜单征集：企业榜】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

【榜单征集：机构榜】2024甲子引力年终盛典：万千流变一如既往｜甲子引力

智源研究院：Emu3证明Scaling Law在多模态大模型上依然成立｜甲子光年

AI硬件如何摆脱“昙花一现”的魔咒｜甲子光年

AI手机爆发年，手机芯片如何从顺应潮流到引领潮流？｜甲子光年

AI触手可及，我们应该做些什么？｜甲子光年

玻色量子获数亿元A轮融资，量子计算离我们还有多远？｜甲子光年

史上录取率最低YC，一个信息检索工具为何脱颖而出？｜甲子光年

金华金义新区：因地制宜发展信创新质生产力｜甲子光年

特斯拉Robotaxi发布，马斯克望投资者再信他一次｜甲子光年

致敬稀缺：万千流变，一如既往｜甲子光年七周年

自动驾驶竞赛生死时速：中美“土洋萝卜”谁将主宰未来？｜甲子光年

人工智能学者拿下诺贝尔物理学奖，意料之外还是情理之中？｜甲子光年

处于多事之秋的OpenAI，决定拯救开发者预算｜甲子光年

从一所“年轻”大学走出的国际顶会获奖团队｜甲子光年

数据产业新实践：密态计算技术迈向商业化｜甲子光年

10个AI驱动的小产品，展现100种创新力量｜甲子光年

训练两个小时需要半个小时保存数据，如何破局？｜甲子光年

在百度这场大赛上，我们看到了“AI超级应用”的影子｜甲子光年

估值超200亿的AIoT独角兽要IPO了｜甲子光年

Meta开发者大会：黄仁勋亲测全新全息AR眼镜，Llama 3.2发布｜甲子光年

专访地瓜机器人：今天的具身智能就像八年前的自动驾驶，投入要趁早｜甲子光年

具身智能工业机器人，何必是人形？｜甲子光年

人被异化的投影，正在被机器人消除｜甲子光年

这家AI公司，做出了全球最大的原生3D大模型｜甲子光年

生成式AI落地的无数种可能，都在云栖大会看到了｜甲子光年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉