在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

科技 2024-11-19 22:34 北京

机器之心报道

编辑：泽南、蛋酱

大模型格局又变了？

刚刚，国内 AI 领域传来一则重要消息。

头部大模型创业公司阶跃星辰，凭借万亿参数大语言模型 Step-2，在业内权威大模型基准 LiveBench AI 上获得了第五名的好成绩，成为了前十名之内唯一的国产大模型。

排在阶跃星辰 Step-2 身前的，只剩下 OpenAI 和 Anthropic 两家公司。

榜单地址：https://livebench.ai/#

LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的，今年六月才首次上线。

它旨在消除现有 LLM 基准的局限性，被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

LiveBench 提出了一种创新的基准测试方法，其中包含 6 大类 18 项任务。

为了避免大模型「作弊」，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案，这样就可以在不使用 LLM 评审员的情况下，对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法，LiveBench 提供了一个公平、准确的评估平台，还同时推动了 LLM 的持续改进和社区参与。

此次杀入榜单前十的 step-2-16k-202411 模型的「Global Average」得分位列第五，已经非常接近第三名和第四名的 claude-3-5-sonnet-20240620 和 o1-mini-2024-09-12。

值得注意的是，在这次提交的成绩中，Step-2 的指令跟随（IF Average）得分全榜排名第一，展示了对语言生成细节的强大控制力。具体来说，该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事，但须遵守一项或多项指令，例如字数限制或在答辩中纳入特定元素。

不断进化的 Step-2 万亿参数大模型

自从最初的预览版发布以来，Step-2 一直在经历快速的技术迭代，迅速缩短与国际最顶级大模型的差距。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间，阶跃星辰发布了 Step-2 万亿参数语言大模型正式版，在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来，Step-2 万亿参数语言大模型有两大亮点：采用 MoE 架构，万亿参数。

训练 MoE 模型主要有两种方式：基于已有模型通过 upcycle（向上复用）开始训练，或者从头开始训练。upcycle 方式对算力的需求低、训练效率高，但上限低（比如基于拷贝复制得到的 MoE 模型容易造成专家同质化严重）。如果选择从头开始训练 MoE 模型，虽然训练难度高，但能获得更高的模型上限。

阶跃星辰团队在设计 Step-2 MoE 架构时选择完全自主研发从头开始训练，通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计，让 Step-2 中的每个「专家模型」都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。

此外，从头训练这样一个万亿参数模型对于系统团队是很大的考验。在 Step-2 训练过程中，阶跃星辰系统团队突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，成功完成了 Step-2 的每一次升级。

基于 Scaling Law，在模型参数达到万亿规模之后，数学、编程等涉及推理的能力都会显著提升。这也最终推动了 Step-2 今天能够取得媲美 OpenAI o1、Claude 3.5 Sonnet 等模型的好成绩。

不断进化的 Step-2 万亿参数语言大模型，已经接入了阶跃星辰 C 端智能助手「跃问」，在跃问 App 和跃问网页端（https://yuewen.cn）都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司，阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办，于去年 4 月成立，今年 3 月才开始崭露头角。

阶跃星辰创始人、CEO 姜大昕，曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。

但这家公司却在短短几个月时间站稳了国内 AI 创业公司的第一梯队，并在一年内快速发布了包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V、图像生成模型 Step-1X 在内的 Step 系列模型 “全家桶”。

从 AGI 技术路线上看，阶跃星辰的选择是：单模态 - 多模态 - 统一多模态理解和生成 - 世界模型 - 通用人工智能（AGI）。

在快速迭代模型的同时，这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前，阶跃星辰已经完成了自身的大模型 + 产品矩阵，呈现出强势崛起的姿态。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943688&idx=1&sn=b3e1d5c9bcfdf2d7f3db2c10fa1d2126

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉