速递丨零一万物全新SOTA旗舰模型亮相，中国大模型中首度超越 GPT-4o，获中美 AI 竞技至今最佳成绩

文摘 2024-10-16 12:15 北京

10月16日，继千亿参数模型 Yi-Large 之后，零一万物正式对外发布新旗舰模型 Yi-Lightning，在国际权威盲测榜单 LMSYS 上，Yi-Lightning 超越硅谷知名 OpenAI GPT-4o-2024-05-13、Anthropic Claude 3.5 Sonnet，排名世界第六，中国第一。这是在 LMSYS 这一全球大模型必争的公开擂台上，中国大模型首度实现“超越 OpenAI GPT-4o ”的最佳成绩！

在一众国内模型中，Yi-Lightning 再次拔得头筹，成为含金量最高的“中国大模型第一”。零一万物紧随 OpenAI、Google 之后，与 xAI 打平，进击全球前三大模型企业，以优异模型性能稳居世界第一梯队大模型公司之列。

模型性能升级之余，Yi-Lightning 的推理速度也有大幅提升，首包时间较上半年发布的 Yi-Large 提升一倍，最高生成速度提速近四成，堪称“极速”。同时，Yi-Lightning 还在保持高性能的同时，实现了推理成本的进一步下降。

目前 Yi-Lightning 已上线 Yi 大模型开放平台（https://platform.lingyiwanwu.com/），每百万 token 仅需 0.99 元，直逼行业最低价，以极致性价比助力开发者与企业客户轻松实现 SOTA 大模型自由。

Yi-Lightning 于 LMSYS 上超越 GPT-4o，继续领跑国内大模型

LMSYS Org 发布的 Chatbot Arena 凭借着新颖的“真实用户盲测投票”机制与 Elo 评分系统，已成为全球业界公认最接近真实用户使用场景、最具用户体感的“大模型奥林匹克”。

随着 Yi-Lightning 的加入，LMSYS ChatBot Arena 总榜排名再次发生震荡。在 LMSYS 总榜上，Yi-Lightning 的最新排名胜过硅谷头部企业 OpenAI GPT-4o-2024-05-13、Anthropic Claude 3.5 sonnet，在一众国内大模型中拔得头筹，超越 Qwen2.5-72b-Instruct、DeepSeek-V2.5、GLM-4-0520 等。

在众多分榜上，Yi-Lightning 的成绩同样出众。在中文分榜上，Yi-Lightning 超越了 xAI 发布的 Grok-2-08-13、智谱发布的 GLM-4-Plus 等国内外优质模型，与 o1-mini 等模型并列排名世界第二。

在多轮对话分榜上，Yi-Lightning 则是超越了 Google 所发布的 Gemini-1.5-Pro 、Anthropic 发布的 Claude 3.5 Sonnet 等知名旗舰模型，排名第三。

数学能力，代码能力方面，Yi-Lightning 同样处于全球第一梯队。在数学、代码分榜上，Yi-Lightning分别取得第三、第四名。

以专业性与高难度著称的艰难提问、长提问榜单上，Yi-Lightning 的表现依旧出众，均取得世界第四的优异成绩。

LMSYS Chatbot Arena 的用户体验评估不仅证明了 Yi-Lightning 的出色性能，也更为直观地验证了大模型解决真实世界问题的能力。这不仅证明了 Yi-Lightning 优异的模型性能，更重要的是，这也意味着 Yi-Lightning 能够丝滑地由实验室场景过渡到模拟真实用户场景，能够更快、更高质量地实现模型能力落地。

作为模型落地的典型场景之一，翻译场景十分全面地考验了模型语言理解和生成、跨语言能力、上下文感知能力，通过 Yi-Lightning 与Qwen2.5-72b-Instruct、DeepSeek-V2.5、Doubao-pro 的对比，Yi-Lightning 优异的模型性能也得到了最直观的展现：

Yi-Lightning翻译对比视频

追求极速推理，最高生成速度较 Yi-Large 提升近四成

从命名可以看出，与 Yi-Large 相比，Yi-Lightning 在模型性能更进一步的前提下，推理速度方面有着极大提升。这一方面得益于零一万物自身世界一流的 AI Infra 能力，另一方面则是由于，与此前稠密模型架构不同，Yi-Lightning 选择采用 Mixture of Experts（MoE）混合专家模型架构，并在模型训练过程中做了新的尝试。

内部评测数据显示，在 8xH100 算力基础下，以同样的任务规模进行测试，Yi-Lightning 的首包时间（从接收到任务请求到系统开始输出响应结果之间的时间）仅为 Yi-Large 的一半，最高生成速度也提升了近四成，大幅实现了旗舰模型的性能升级。

外部模型中，零一万物选择与 GPT-4o 做对比。仅凭肉眼就可以看出，Yi-Lightning 的生成速度，堪称“极速”。

Yi-Lightning生成速度对比视频

MoE 模型由多个专家网络（Experts）构成。这种模型设计使得它能够根据任务的难度，动态选择激活哪些专家网络。这种动态选择机制旨在平衡推理成本和模型性能，确保模型在处理不同难度任务时既高效又准确。在训练过程中，MoE 模型会激活所有专家网络，以确保模型能够学习到所有专家的知识；而在推理阶段，根据任务的难度，模型只会选择性地激活更匹配的专家网络。

这也使得激活参数的规模和模型总参数的规模成为 MoE 模型的两个关键概念。通常来说，激活参数与模型总参数的比例越大，模型的稀疏度就越高。虽然稀疏度的增加会极大程度上降低训练和推理成本，但是也往往会导致模型性能下降，显著加大训练难度。

因此，如何在保持模型性能接近最优的同时，尽可能减少激活参数的数量以降低训推成本、提升推理速度，是 MoE 模型训练的重点目标。具体到 Yi-Lightning 模型的训练，零一万物的模型团队进行了如下尝试，并取得了正向反馈：

1. 独特的混合注意力机制（Hybrid Attention）

此前关注 MoE 架构的大模型公司，如 Mistral AI ，大多采用了 Sliding Window Attention（滑动窗口注意力机制）。这种机制通过在输入序列上滑动一个固定大小的窗口来限制每个位置的关注范围，从而减少计算量并提高模型的效率和可扩展性。但是同样受限于固定窗口，模型可能无法充分考虑序列中较远位置的信息，导致信息理解不完整。

在 Yi-Lightning 的训练过程中，零一万物采用了混合注意力机制（Hybrid Attention）。这种机制只在模型的部分层次中将传统的全注意力（Full Attention）替换为滑动窗口注意力（Sliding Window Attention），旨在平衡模型在处理长序列数据时的性能和计算资源消耗。通过这种方式，Yi-Lightning 能够在保持模型对长序列数据的高效处理能力的同时，降低计算成本。

此外，零一万物还引入了跨层注意力（Cross-Layer Attention, CLA）的设计。这种设计允许模型在不同的层次之间共享键（Key）和值（Value）头，从而减少了对存储资源的需求。通过应用跨层注意力， Yi-Lightning 能够在不同层次之间更有效地共享信息，进一步提高了模型的推理效率。

结合这两项技术，零一万物成功地将 Yi-Lightning 模型在面对长序列数据时的表现保持在较高水平，同时显著降低了 KV 缓存的大小，实现了 2 倍至 4 倍的减少；某些层次的计算复杂度也由序列长度的平方级降低到线性级，进一步提高了模型的计算效率。这些改进使得 Yi-Lightning 模型本身在处理长序列数据时更加高效。

基于模基共建战略，零一万物在 AI Infra 方面也做出了进一步优化，结合 Yi-Lightning 的自身特性，共同确保了模型即便在资源受限的环境下也能够保持稳定、出色的表现。

2. 动态 Top-P 路由

面对简单的任务，MoE 模型可选择激活较少的专家网络以加快推理速度，同时保持良好的性能；面对更复杂的任务，MoE 模型则可以激活更多的专家网络可以提高模型的准确性。

动态 Top-P 路由就像是 MoE 模型中做出选择的“把关人”。它可以根据任务的难度动态自动选择最合适的专家网络组合，而无需人工干预。与传统的 Top-K 路由机制相比，动态 Top-P 路由能够更灵活地根据任务的难度调整激活的专家网络数量，从而更好地平衡推理成本和模型性能。

在 Yi-Lightning 训练过程中，零一万物选择引入动态 Top-P 路由机制，这使得 Yi-Lightning 能够更加智能地适应各种任务需求，这也是它能够实现“极速推理”的一大原因。

3. 多阶段训练（Multi-stage Training）

在 Yi-Lightning 的训练规划中，零一万物还改进了单阶段训练，使用了多阶段的训练模式。据介绍，在训练前期，零一万物模型团队更加注重数据的多样性，希望 Yi-Lightning 在这个阶段尽可能广泛地吸收不同的知识；而在训练后期则会更加侧重内容更丰富、知识性更强的数据。

通过这种各有侧重的方式， Yi-Lightning 得以在不同阶段吸收不同的知识，既便于模型团队进行数据配比的调试工作，同时在不同阶段采用不同的 batch size 和 LR schedule 来保证训练速度和稳定性。

结合多阶段的训练策略，辅之以自创高质量数据生产管线，零一万物不仅可以保证 Yi-Lightning 的训练效率，还可以让 Yi-Lightning 在具备丰富知识的同时，基于复杂且重要的数据做进一步的强化。此外，在有较多新增数据、或者想要对模型进行专有化时，零一万物也可以基于 Yi-Lightning 进行快速、低成本的重新训练。相较于传统的单阶段训练，这样的训练方法既可以保证模型整体的训练效果，同时也能更高效地利用训练数据。

“模型＋AI Infra＋应用”三体布局让大模型更快、更便宜、更“懂行”

国内大模型赛道狂奔进入第二年，商业化造血能力已经成为多方关注的焦点。而无论是 ToC 还是 ToB，如何提前预判 TC-PMF 是绕不开的核心命题。模型性能与推理成本，两项关键因素直接影响着大模型落地的成败。

Yi-Lightning 已在 LMSYS 等多项国际权威评测中取得 SOTA 成绩，同时支持极速推理，模型性能已得到验证。而基于 MoE 模型架构与零一万物的 AI Infra 优势，Yi-Lightning 的推理成本也降至行业新低。

目前， Yi-Lightning 已经上线 Yi 大模型开放平台（https://platform.lingyiwanwu.com/），每百万 token 仅需 0.99 元，直逼行业最低价，支持开发者与企业客户轻松实现 SOTA 大模型自由。

基于模型性能显著升级、推理成本大幅下降、同时可实现极速推理的 Yi-Lightning，零一万物可探索的落地场景将会进一步扩展。

10月16日，零一万物也首度对媒体公布了全新 ToB 战略下的首发行业应用产品 AI 2.0 数字人，聚焦零售和电商等场景，将最新版旗舰模型实践到行业解决方案，在弹幕互动、商品信息提取、实时话术生成等环节，AI 2.0 数字人已接入 Yi-Lightning。接入 Yi-Lightning 后，数字人的实时互动效果更好，话术更丝滑，回复也更准确；业务数据方面，在接入 Yi-Lightning 全新加持的数字人直播后，某酒旅企业的 GMV 较此前上升 170%。

Yi-Lightning数字人对比视频

同时， Yi-Lightning 的“极速”不仅体现在模型推理速度，定制模型的交付速度也会得到极大提升。受益于 MoE 模型的自身特性、在多阶段训练方面的技术积累，零一万物能够基于客户的特殊需求，进行高效地针对性训练，快速交付贴合特定服务场景、极速推理、成本极低的私有化定制模型。

“模型＋AI 基础设施＋应用”缺一不可，以大模型为引擎打造新质生产力

进入2024年以来，中国大模型行业从狂奔进入到了“长跑阶段”。从技术侧和产业侧都引发了行业的进一步思考。

从技术发展上看，在算力受限的情况下，中国基座模型的研发能力处在世界什么身位，如何追赶国外顶尖大模型等问题引发外界关注。甚至一度传出“中国可以不用再研发预训练基座模型”的说法。

从产业落地上看，如何让大模型技术走出实验室赋能千行百业，成为驱动实体经济增长的新质生产力，加速AI落地走入实业助力新一波经济增长，也成为各方关注点。

零一万物此次推出的Yi-Lightning模型一经亮相，就在世界权威的盲测榜单LMSYS中击败了OpenAI今年五月发布的GPT-4o。中国大模型首度超越性能极佳的 GPT-4o 对于我国人工智能发展是个里程碑事件，彰显了中国所孕育的强大技术实力。

零一万物同时推出的面向企业客户的两款解决方案，不仅又快又好，而且能把世界顶尖模型的价格做到白菜价，在实践案例上有效提升了企业用户的营收。

这些都彰显了中国大模型公司“模型＋基础设施＋应用”“三位一体”全栈式布局的必要性和重要性，这不仅构筑大模型企业自身的技术护城河，确保自身模型核心技术的安全性，也是把创新技术产业化，赋能实体经济的有益的探索。未来，零一万物将继续夯实“三位一体”的布局，为推动中国大模型成为驱动千行百业的新质生产力贡献自己的力量。

零一万物 CEO 李开复博士表示，Yi-Lightning 的出色表现是零一万物“模基共建”战略正确性的又一有力例证，作为兼具性能与性价比的新旗舰模型，Yi-Lightning 也将成为零一万物探索“模应一体”的重要基石。AGI 仍在远方，现阶段更需要让大模型能力落地应用层，推动整个大模型行业形成健康的生态。在这一阶段，零一万物会坚持“模型＋AI Infra＋应用”三位一体的全栈式布局，以国际 SOTA 的基座模型为基础，积极在 ToB 企业级解决方案上探索 TC-PMF，以更从容的姿态迎接即将到来的 AI 普惠时代。

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

Z Finance

我们相信认知能够跨越阶层，致力于为年轻人提供高质量的科技和财经内容。

速递｜微软亚研院胡瀚空降腾讯，混元多模态大模型迎新负责人，前负责人刘威已开始AI视频领域创业

速递｜Shein接受英国议会质询被指“无视”英国议员，上市计划恐再生变

速递｜被美国列入清单后，腾讯进行近20年来最大规模股票回购，或对美国防部提起诉讼

速递｜光速领投Anthropic新一轮600亿美元估值融资，年收入已近10亿美元

深度｜赎回条款或成为压死创业公司的最后一根稻草，创业者正集体被投资人拉入失信黑名单

速递｜字节短剧正式出海！Melolo瞄准成为下一个红果，海外短剧市场已经爆发

速递｜腾讯和宁德时代被加入美国防部名单，对华企业打压再次升级

速递｜阿里云或考虑收购零一万物预训练团队，或因周畅离职后阿里需补强AI技术人才

速递｜阿里与TCL强强联手入局AI眼镜，大厂频频入场，AI硬件卷疯了！

速递｜三星电视遥遥领先，将与微软与谷歌合作推出AI TV功能

速递｜小鹏将与大众互相开放快充网络，合计充电桩超2万个，覆盖中国420个城市

速递｜反转再反转，美国司法部请求最高法院拒绝特朗普推迟TikTok禁令的请求，下周将在最高法院口头答辩

速递｜商汤重组后海外收缩，正缩减新加坡办公室，此前6年亏掉500亿

速递｜微软计划今年在数据中心上投资800亿美元，较去年增加60%

速递｜美国广告业变天，TikTok承诺如果不能阻止禁令将为广告商退款，油管和Ins或坐收渔翁之利

速递｜美国考虑对中国无人机实施限制或禁令新规，已要求大疆和道通智能接受安全评估

速递｜零一万物toB战略迎重量级合作，与阿里云成立“产业大模型联合实验室”

速递｜英国议员传唤Shein和Temu接受质询，Shein上市或再生变

速递｜美国对华投资限制新规今日生效，将波及非AI领域投资，美国LP投资中国美元基金的时代或已结束

速递｜中国短视频市场可能已达顶峰，总用户数超10亿人后首次下滑

速递｜英伟达一年投资50+初创公司，已出资超过10亿美元，较2022年增长10倍

深度｜字节跳动明年或砸70亿美元采购英伟达芯片，合计AI投资或超200亿美元，国内大厂与字节的AI差距将继续拉开

速递｜英伟达7亿美元收购AI Infra公司Run:ai，AI生态将进一步开源

速递｜字节旗下剪映或现高管离职潮，技术与产品负责人双双离职，职级对应4-2或5-1

Z Waves｜朱骏Alex：TikTok前身Musical.ly之父，字节跳动AI掌舵人，马云早期设计师，张一鸣背后的产品天才

速递｜Anthropic CEO透露百度或比OpenAI更早发现Scaling Law，曾与吴恩达在百度工作

速递｜英伟达明年推出人形机器人计算机，认为物理AI的‘ChatGPT时刻’即将到来

速递｜美团将建立算法公开机制，明年年底前逐步取消骑手超时扣款

速递｜重磅！特朗普要求最高法院暂停TikTok拆分案，希望通过谈判解决争端

Z Waves｜何同学：20岁爆红的千万粉丝博主，5G最大受益人，22岁征服雷军和库克

深度｜OpenAI与微软日生嫌隙，不满投资协议中规定的收入分成以及服务器捆绑

速递｜阿里进军韩国市场，与零售巨头组建40亿美元合资企业

速递｜腾讯开始申请马来西亚运营牌照，互联网大厂在东南亚监管升级

Z Explorer｜不限专业、地点、时间的实习，只需想做点有意思的事！

速递｜亚马逊针对Temu要求商家二选一？Temu今年美国GMV预计180亿美元，电商竞争加剧

速递｜顶级VC合伙人出现离职潮，一级市场正在残酷的新老交替

速递｜理想汽车李想：发力大模型建立全面AI生态，汽车本质上是一种无接触机器人

速递｜苹果严防死守英伟达，曾因焊点门事件撕逼，选择与博通合作开发AI芯片

深度｜外资PE退出难，今年仅1家有并购退出，70%没有任何新投资

速递｜字节TikTok算法负责人爆出离职细节，或是因为明升暗降？

速递｜SHEIN聘请法国前内政部长，或因为欧洲监管环境越来越复杂

速递｜成立11年Telegram首次实现盈利，年收入一年翻近3倍达10亿美元

速递｜字节TikTok算法负责人陈志杰被曝离职创业，已有超18位字节系离职AI创业

ZPedia｜小红书低调上线AI搜索新产品，或是彻底打败百度的秘密武器

速递｜字节20亿杭州未来科技城总部建成，明年5月正式启用

速递｜清北两头抓，字节与北大成立豆包大模型系统软件联合实验室

速递｜阶跃星辰完成数亿美元 B 轮融资，多款爆款AI应用底座，API调用量半年暴增45倍

速递｜特朗普发出强烈信号，短期内将允许TikTok在美运营

速递｜博通CEO陈福阳：AI投资热潮将持续至2030年，Scaling Law还远没到极限

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉