编辑:阿冒
设计:沐由
在人工智能领域,中国公司正以惊人的速度追赶并超越西方同行。而在这个过程中,零一万物无疑是其中翘楚。由李开复亲自领导,零一万物通过一系列创新技术,成功地将 AI 模型的训练成本和推理成本都降低了97%,在成本优化方面远超 OpenAI、xAI、Google 等西方科技巨头。
本周,在由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员所发布的大模型排名中,零一万物凭借 Yi-Lightning 模型与发布了 Grok-2模型的xAI 一道并列世界第三的大模型公司,超越了 OpenAI 所发布的 GPT-4o(2024.05.13),这也是中国大模型首次实现“超越 GPT-4o”的里程碑式壮举。
更令人惊讶地是,零一万物的模型训练成本低到让马斯克都意想不到。xAI 为了进行 Grok-2 模型训练,花费了两万张 GPU,耗时4个月。而零一万物的 Yi-Lightning 仅用了 2000 张 GPU,训练了一个月,训练成本仅为 300 万美元,总成本仅为 Grok-2 的 2.5%左右。最后的结果呢?李开复打平了马斯克,并列第六。
在接受英国《金融时报》采访时,零一万物 CEO 李开复对外透露了零一万物的逆袭秘诀。面临尖端芯片获取的限制,零一万物通过使用较小数据集来训练 AI 模型、使用混合专家模型架构等方式,自创“模基共建”方法论,结合了硬件、芯片、内存、AI基础软件的垂直整合和优化,打造了Yi-Lightning(闪电模型)。该模型训练比xAI节省了97.5%,推理又比OpenAI GPT4o便宜31倍的。这样,零一万物既保证了模型性能处于世界第一梯队,又极大程度上降低了模型训练和推理成本。李开复补充说,零一万物的科研北极星不是“无论多贵多大,打造世界第一模型”,而是要打造一个世界第一梯队的模型、但是成本超低,能打造出高性价比模型,让开发者构建应用而不被推理成本压垮。
零一万物采用了“混合专家”模型架构,这是一种被美国研究人员率先提出但被中国公司发扬光大的模型架构。通过将多个基于特定行业数据训练的神经网络集合到一起,混合专家模型可以用较少的计算能力达到与稠密模型相同的智能水平。研究人员认为,混合专家模型架构是以较少的算力,达到与稠密模型相同智能水平的关键技术。但这种方法训练失败的可能性更大,比如说Meta的Llama就一直没有开发出来世界领先的混合专家模型,而中国公司似乎掌握了“混合专家”模型架构。尤其是零一万物和Deepseek,做出了世界最快的混合专家模型。
同时,零一万物在数据收集方面也做出了巨大努力。李开复对英国《金融时报》透露:“我们的数据收集方法远远优于传统的网络抓取方法,包括扫描书籍,爬取深网区数据,使用新颖的合成数据技术等。这种独特的数据收集方法,使得零一万物的模型具备了与竞争对手不同的特色和优势,就像孩子用了更优质的教材提升了教育水平一样。
这也是中国模型团队独有的优势所在,中国拥有大量技术优秀且价格合理的工程人才。李开复对英国《金融时报》表示:“工程师在数据标注和排序方面需要做很多不为人知的艰苦工作,但中国在这方面比美国更有优势。”这种人才红利,使得零一万物能够在更短的时间内实现技术的突破和应用的落地。
多方技术优势最终将 Yi-Lightning 的推理成本降到了极低水平。让我们来看一组惊人的数据:零一万物的 Yi-Lightning 模型,每百万个 token 的推理成本仅为 14 美分(0.99元人民币),而OpenAI 的更大模型 GPT-4o 的推理成本高达每百万个 token 4.4 美元。这是31倍的差距。李开复说:“中国的优势在于制造真正实惠的推理引擎,这是AI应用蓬勃发展最重要的一件事。”
“中国的优势一般不在在预算不封顶的情况下做出前所未有的突破性研究,而从移动互联网到AI1.0,我们都看到中国能做更好、更快、更可靠和更低成本地实现落地。我们现在面临应用即将爆发的前夕,对中国AI应用的未来,我非常乐观”,李开复说。
原文链接:https://www.ft.com/content/0a6da1bb-2bda-40f3-9645-97877eb0947c?shareType=nongift