深度丨成本领先或是中国大模型的唯一机会,零一万物、字节们的推理成本已领先OpenAI,仅为GPT-4o的4%

文摘   2024-10-21 09:00   上海  

与以OpenAI为代表的美国大模型公司相比,中国大模型公司肃然面临着尖端芯片获取、资金投入等方面的挑战,但是他们正在通过降低成本来打造具有国际竞争力的模型。

红杉资本的报告曾指出,AI产业每年需实现超过6000亿美元的产值,才能支付数据中心、加速GPU卡等AI基础设施的费用。根据《AI指数》的估算,最新一代人工智能模型的训练成本已经达到前所未有的水平。比如,OpenAI的GPT-4预计使用了价值7800万美元的计算资源进行训练,谷歌的Gemini Ultra则耗费了1.91亿美元的计算资源成本。

Anthropic创始人 Dario Amodei 在接受采访时表示,模型的每次迭代都需要使用更多计算资源,核心基础模型工程正变得越来越昂贵目前训练一个模型的成本大约为 1 亿美元,上下浮动两到三倍。Anthropic现在正在训练的模型成本将接近 10 亿美元。在 2025 年和 2026 年,他预计模型训练成本将更加接近 50 亿或 100 亿美元,与马斯克所预测的GPT 5的成本类似。


高昂的训练费用只有少数的科技巨头和AI龙头可以负担,传统的科研机构,比如大学、人工智能研究中心已经被排除在外,无力开发自己的基础模型。

与此同时,新的观点普遍认为,基础模型训练的资本支出或是“历史上贬值最快的资产”。尤其是以OpenAI为代表的大模型公司在训练和推理方面的支出已超过其收入。上个月,OpenAI刚在史上最大的一轮风险投资中筹集了66亿美元和其他数十亿美元的银行资金池,以覆盖预计到2026年将产生的高达140亿美元的亏损。

中国的AI公司正独辟蹊径。在头部的初创企业中,如零一万物(01.ai)和DeepSeek选择使用优质但较小数据集来训练AI模型,将大模型成本越推越低。字节跳动、阿里巴巴等大厂也燃起了大模型价格战,将调用大语言模型生成回答这段技术所需的“推理”成本降低了 90% 以上,仅为美国同行的价格的极小一部分。

零一万物创始人李开复表示,零一万物在较小的数据集上训练出了对算力要求较低的模型,并且创造了模基共建的方法,结合了硬件、芯片、内存、AI基础软件的垂直整合和优化,打造了Yi-Lightning(闪电模型)。该模型的推理成本比OpenAI GPT4o便宜31倍。

本周,在由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员所发布的大模型排名中,零一万物凭借 Yi-Lightning 模型与发布Grok-2、与马斯克创办的xAI并列为全球排名第三的大模型公司,仅次于 OpenAI 和谷歌的最新模型。

LMSYS是基于用户提出真实问题,然后针对不同模型的回答给出盲测投票,最终汇总成为对各个模型的评分。OpenAI、谷歌都在这里发布所有的模型,并接受LMSYS的排名。包括字节跳动、阿里巴巴和 DeepSeek 等其他中国大模型玩家,也悄悄爬上了 LMSYS 排名榜。

根据《金融时报》的报道,李开复认为,中国的优势在于制造真正实惠的推理引擎,这是AI应用蓬勃发展最重要的一件事。

零一万物 Yi-Lightning 的推理成本是每百万个 token 收取 14 美分(0.99 元人民币),而 OpenAI 的较小模型 o1-mini 每百万个 token 则需要 26 美分。与此同时,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本为每百万个 token 4.40美元。AI 大模型生成回答所用的 token 数量取决于查询的复杂度。

李开复还表示,Yi-Lightning 模型的“预训练”成本为 300 万美元,这指的是模型关键训练阶段的成本,之后可以根据不同的应用场景进行微调或定制。这预训练成本仅为 OpenAI 训练GPT-4的3%,而且Yi-Lightning性能还超越了GPT-4。他补充说,零一万物的科研北极星不是“无论多贵多大,打造世界第一模型”,而是要打造一个世界第一梯队的模型、但是成本超低、高性价比的模型,让开发者构建应用而不被推理成本压垮。

根据媒体报道,包括零一万物、DeepSeek、MiniMax 和阶跃星辰在内的许多中国大模型公司,都采用了所谓的“混合专家”模型架构。与 “从互联网和其他来源抓取数据构建起庞大数据库上,并一次性地训练一个庞大的‘稠密模型’”不同,“混合专家”模型选择将多个对不同领域可称为“专家”的神经网络集合到一起。

研究人员认为,混合专家模型架构是以较少的算力,达到与稠密模型相同智能水平的关键技术。但这种方法训练失败的可能性更大,因为在模型训练过程中需要同时协调多个“专家”模型,而非集中关注单个模型的训练。因此不少美国公司(如Meta的Llama)就没有开发出来,而中国公司似乎掌握了“混合专家”模型架构。尤其是零一万物和Deepseek,做出了世界最快的混合专家模型。

鉴于获取尖端AI 芯片供给的禁令和难度,中国 AI 领域的玩家在过去一年中一直在竞相开发高质量数据集来训练这些“专家”,使得自家模型具备与竞争对手不同的特色。零一万物采用了远远优于传统网络抓取方法的数据收集方法,包括扫描书籍,爬取深网区的数据,使用新颖的合成数据技术等。

李开复认为,中国拥有大量技术厉害且刻苦耐劳的工程人才,在这方面比美国更有优势。在有预算约束的情况下,中国的优势不一定是要做出前所未有的突破性研究,而是以更好、更快、更可靠和更低成本地实现技术的落地。


来源:

[1] Chinese AI groups get creative to drive down cost of models, https://www.ft.com/content/0a6da1bb-2bda-40f3-9645-97877eb0947c

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
 最新文章