大模型落地，苦「最强」久矣

财富 2024-12-24 17:27 浙江

图片来源：由无界AI生成

作者 | Cynthia

没有刷不了的榜，只有还没 over-fitting 的数据集；

没有搞不定的第一，只有还没加够 XX 领域，XX 尺寸，XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起，AI 打榜就成为了行业默认惯例，但历来如此，就是真的正确吗？

去年 9 月，一篇 LLM 味爆棚的反讽文章，在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》，（别搞大模型了），你只需要在测试集上预训练就够了。

吐槽了市面上层出不穷的各种大模型测试榜单之外，这篇论文，直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如，使用测试集中数据提问 phi-1.5，模型会立刻给出一个精准的回复，但只要改变一个数字或者改变一下数据格式，回答立刻变得牛头不对马嘴幻觉频出。

原因很简单，为了刷榜，模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集，做了针对性训练。

过拟合的 A 面，是让模型在打榜过程中取得了人人都是大模型第一的地位，B 面则是，模型的泛化能力被极大削弱，失去了大模型应有的创造与思考的能力。

大模型落地，苦「第一」久矣。尽管，这已经成为大模型产业心照不宣的秘密。

那么，「第一」真的代表更强的能力吗？所谓的最强大模型真的存在？行业落地，又到底需要怎样的标准？

或许，前赴后继的刷榜本质，是独属于大模型产业的强者傲慢。

最佳大模型的傲慢与偏见

一定程度上，基准测试失真，于大模型而言，表面上看是标准问题，实际上是宣传问题，本质上则是如何落地的商业模式难题。

Scaling law 的主导下，进入万亿参数时代的大模型强者恒强成为唯一的生存密码：根据公开信息披露，仅 GPT4 就有约 1.8 万亿参数，其训练过程，需要消耗约 2.15e25 FLOPS 算力，更直观来说，需要约 25,000 个 A100 GPU，马力全开，训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算，理想情况下，一次训练的成本就需要花费至少 6000 万美元。

与此同时，头部大模型玩家，平均两个月左右，就会迎来一次技术或产品的迭代；而形成鲜明对比的是，国内的大模型六小龙，即使如今估值最高的智谱，算上最新一轮融资，其总融资额，也不过 55 亿。

一边是不断膨胀的参数，不断增加的成本；一边是盲盒黑箱式的技术原理，与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值，打榜自然也就成了最直观的捷径。

但这一切的前提是，大模型落地，真的存在所谓的最强大模型吗？

答案或许是否定的。

技术落地与研究不同，具体到场景之中，强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求，往往对应着不同的最优解法：其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku；GPT 4o 分为标准版与 mini 版；谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是，各大模型的增强版与 mini 版，在实际部署中，往往是拥有更低时延与低成本优势的 mini 版本，会更受欢迎。

即使单纯聚焦到技术的单一维度，「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中，各家大模型评分往往各有千秋；而一旦将视角转为写作、绘画、视频生成，那么如何评定最优大模型，1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台，亚马逊云科技，就曾注意到：在亚马逊云上，不同开发者往往会关注不同性能，比如，有人会关注更低的延迟、更低的成本，有人更关注模型是否具备微调能力、能更好地协调不同知识库以固定数据，还有团队更关注模型的多模态能力，或者知识扩散迁移能力。

也是因此，什么才是所谓的最强大模型，在一轮轮热潮中，这个话题被反复讨论、被热议、被反思，但从来未被解决。

但可以肯定的是，任何单一维度的「第一」「最强」叙事，都是对复杂场景的简单化。

Choice is All You Need

「最强」=无敌，只是技术至上者的傲慢，以及对用户真实需求的偏见，这一点已经在无数行业中被反复证实。

二十一世纪初期，许多经济学家、产业学家，在观察了日本一众历史优势产业的发展之后都发现了一个怪状：

无论电视机，亦或半导体，乃至汽车，日本无疑是「最强」叙事的顶级推崇者，以及最佳实践案例，但最终的解决却无一例外，集体走向没落。

比如，日本的电视，在显像管时期做到画质最高，却在短短几年被更轻薄的液晶打败；日本面向大型机时代研发的存储芯片，一度做到保质期 30 年，却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败；日本的汽车，在燃油车时代无疑是最耐用、最保值的代名词，甚至是新能源时代，也一步到位发展了最清洁的氢能源燃料电池，却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰？生物学家给出了解答——日本产业，陷入了加拉帕戈斯陷阱，一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」，往往在面对复杂的真实场景与需求会显得格格不入，乃至不堪一击。

相比「最佳」，行业更需要的是，需求被看见，过程有的选，结果更适合。

就像数据库领域，即使传统的 SQL 数据库已经常年占据统治地位，依然会有各种各样的 noSQL 数据库冒出，甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架，也是个最好的例子，TensorFlow 之前，cafe 就足以满足市场的需求，但此后 TensorFlow 出现，一统天下，然而，没几年后，PyTorch 就横空出现，从学术领域出发逆袭，成为一代新的框架之王，但与此同时，TensorFlow 以及其他小众 AI 框架，依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上，就分享了这样一个观察：

「在亚马逊内部，所有开发者都有自主选择的权利，原本以为大家都会选用 Anthropic 的 Claude 模型，毕竟过去一年多它在全球属于性能顶尖的模型，确实有很多内部开发者在使用 Claude 模型，但他们也会采用 Llama 模型、Mistral 模型，还会运用自己开发的一些模型，甚至会使用自行研发的模型。」

比如，金融行业更需要内容生成的绝对准确性；大部分企业，则需要在性能与成本之间，做反复的平衡。甚至，同样是绘画，在诸如还原山海经之类场景中，大模型幻觉就是产生想象力的最佳礼物；而在绘制写实风漫画或人物建模，任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门，那么与其替用户选择，不如给足用户选择。

亚马逊云科技的 Choice matters

事实上，让客户有的选，是各大公有云厂商都在宣传的口号。但何谓有的选，选择的范围如何，背后的定义却往往各有千秋。亚马逊云科技无疑是其中，最开放、最激进的一个。

在亚马逊云科技，有的选，可以被解读出三重含义。

第一重，性能还是成本，用户有的选。

re:Invent 期间，亚马逊云科技推出全新发布的自研 Nova 基础模型，一共包括 Micro、Lite、Pro、Premier 四个版本。其中，可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型，主打高效级；其余三大多模态大模型中，Lite 主打轻量级，Pro 主打平衡，旗舰模型 Amazon Nova Premier，则主要用于应对复杂任务。

第二重，亚马逊云科技 or 其他，用户有的选是最高原则。

相比自研的 Nova 基础模型，如何支持更多的模型上架亚马逊云科技，才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型，亚马逊云科技的大模型货架 Amazon Bedrock 不仅上架自家的 Nova 系列，同时还上线了亚马逊投资的 Anthropic 的 Claude 系列。

此外，Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型，金融领域的 Palmyra-Fin，翻译明星 Solar Pro，多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai，生物学方向的 ESM3 生成式生物学模型，也全部在 Amazon Bedrock 上架。

主打一个从自研到第三方，从文本到多模态，从通用到垂直，只要用户需要，Amazon Bedrock 应上尽上。

当然，不只是有的选，最重要的也就是第三层，亚马逊云科技不仅要让客户有的选，更能低成本的选。

如果只是上架第三方模型，那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员，能够真正做到不偏心自研产品，以用户需求为导向，还需要观察云服务公司究竟如何设计用户选择的门槛。

首先是定价，如何在亚马逊云科技销售模型，定价由模型提供商自行设置。

与此同时，为了降低用户使用大模型的成本以及选择难度，Amazon Bedrock 还提供了自定义微调和模型蒸馏（Model Distillation）功能以及多智能体协作工具（Multi-agent collaboration）、自动推理检查（Automated Reasoning checks）等功能。

一方面，帮助企业更好的选择合适的模型，另一方面，加速不同的模型与智能体之间的高效协同。

当然，这种有的选，不止体现在模型侧，在算力、数据库领域同样如此。

比如，在算力上，亚马逊云科技会提供不同层级的 EC2 实例，用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer，不必受限于单一芯片平台或算力方案。

数据库方向，亚马逊云科技打破 CAP「困境」，推出无服务器分布式 SQL 的数据库 Amazon Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库 Amazon DynamoDB global tables，尊重客户真正的需求。

从模型到算力再到数据库，一切决策的最高原则都是「Choice matters」，让用户去自由决策。

尾声

在经济学中，有一个有趣的悖论叫古德哈特定律。

其提出背景是，一旦我们过度关注乃至管理一个经济指标时，往往会为了达成这一指标而扭曲真实目的，以至于牺牲其他方面的利益，以至于指标本身失效。

AI 领域同理，当参数与性能变成唯一指标，其强大的扭曲力场会让真实的用户需求被忽略。

尽管，用 AI 替代客服所以更关注成本，用 AI 帮助手残画出想要的画面所以更关注多模态能力，用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革，才是 AI 改变世界的真正组成。

而在这一过程中，用户的真实需求被看见，被尊重，有选择，正是一切进步发生的基础。

中国AIGC产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦AIGC领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI新智界园区开放合作啦！

AIGC新智界

专注于 AIGC、数字版权、元宇宙以及区块链等新技术领域的报道。

最新文章

OpenAI直播12天，马斯克融资437亿

日入千元！一个人也能开起AI照相馆了

大模型落地，苦「最强」久矣

媒体再爆：OpenAI的GPT-5训练遇阻，时间延迟且成本高昂

OpenAI成功为自己制造了危机

AI+Emoji，终于打了一场胜仗？

史上最大规模融资！AI巨无霸Databricks诞生，投资细节公开

沾AI价格暴涨十倍，玩具圈想再造一个泡泡玛特

字节丢的面子，正靠AI挽回

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

贴身追随OpenAI的中国公司，从智谱换成了月之暗面？

海螺们不想交“买路财”

Sora能带飞剪映吗？

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

奥特曼，杨植麟的理想型？

柜哥柜姐，AI的新工作

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

我用AI 卖大米，一个人就是一个团队

Sora终于来了，但卷王可灵已经「拍」上了AI电影

体操运动，是所有AI视频最残酷的图灵测试

最新国内AI手机排行榜，让人有点破防

Sora发布！这次的惊艳居然不在模型，而是产品设计和制作流

AI公司到底谁在喝汤，谁在吃肉？

第一批 AI 员工，即将入职电商公司

惊喜！OpenAI第3天产品会很炸裂，Sam Altman非常兴奋

大模型创业“生死局”：融资困难、造血乏力、卖身离场

奥特曼悔不当初：OpenAI因无知选择“非营利”

让一让，全球最鲜活的AI小猫来了

AI营销的风，还是吹到了A股

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

马斯克起诉OpenAI：要求开源产品，36页诉状大公开！

AI时代，图库会被媒体抛弃吗？

3个月估值10亿，李飞飞空间智能首个模型诞生！

ChatGPT拒绝谈论这个人，没人知道为什么

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！

如今的华强北，被AI包围

谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

一家老牌明星AI公司，倒在大模型时代

这个群体，用AI 捏爆款，1人年入百万

这届AI顶流都在小红书？

一文看尽Meta开源大礼包！

人本智能时代：谁在为AI“立规矩”？

Nature：谷歌学术正在被AI工具颠覆

我，机器人艺术家，一幅画卖 700 万

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

“一人AI公司”已实现年入百万

开始分家：零一万物计划独立 AI 游戏公司

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉