大模型能力壁垒真的消失了吗？李彦宏内部讲话曝光..

文摘 2024-09-12 16:53 北京

9月11日下午，新浪科技独家获悉百度创始人、董事长兼CEO李彦宏最新内部讲话。李彦宏针对当前大模型技术发展的现状和趋势，提出了自己的观点和见解。

在谈到大模型之间的能力差距时，李彦宏明确表示不同意“大模型之间能力没有壁垒”的观点。他认为，外界对大模型存在误解，新模型发布时往往会通过与现有模型的比较来展示其性能，但这种比较并不能全面反映模型之间的实际差距。李彦宏指出，模型之间的差距是多维度的，包括理解能力、生成能力、逻辑推理能力、记忆能力以及成本等多个方面。他强调，尽管有些模型在测试集上的表现看似接近，但在实际应用中仍存在明显差距。

李彦宏还提到，部分自媒体的炒作和新模型发布时的宣传动力，使得公众对模型能力的印象有所偏差。他强调，百度在衡量文心大模型的能力时，更注重其在具体应用场景中是否能满足用户需求和产生价值增益。

在谈到开源模型与闭源模型的差距时，李彦宏认为，开源模型在效率上无法与商业化模型相比。他解释说，商业化模型能够通过大量用户共享资源来分摊研发和推理成本，而开源模型则需要用户自行部署，这在成本和使用率上难以与商业化模型竞争。

最后，李彦宏对AI应用的演进方式进行了阐述，特别强调了智能体的重要性。他认为，大模型的发展将经历从辅助人类到完全自动化的智能体的转变。智能体具有自主性，能够使用工具、进行反思和自我进化。李彦宏透露，百度已经在智能体领域取得了显著进展，每周都有上万个新的智能体在文心平台上被创造出来。

以下为内部讲话内容：

问：有观点认为，大模型之间的能力已经没有壁垒了？

李彦宏：这个说法我不同意。我认为外界对大模型有相当多的误解，每一个新模型发布时，肯定都想说自己有多好，每次都去跟GPT-4o做比较，拿测试集或者弄一些榜单，说我的得分已经跟它差不多了，甚至某些单项上得分已经超过它了，但这并不能证明这些新发的模型跟OpenAl最先进的模型相比已经没有那么大的差距了。

模型之间的差距是多维度的。一个维度是能力方面，不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距；另一个维度是成本方面，你想具备这个能力或者想回答这些问题，你付出的成本是多少？有些模型可能推理速度很慢，虽然也达到同样的效果了，但实际上它的体验还是不如最先进的模型。还有就是对于测试集的over-fitting，每一个想证明自己能力的模型都会去打榜，打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对，所以从榜单或者测试集上看，你觉得能力已经很接近了，但到实际应用中还是有明显差距的。

部分自媒体的炒作，再加上每个新模型发布的时候都有宣传的动力，使得大家有一种印象，认为模型之间的能力差别已经比较小了，其实真不是这样。在实际使用过程当中，我不允许我们的技术人员去打榜，真正衡量文心大模型能力的是，你在具体应用场景当中到底有没有能够满足用户的需求，有没有能够产生价值的增益，这是我们真正在乎的。

我们需要看到，一方面模型能力之间还有比较明显的差距，另外一方面天花板很高，你今天做到的跟你实际想要做到的、跟理想状态还差得非常远，所以模型还需要不断快速地去迭代、去更新、去升级。即使今天你看到差距也许没有那么大了，再过一年你看看差距有没有拉大？有谁能够持续不断地几年甚至十几年如一日往这个方向上去投入，让它越来越能够满足用户的需求、满足场景、满足提升效率或者说降低成本等需求？不同的模型之间差距不是越来越小，是会越来越大的，只是他们不知道真实需求的时候，只去做测试集的题可能觉得差不多了。

所谓的领先12个月或者落后18个月，我认为没有那么重要。我们每个公司都处在完全竞争的市场环境中，你不管做什么方向都有很多竞争对手，如果你能永远保证领先对手12~18个月，那是天下无敌的，不要觉得12—18个月是很短的时间，哪怕你能保证永远领先竞争对手6个月，那就赢了，你的市场份额可能是70%，而对手可能仅为20%甚至10%的份额。

问：有人说开源模型正在缩小与闭源模型的差距，这会摧毁闭源大模型公司的商业模式吗？

李彦宏：这个问题跟上一个问题是高度关联的，我刚才讲一个模型除了能力或效果之外还要看效率，效率上开源模型是不行的。闭源模型准确地讲应该叫商业模型，商业化的模型是无数个用户或者说客户在共享同样的资源，在分摊研发成本、分摊推理用的机器资源和GPU，而开源模型需要你自己去部署一套东西，部署之后GPU的使用率是多少呢？我们的文心大模型3.5、4.0也好，使用率都是90%多，你部署一个开源模型有多少人在用？我们对外讲文心大模型每天调用量超过6亿，每天生成的token数超过万亿，哪个开源模型可以说自己一天调用量是多少、生成了多少token？没有人用的话成本怎么分担？推理成本怎么能够跟商业化模型相比呢？

在大模型时代之前，大家习惯了开源意味着免费、意味着成本低。那时，市面上那种商业化的产品，每一个版本都要为之付钱，比如买一个电脑装Windows，可能微软要从中收多少钱，而你如果跑一个Linux就不用花这个钱了。由于Linux是开源的，所有程序员都可以看到代码，哪儿做的不好我可以去更新，更新了再check in，大家众人拾柴火焰高，你在巨人的肩膀上可以不断地进步。但是这些东西在大模型时代都不成立，大模型时代大家经常讲的是GPU有多贵，算力是决定大模型成败的一个关键因素，开源的模型给你送算力吗？它不给你送算力，怎么能够让算力高效地被利用？开源模型解决不了这个问题。

以前你买电脑的时候就已经为算力付费了，但大模型的推理不是这样，这个推理其实很贵。所以说开源大模型的价值在教学科研这些领域，要想搞清楚大模型的工作原理是啥，如果不知道源代码什么的肯定是有劣势的，但是真正在商业领域，当你追求的是效率、效果，追求的是最低的成本时，开源模型是没有优势的。

问：AI应用的演进方式是什么？为什么强调智能体？

李彦宏：大模型发展的过程必然要经历这几个阶段，一开始是对人进行辅助，最后出来什么东西需要人把最后一道关，我们确定它的效果是OK的，各方面都不错才会让它出去，这是Copilot阶段；再往下走就是Agent智能体，外界对于Agent有各种各样不同的定义，最主要还是说它有了一定的自主性，具备自主使用工具、反思、自我进化等能力；这种自动化程度再往下走就变成一个所谓的Al Worker，能够像人一样做各种各样的脑力和体力劳动，各方面的工作都可以独立完成。肯定要有这么一个过程。

“智能体是大模型最重要的发展方向”这个判断，其实是一个非共识。百度Create大会上我们发了三个产品，AgentBuilder、AppBuilder、ModelBuilder，其中AgentBuilder和AppBuilder都是讲智能体的，一个门槛更低一些，另一个功能更强大一些。当我们解释完了之后，有些人终于开始明白这东西确实有意思，能够产生价值，而且已经可以相对比较低门槛地做出来大家感觉可用的东西。从那时候开始智能体的热度才慢慢上来，也开始有很多人看好智能体这个发展方向，但是到今天为止智能体还不是共识，像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。

为什么我们这么强调智能体？因为智能体的门槛确实很低，我们去年说要卷应用、大家都去做应用，其实很多人还是说不知道该怎么做，不知道这个方向能不能做出来，我到底要用到什么能力才能够在这个场景下产生价值，这里面有无数不确定性，大家不知道怎么从模型变成应用。但是智能体提供了一个非常直接、非常高效、非常简单的方式，在模型之上构建智能体是相当方便的，这也是为什么今天每周都有上万个新的智能体在文心平台上被创造出来。

智能体方面我们已经看到了趋势，也有比较好的先决条件，除了模型本身的能力比较强大之外，我们也有很好的分发通路。百度的APP，尤其是百度搜索一天有数以亿计的人在用，用户的需求主动向我们表达了，哪一个智能体能更好地去回答他这些问题，去满足他这些需求，这是一个自然匹配的过程，所以我们是最能够帮助这些开发者分发他们智能体的。

*本号系数智云科旗下人工智能领域垂直号。黑智，人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

点击关注人工智能领域垂直号黑智

了解更多AI产业资讯

👇👇👇

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NjIxMg==&mid=2247494172&idx=1&sn=6b8d24cff0855d780a50b021e07fadb2

黑智

人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

最新文章

AI革命降速？专家称OpenAI新模型提升或微乎其微｜黑智编译

这家帮你叠衣服打扫卫生的机器人公司，估值20亿美金｜黑智编译

峰瑞资本李罡：具身智能前程远大，但每个“人”奔跑在曲折道路上

【京港AI应用加速器】首轮面试结束，最后报名机会不容错过

【聚焦互联网3.0】朝阳加快建设互联网3.0高地

任正非最新讲话：华为要向美国学习开放性、包容性

一个福建极客，正在帮实体商超重获生机

【品牌方专属邀请】集聚20+AI电商企业，推动品牌AI产业化升级……

文献书记围绕“应用场景创新促进科技成果转化”调研北京市数字人基地

184个项目报名，ITEC2024人工智能 & 互联网3.0专场赛亮点一览

ITEC2024全球创业赛人工智能及互联网3.0专场赛成功举办

2024怀柔黑马科技服务论坛举办，怀柔黑马科技加速实验室成果显著

角逐万亿隐形蓝海市场：开源情报如何靠AI更新换代

【征集通知】关于公开征集《朝阳区关于支持互联网3.0创新发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集《朝阳区促进通用人工智能创新应用发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集2024年朝阳区通用人工智能算力合作伙伴的通知

寻找具身智能潜力企业！2024具身智能最具投资潜力榜评选启动

安筱鹏：超越AI大模型的“加拉帕戈斯”效应

刚刚，Sam Altman发布最新预测：几千天后，人类将进入智能时代！

【最高110万资助】两地政策加持，公益项目京港AI应用加速器正式启动招募

京港洽谈会新亮点：京港AI应用加速器正式启动

吴泳铭：AI最大的想象力是接管数字世界，改变物理世界

谷歌AI机器人项目的终结：“登月计划”为何夭折｜黑智编译

OpenAI发布重磅模型o1，AI推理能力突破，智能水平向人类靠拢

大模型能力壁垒真的消失了吗？李彦宏内部讲话曝光..

高光时刻！一文看全苹果今年最重大发布会：iPhone 16、Apple Watch Series 10、新款 AirPods

AI驱动电商丨朝阳AI电商应用加速器正式开营，赋能电商企业创新发展

走出弯路：中国半导体正在走向“一个确定的未来”

牛文文：老板到底要不要做网红？

征集开始！天津市滨海新区“滨城人才服务证”专属卡面设计征集需求书发布

知网状告秘塔AI搜索侵权；腾讯回应“苹果税争议”：希望三赢正与苹果协商；美国司法部考虑分拆谷歌｜AI产业周报

张一鸣宿华帮忙出主意、黄仁勋帮忙“插队”买H100，“沐神”复盘创业第一年的进展、纠结和反思

技术精英团队领衔，打造世界级具身智能大脑，千寻智能宣布完成近2亿元天使轮融资

马斯克“复仇诉讼”OpenAI及其创始人；黄仁勋抛售近5亿美元股票；Figure AI新人形机器人“入职”宝马｜AI产业周报

如何破解“对赌回购”难题？20位大咖分享了7条方案！

Mistral AI：被法国总统赞扬，估值超60亿美元，直面微软、监管挑战｜黑智编译

星地AI应用孵化器路演日举行：24个AIGC创业项目、上百家投资机构参加，覆盖AIGC、大语言模型等多领域

苹果施压腾讯字节跳动或禁止微信抖音更新；微软将OpenAI列入竞争对手名单；英特尔宣布裁员 1.5 万人｜AI产业周报

黄仁勋对话扎克伯格：抨击闭源、互送夹克、预判下一波AI浪潮

朝阳区创投机构科技创新产业政策宣讲会顺利举行

网传百川智能A轮融资50亿元；Meta推出史上最强开源模型Llama 3.1；OpenAI推出SearchGPT｜AI产业周报

持续学习如何终结大模型的灾难性遗忘？这里有一份来自创业公司的实操案例

朱啸虎：投资AIGC企业的秘密全都藏在这九张图里

重磅发布！一文读懂北京市AI 电商应用现状及发展趋势

五大理由，速来报名！“创客北京2024”报名即将截止

关于开展新设市级政府投资基金储备项目常态化征集的通知

梅花创投吴世春：坚持向前走就是胜利

推动数实融合，2024全球数字经济大会互联网3.0高层论坛举办

牛文文：403天，一个中国AI实践者的观察与体验

疏通AI初创企业成长堵点、卡点，星地AI应用孵化器第三次活动如期举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉