李彦宏对大模型又发表了新的观点。李彦宏在最近的一次内部讲话中说,未来大模型之间的差距可能会越来越大。大模型的天花板很高,现在距离理想情况还相差非常远。
李彦宏说,我认为外界对大模型有相当多的误解,每一个新模型发布时,肯定都想说自己有多好,每次都去跟GPT-4o做比较,拿测试集或者弄一些榜单,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不能证明这些新发的模型跟OpenAl最先进的模型相比已经没有那么大的差距了。
看到了吗?在李彦宏的世界中,同样认为应该和OpenAl最先进的模型做比较。而且,这么看李彦宏的信息似乎已经不足了。
他还说,部分自媒体的炒作,再加上每个新模型发布的时候都有宣传的动力,使得大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。在实际使用过程当中,我不允许我们的技术人员去打榜,真正衡量文心大模型能力的是,你在具体应用场景当中到底有没有能够满足用户的需求,有没有能够产生价值的增益,这是我们真正在乎的。
划重点了。第一,李彦宏不允许百度的技术人员去打榜。第二,真正衡量文心大模型能力的是,在具体应用场景当中到底有没有能够满足用户的需求,有没有能够产生价值的增益。
关于第一点,百度在文心一言的宣传上曾经多次说过各种第一,在这里也就不一一列举了,在百度搜索引擎上随便一搜索,还有。
关于第二点。简单来说,李彦宏认为评价大模型性能的标准是看能否满足用户需求。这个观点没错,但是从事实来看,文心一言似乎并没有怎么满足用户需求,网络上对文心一言或者百度的评价,大部分都是不认可的,这是事实。
另外,还有一个最直观的证明。9月11日,在上汽大众的发布会上,帕萨特Pro在演示其搭载的智能AI语音系统时“翻车”。上汽大众销售副总经理傅强连问几遍“帕萨特车机AI宝宝”:“嗨帕萨特,云南的过桥米线有什么故事?”
结果一开始主机大屏根本没反应,连问好几遍之后,AI竟然回答说:“每个人对靠背角度的需求都不同,但不是越躺平越好,根据数据研究发现,座椅靠背的角度在22度至32度之间,是中国消费者的黄金舒适区”。
座椅靠背和云南过桥米线有啥关系?据说现场媒老师和观众就算憋着也能听到“鹅”笑声……
而帕萨特的这个AI就是搭载的百度的AI文心一言大模型。百度AI为什么不懂云南过桥米线?这种“已读乱回”的AI,是李彦宏口中所说的满足用户需求吗?我看不是吧。
这件事儿有知情人士透露了一个情况。据说这个演示内容为提前录制,但高管在现场打乱了提问顺序,导致操作人员一时跟不上节奏,PPT多切了一页,事先准备好的语音没有及时同步,所以“翻车”了。
如果真的是提前录制的话,那我只能说,这还真符合百度的调性。毕竟,百度在文心一言的发布会的时候,也是提前录制好的演示视频。作为百度的合作伙伴也提前录视频,而不是真实演示,那就不足为奇了。
还有,李彦宏说,闭源模型准确地讲应该叫商业模型,商业化的模型是无数个用户或者说客户在共享同样的资源,在分摊研发成本、分摊推理用的机器资源和GPU,而开源模型需要你自己去部署一套东西,部署之后GPU的使用率是多少呢?
在我看来,百度已经投入了大量的人力物力去做AI,即便通过闭源模型来分摊成本,但是应该也被AI的惊天投入给吓到了。现在的百度,似乎已经有点骑虎难下的意思了。
原因是什么呢?方向错了?还是在李彦宏的影响下,伪高管太多了?李彦宏应该反思反思公司的内部管理了。别让只会向上管理的人耽误了技术进程。