并不乐观?

科技   2024-11-20 13:05   湖南  

今天文章的最后我放了一个「AI 版唐韧」的小程序入口,还没有体验过的可以看完文章后去试试。


另外,马上年底了,我会继续带一批产品经理提升综合能力,我自己带班上课,这次采用线上学习模式。


包含我的全套产品方法论、一对一指导、职业规划和求职内推。一整天直播互动式课堂,一个月线上课。


这次名额有限,报名联系我:tangren0517


这两天我在自己公众号接入了腾讯元气的 AI 产品能力,底层是鹅厂自家训练的混元大模型。


我在后台收到了几百条提问,AI 回答效率比我的预想要高一点,但是准确率还有不小的提升空间。



期间我也感受到了 AI 的一个局限,那就是推理能力比较弱。


对 AI 底层逻辑有一定了解的读者知道,算法、算力、数据是 AI 三大件,而我们说的大模型就是算法的部分。


为了支撑算法对外提供服务,硬件层面需要算力支持,也就是 GPU。


然而,决定服务表现的不仅仅是算法体现的模型能力,更主要的因素是数据。


准确说,是数据的质量。


理论上来说,算法是可以持续优化的,算力也是可以持续加强的,唯独数据会成为一种瓶颈。


你可能会说,互联网上那么多数据,难道还会成为瓶颈么?


是的,的确会。


因为互联网上的数据是人类所有显性信息的一个子集,这里面还要剔除一些无效数据,剩下能被用来训练模型算法的数据就没多少了。


或者这么说,我们用已有数据去训练模型的消耗速度要远大于新的高质量数据的产生。


这就会带来一个问题,AI 进化的速度会受制于数据瓶颈。


包括现在做大模型的那些公司和团队,他们并不缺算力,也不缺人,更不缺钱,但是他们缺高质量数据。


过去两年我们看到了 GPT 版本的快速迭代,随着参数规模的扩大和模型能力的增强,AI 在各项能力表现上都得到了进步。


很多人在期待 GPT-5 什么时候来,甚至很多专家预测今年内会推出。


不过按照现在的进展和时间点来看,估计有点悬。


最近有一个在网上讨论比较热的话题,那就是 OpenAI 在模型能力的训练上是不是已经遇到了瓶颈?


9 月份的时候,OpenAI 公布了下一代模型 Orion 系列的第一个版本 o1,这个系列没有沿用 GPT 序列,也就是说并没有 GPT-5。


即便如此,OpenAI o1 的能力还是可以吊打 GPT,因为 Orion 第一个版本在只完成 20% 训练的基础上已经可以和 GPT-4 能力持平。


同时,训练 Orion 的成本开始变高,但是在实际表现上并没有变得更好,比如在编码能力上还不如老模型。


关键是,Orion 训练开始采用 AI 生成的数据。


简单说,就是让其他模型生成的数据去训练新模型。


前面有提到,互联网上的数据是一个有限集,而且已有数据被开发殆尽。


在没有新信息、新知识、新认知输入的前提下,用老数据生成的「新数据」去训练新模型,就会产生数据内卷,新模型并不会越来越聪明。


于是,很多人对 AI 能力的进化并不乐观。


虽然 Orion 系列展现出来的推理能力让人惊讶,但这也是基于已有数据的一种表现,其实是在围城里跳舞。


我并不是这方面的专家,但我对此有一些自己的观点,仅供参考。


首先,我认为真正有价值的数据是客观信息、有效知识、思维认知和技能方法。


举个例子。


地球是圆的,世界有七大洲,川普成了美国第 47 任总统,这些是客观信息。


水的冰点是零度,海水的冰点比淡水低,这些是有效知识。


用户想要的不一定是需求,用户需要的才是需求;一个用户吐槽产品不代表所有用觉得产品不好的幸存者偏差,这些是思维和认知。


用费曼学习法掌握新知识,用归纳法对数据分类,通过用户体验地图分析产品机会,这些是技能方法。


然而,群里的水聊,论坛里的吐槽,私信里的家长里短,这些都不是有价值数据。


对模型训练来说,真正有价值的数据是前面那些。


其次,用模型生成的数据去训练新模型还会产生「过拟合」问题,也就是 Overfitting。


简单说,就是模型在这种数据训练营下会变得表现越来越好,但是当它遇到从没见过的新数据时,就直接拉跨了。


比如,用训练集数据去训练新模型效果很好,可一旦上线生产环境面对新数据就变成智障,甚至错漏百出。


严格来说,人类的集体智力是超过 AI 的,但是 AI 的寿命和处理能力比人类强。


因为 AI 具备的所谓「智力」都是基于人类已有数据产生的,依赖于机器运算能力和处理速度,AI 展现了异于常人的能力。


因此,它只是比我们记得更多,处理更快,且不会有生命尽头。


我们之所以说一个领域的专家去世是人类的损失,就是因为他所具备的知识、能力、思维、认知都因为生物体的结束而消逝。


没人能像爱因斯坦一样思考,即便 AI 也不能。


此外,有价值数据不仅仅是指显性数据,还有那些隐性数据,这部分是最难被 AI 学习和获取的。


什么叫隐性数据?


比如,一个人的经验、直觉、想象力等。


这些很难被标准化和量化,甚至无法形成知识和方法,但这的确是人类创造价值的独特能力。


有句话这么说,人类特有的「灵感时刻」AI 永远无法理解。


牛顿因为苹果砸在头上顿悟出万有引力定律,这就是灵感时刻。


不管怎么说,我对 AI 的发展还是持乐观态度,新技术会带来新的产品机会,这个规律是不变的。


即便只是某种程度上的效率提升和成本降低,也已经创造了用户价值。


未来正在缓慢发生,我们耐心等待进步!


推荐阅读:《我的年收入是多少?
················· 唐韧出品 ·················

▲ 点击上方卡片进入发消息回复“w”,可加我个人微信
关注唐韧,用产品思维洞察现象背后的逻辑

安可时刻

有读者说通过公众号后台聊天框的方式使用我的 AI 分身没有交互过程,反应也比较慢。


这里我插入一个小程序入口,使用的是腾讯元宝的小程序,你们可以直接点击这个小程序入口进入。



PS:你们也可以把这个小程序收藏在你的常用小程序中,这样有问题就可以随时问我了。

唐韧
关注我,用产品思维洞察现象背后的逻辑。前非著名程序员,现不知名产品人,只工作不上班的自由职业者。
 最新文章