在这场一个半小时的演讲里,李沐从大模型的算力和技术、多模态趋势、应用现状聊到了自己的AI创业心得、以及创业的痛苦和感悟。
可以说,比他那篇创业回顾(《李沐:创业一年,人间三年》)信息量更大。
一些有意思的点:
机器学习是老中医,深度学习特别是大语言模型像炼丹,数据是炼丹的材料,算力是炼丹的火力和设备,算法就是丹方了。丹方每年都在进步,即使丹方一样,细节不一样结果也会很不一样。
内存是目前模型尺寸的一大瓶颈,英伟达虽然是领先者,但在这块的技术不如AMD和TPU。
语言模型参数规模的主流会在100B-500B之间,比较好的一线的模型就是 500B,超过 500B 不是训练不动,而是做 serving 很难。在谷歌历史上,他们就没有让 500B 以上的模型上过线。
音乐模型的制约不是技术问题,而是商业问题,实际还是版权的问题。
语言模型已经达到了较高的水平,大约在 80 到 85 分之间。音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。
对于文科白领的工作,AI 已经能完成简单任务,复杂任务需要继续努力。对于工科白领的工作,简单任务还需要努力,复杂任务存在困难。对于蓝领的工作,除了无人驾驶和特定场景,AI 连简单任务都做不了,完成复杂任务更难。未来 10 年、 20 年,大家还是有机会参与进来的。
之前大家会觉得预训练很重要,比如训练一个几百 B 参数的模型,现在在我看起来预训练是一个工程问题,后训练才是一个技术问题。后训练,高质量的数据和改进的算法能够极大地提升模型效果。高质量的数据一定是结构化的,并且与应用场景高度相关,以保证数据的多样性和实用性。
OpenAI 提出了 RLHF,大家给予很高的评价。但我觉得这个算法有点牵强。这套技术在几年之内发生了非常大的变化。但到底哪个算法好,我也说不出来。原因在于每个人用的数据不一样,导致算法所适用的场景不一样。
数据决定了模型的上限,算法决定了模型的下限。就目前来说,我们离 AGI 还很远, AGI 能够做自主的学习,我们目前的模型就是填鸭式状态。
去大公司,是为了升职加薪;读 PhD ,你要保证自己能毕业;而创业的目标是要能推出产品,要么上市,要么卖掉,这是每天都需要思考的。
强烈的动机要么来自很深沉、很底层的欲望,要么来自很深的恐惧。