李沐:大模型发展趋势与个人职业选择

科技   2024-08-25 10:01   上海  
2024.8.23,李沐学长回交大讲座纪要。李沐学长在讲座中介绍了大语言模型的发展趋势,创业Boson.AI的心得体会,以及个人职业选择(PhD,打工 or 创业)

李沐学长在今天上海交通大学的讲座上,分享了过去两年在大语言模型训练、部署、产品化、和基础架构上的一些实际经验,对大语言模型未来趋势做一些预测,以及个人职业生涯选择上的一些建议;

大语言模型

与传统AI一样,LLM(大语言模型)的三大基础依然是:算力,数据,算法

从硬件上看,摩尔定律依然活着。带宽和存储的增长或许逼近极限,但更低bit数据格式带来了更大的通量和更快的速度。由于显卡规模的增大,水冷散热变得非常必要。由于大语言模型火热带来的高溢价,和老黄关系再好,也不得不加价买卡。新卡每年性能翻倍,但价格是原先的1.4倍。但长期看算力依然是越来越便宜。各种厂商AI加速卡很多,但大多只在推理阶段还算OK,nVIDIA依然垄断了大模型的训练阶段的算力,短期很难找到替代品。

长期看算力的持续贬值,大模型训练成本也会不断下降,所以大模型本身也不是一个能保值的东西,价值会随着时间降低,也某种意义上受摩尔定律的影响。

10-50T token的预训练数据规模已经接近极限(因为全人类的知识量有限,当前数据质量的提升比数量提升更重要);由于硬件和数据瓶颈,大模型的激活参数在 500B 可能是极限,100-500B 的大模型会是未来主流的大小。

End-to-end和多模态是当前大模型的趋势。由于文本是信息密度最高的,也是最容易获得的。通过文本模型的泛化能力,用文本模态作为多个模态中介是一个很好的方案。

在人机交互产品设计方面,对于单一的简单操作,比如关窗户,用户更倾向于手动点一下按钮,可能会觉得和大模型交互不是那么有意义。而对于一些复杂的任务则并非如此,需要按一系列条件执行一系列任务,交给大模型更为省事。但长文本的prompt控制也远不如直接说话方便,使用语音更符合用户习惯。

模型层面,语言模态已经比较成熟,能给个80-85分;语音(audio)则是勉强可用,70-80分水平,而视觉(video)则比较薄弱,大概只能给个50分。

应用层面,数据越多的领域,就越能被自动化当前大模型在简单的文科任务上已经能很好地代替人类。因为文科任务是最能简单快速采集大量数据的。在简单理科任务和复杂文科任务上能力正在突破。而当前想要替代蓝领,还非常遥远。工厂需要投放大量传感器,做好数字化基础设施建设,数据收集和整理方案成熟起来,才有大模型落地的希望。而这一切当前看来还很难,但一旦实现就会是重大变革。

我们在创业中学到了什么?高质量数据和后训练算法的创新,对行业大模型的提升很大。OpenAI的RLHF有点牵强,(RL)这套技术很原始。Llama标数据据说花了5000w美金,和内部人士聊过,感觉数据没标好,算法也没花太多时间,所以开源的Llama还有很大提升空间。

对于不一样的数据,不一样的目标函数,针对性做研发是有意义的。

之前的机器学习范式:先做好Evaluation(评估),再去做其他事情。自然语言非常难评估,但是也非常关键。LLM本质还是ML(机器学习),都吃数据,都需要很好的评估方法,特点都是一致的。

自建GPU集群不会比租便宜很多,利润大头都被nv吃掉了。

职业规划建议

沐神兜兜转转,什么地方都去过,无论是学校,大公司还是创业。在交大6年读完本硕,CMU读了5年PhD,也还在港科有2年科研助理经历。也去过UCB和斯坦福做过访问学者。大厂在百度待过2年(首席架构师),在亚马逊待过7年(资深首席科学家)。加上两年的创业经历。(这些经历时间线上可能有重叠)

沐神总结了一下大厂打工人、PhD,创业的区别。大厂的目标是升职加薪,PhD的目标就是博士毕业,创业的目标就是套现退出;为了达成这些目标,作为大厂员工,就得去解决问题,对其公司目标;读博则是需要找到有价值的科研问题并解决;而创业是要为付费客户解决问题。而这三者需要的动力则是不一样的,而创业需要最强的动力。

作为打工人、PhD、创业者,有着不同的优缺点:

无论哪个选项,都面临着不同程度上的延迟满足:打工一般做出成果,很快便能升职加薪,PhD做出成果可能要延迟几年才能收获认可,而创业通常至少要5年以上才能得到正反馈。

创业是最艰难的,要面临长时间没有正反馈的生活,也要能一直保持着热情。

关于大厂工作、读博、创业,沐神都写过对应的文章,《工作五年反思》《博士这五年》《创业一年,人间三年》,这种定期总结的习惯,也是持续自我提升的一个不错的方法。

QA彩蛋,关于toB:

国内toB环境差,toB相比于美国而言更加难做,这已经是共识。但越艰难也意味着竞争对手会更少,不至于陷入低价值的内卷,早入场也许会更有机会。随着人力成本的不断增加,企业的付费意愿也会相应增加。交付超出用户预期的产品是企业获得竞争优势的关键。

后台回复关键词【进群

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型

获取100+篇『最新大模型』

代码+论文最全整理!

往期推荐

《黑神话·悟空》是用什么编程语言开发的?

黑神话悟空,电脑与 PS5 的画质差别有多大?

大模型微调到底有没有技术含量

大模型二次开发技术选型思路

我为什么不看好LLM——记过去一年实习经历有感

你好,我是对白,硕士毕业于清华,大厂算法工程师,拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育,保研清华后开始系统接触AI。

我每周至少更新一篇原创,分享AI算法、技术干货和职场感悟。上方关注可加我私信交流点击蓝字查看我的算法学习之路

期待你关注我的公众号,我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力!

坚持不易,卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看


对白的算法屋
清华大学硕士,大厂算法工程师。写过书,创过业,做过产品,分享技术、快乐、财富与职场。
 最新文章