AI发展趋势：解读李沐交大讲座的关键洞见

文摘 2024-08-28 16:31 新加坡

在人工智能快速发展的今天，我们很容易被各种新闻和炒作迷惑，难以把握AI真正的发展方向。近日，AI领域的知名学者李沐在上海交通大学的一场讲座中，为我们梳理了AI，特别是大语言模型的发展现状和未来趋势。作为一线的研究者和实践者，李沐的观点既有深度，又接地气，值得我们仔细探究。

简介：

李沐：上海交通大学2011届计算机科学与工程系本硕系友。他曾担任亚马逊资深首席科学家，任加州大学伯克利分校和斯坦福大学的访问助理教授，是前Marianas Labs联合创始人。他的研究关注分布式系统和机器学习算法。发表了50余篇人工智能顶级会议论文，在CMU读博期间更是两年内发表了理论计算机领域的FOCS、神经网络领域的NIPS、数据挖掘领域的KDD和操作系统领域的OSDI等不同领域的顶级国际会议一作论文。他是深度学习框架Apache MXNet的创始人之一，合著了开源深度学习教材《动手学深度学习()。他目前是BosonAI的联合创始人。

本文将围绕这次讲座的关键内容进行解读，尝试去分析AI未来的发展路径。

大模型规模：增长的边界

首先，李沐指出，目前主流的语言模型参数规模在100B到500B之间，这个范围在未来一段时间内可能会成为主流。这个判断基于几个关键因素:

数据量：预训练数据量在10T到50T token之间已经足够。李沐认为，虽然理论上可以获取更多数据，但数据的多样性和质量比单纯的数量更重要。（这次李沐没有提到端侧模型的大小和能力问题）
硬件限制：特别是内存大小的限制。目前，一个芯片能封装的内存在200GB左右，这限制了模型的最大规模。
部署难度：超过500B的模型在实际部署时会面临巨大挑战。

这个观点给我们一个重要启示：在AI领域，盲目追求“更大”并不总是正确的。我们需要在模型规模、数据质量和实际应用之间找到平衡点。

硬件发展：带宽是关键，但挑战重重

在硬件方面，李沐强调了三个关键点：带宽、内存和算力三个要素。其中，他特别指出带宽的重要性。为什么？因为在分布式训练中，带宽往往是最大的瓶颈。这个观点在当前AI发展的背景下显得尤为重要。我对硬件的知识储备相对薄弱，这次的讲座确实给了我很多新的知识。

随着AI大模型从训练阶段步入推理阶段，其对算力和带宽的需求呈爆发式增长。以文生视频应用Sora为例，据推测其推理算力需求是GPT-4的1000倍以上。这意味着，不仅仅是计算能力，数据传输能力也面临前所未有的挑战。

李沐生动地描述了这一挑战："所以一旦用到水冷之后，你的算力就可以更密，就可以放更多机器。芯片就可以压得比较扁。压得比较扁的好处就是，每个芯片之间更近了。芯片之间直接用光纤，以光速互通。光速你看上去很快，但实际上在我们眼里已经很慢了。一台机器传输到隔壁一米之外的机器所带来的几纳秒延迟，几乎是不能忍。我们自己去设计机房的时候会考虑光纤的长度，因为一米的差距就会给分布式训练带来一个可见的性能影响。"

目前，AI计算中心面临的主要带宽问题包括:

机架内带宽不足：每机架通常配置百兆带宽，但要实现GPU远程互联，单机架两台GPU服务器就需要1.6Tbit/s的带宽。这个数字远远超出了当前的配置能力。
数据中心内部流量激增: 思科全球云指数统计显示，数据中心内部之间的流量占比高达71.49%，随着AI计算需求的增加，这个比例可能会进一步提高。
时延问题: 为了保证性能损失在5%以内，像数据库集群系统这样的应用要求至少40Gbit/s的吞吐和3μs的网络往返时延。然而，即使是相对较近的城市之间(如北京-呼和浩特)，端到端时延也达到12ms，是集群内应用层端到端时延的1000倍。

这些性能指标，和李沐提到的AI技术中心的指标完全不在一个量级，这些计算中心的改造和升级会是一个巨大的机会，也是巨大的挑战。

能源消耗：AI系统的隐忧

伴随着带宽和算力需求的增长，AI系统的能源消耗也成为一个严峻的挑战。荷兰国家银行的数据专家Alex de Vries估计，类似ChatGPT这样的AI系统，每天处理约2亿个用户请求所消耗的电力，相当于1.7万个美国家庭的日常用电量。这凸显了在追求AI性能提升的同时，我们也需要密切关注和优化数据中心的能源效率。

未来发展方向

面对这些挑战,未来的AI硬件发展可能会朝以下方向努力:

提高芯片密度: 李沐提到了使用水冷技术来提高芯片密度，这不仅可以提高计算能力，也有助于减少芯片间的距离，从而降低通信延迟。
优化网络架构: 开发新的网络技术和协议，以支持更高的带宽和更低的延迟。无限带宽技术和基于以太网的远端直接内存访问技术是可能的方向。
分布式计算优化: 改进分布式计算算法，使其能更好地适应高延迟环境，减少对实时通信的依赖。
能源效率提升: 开发更节能的AI芯片和冷却系统，同时优化算法以减少不必要的计算。
边缘计算: 将部分计算任务转移到网络边缘，减少对中央数据中心的依赖，从而缓解带宽压力。

这些挑战提醒我们，在考虑AI基础设施投资时，不能只看单纯的计算能力，还要关注整体系统的协调性，特别是数据传输能力和能源效率。同时，它也为我们指明了未来技术发展和创新的重要方向。

AI应用：三个层次的挑战

李沐将AI应用分为三类：文科白领、工科白领和蓝领工作。这个分类非常有趣，也很有启发性:

文科白领：AI在这方面进展最快，已经能够完成许多简单任务，如文本处理、客户服务等。
工科白领：进展相对较慢。虽然AI可以辅助编程，但还远未达到取代程序员的地步。
蓝领工作：除了特定领域(如自动驾驶)外，AI在物理世界的应用仍面临巨大挑战。

这一分类让我们更清晰地看到了AI在不同领域的发展状况，并提醒我们在选择AI应用方向时要有针对性。类似降本增效的创业，可能公司内部自己就可以使用工具去完成，不一定是中小企业创业的机会。

长期价值vs短期效益

李沐提出了一个发人深省的观点：今天训练的大模型，一年后其价值可能会减半。这是因为随着技术的快速发展，今天看似先进的模型很快就会被超越。

这个观点给AI从业者和投资者都敲响了警钟：我们不能仅仅追求短期效果，而要思考如何创造长期价值。可能的方向包括:

专注于特定领域，深耕垂直应用。
持续优化数据质量和算法，而不仅仅是扩大模型规模。
关注用户体验和实际问题解决，而不是纯粹的技术指标。

结语：理性看待AI，稳步前行

李沐的讲座为我们描绘了一个清晰、理性的AI发展图景。它既没有盲目乐观，也没有过度悲观，而是指出了AI稳步但不均衡地改变着世界。因为是一个跨界的讲座，并不是专门针对AI从业者的，很多技术问题，李沐没有涉及或者聊得足够深，期待他有机会和AI从业者来一个碰撞，谈谈目前的大环境下，未来是否会涌现大量的AI创业机会，需要什么样的技术条件和市场成熟度，过去的创业经验包括互联网的创业经验是否可以借鉴？

结合8月初谷歌前CEO Eric Schmidt提到的一个概念：单元驱动和群组驱动，给了一个电力革命的例子，需要大家认知的变化，才能够去发现AI原生应用的机会，目前还处在一个非常大的动态变化环境的早期。

说一个趣事，上周末一堂的AI主理人于陆组织了一堂内部的AI从业者做了一个讨论，发现国内的同学对短期的创业机会普遍悲观，但是来自硅谷的两位就非常乐观。这种差异也反映了不同地区对AI发展的不同看法和期待。

“悲观者永远正确，乐观者永远前行”

和大家共勉

http://mp.weixin.qq.com/s?__biz=Mzk0MTY4MjE4OA==&mid=2247484372&idx=1&sn=64d51c2474a52c6f50cdbb848c5b56a4

蔡荔谈AI

AI科普 AI培训超级个体创业

最新文章

姜萍事件背后：关于诚信、教育与组织能力的思考

每天一小时：打造属于自己的副业之路

亚马逊KDP出版实战：从0到月入6位数的5个关键策略

从推特到世界舞台：马斯克钻洞公司的创新之旅

海外文凭新选择：美国顶尖院校在线IT硕士项目全攻略

双十一来了，给粉丝发140个大红包！

11个非常实用的提示词技巧，建议收藏！

从TypingTest.com解析海外工具站的成功之道

AI走进生活：与新加坡华人社区共话AI未来

图解Transformer：大语言模型背后的核心框架

Scikit-Learn：完整工作流程与算法选择指南

提示词工程的演变：从文本到可视化

AI辅助炒股：10个点石成金的提示词

Python数据分析:从收集到部署的全流程指南

从入门到精通：5个循序渐进的Python AI项目实战

动手实践：5个AI项目让你的AI技能提升

35岁以后职场退路，真的是小公司吗？

AI推理能力再审视：苹果最新论文揭示大语言模型的局限

AI大模型格局与核心技能：从技术前沿到个人成长

解析Llama 3.2：技术进步与市场期待的微妙平衡

谷歌推出AI驱动的智能笔记本：NotebookLM

ChatGPT 最新提示词速查表：提示工程技巧揭秘

七步打造AI产品经理之路：技能、挑战与未来展望

职场人如何用AI快速创作电子书并赚取副业收入

NTU学生的问卷和答复

19个提升大脑健康的实用技巧：全面守护你的大脑

麻省理工公开课：线性代数

创业者必知的学习清单：克服7大障碍，实现持续成长

工作效率与生活平衡：AI时代的智慧之选

国庆节来了，给粉丝发140个大红包！

OpenAI高层动荡揭秘：技术与伦理的矛盾之战

生成式AI如何改变企业未来？谷歌185个案例为你解答

探索AI前沿：三门顶级大学的免费大型语言模型课程

中年逆流，何处是岸?——从《逆流人生》看AI时代的个人出路

从0到1！用AI创作电子书，赚取被动收入的完整指南

吴恩达最新力作：AI+Python初学者课程系列

哈佛大学13门免费AI课程大盘点：从入门到精通

从1943到2023：人工智能的80年进化史

OpenAI o1模型：AI能力的新里程碑与行业思考

Skana AI：日本AI新星的崛起与启示

关于OpenAI o1系列大模型的几点思考

AI落地神器：NotebookLM让你快速阅读一本书

使用 Cursor 进行开发的7个技巧

海外独立开发者的成长之路：经验、挑战与启示

OpenAI o1系列：AI时代的新里程碑

用Cursor快速搭建网站，开启全球商机

不用写代码！教你如何用Cursor AI轻松开发2048游戏

一个让LLM更具创造力的"超级提示词"

Anthropic最新的AI提示词工程视频总结

重新评估生成式AI：挑战、机遇与社会影响

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉