在人工智能快速发展的今天,我们很容易被各种新闻和炒作迷惑,难以把握AI真正的发展方向。近日,AI领域的知名学者李沐在上海交通大学的一场讲座中,为我们梳理了AI,特别是大语言模型的发展现状和未来趋势。作为一线的研究者和实践者,李沐的观点既有深度,又接地气,值得我们仔细探究。
简介:
李沐:上海交通大学2011届计算机科学与工程系本硕系友。他曾担任亚马逊资深首席科学家,任加州大学伯克利分校和斯坦福大学的访问助理教授,是前Marianas Labs联合创始人。他的研究关注分布式系统和机器学习算法。发表了50余篇人工智能顶级会议论文,在CMU读博期间更是两年内发表了理论计算机领域的FOCS、神经网络领域的NIPS、数据挖掘领域的KDD和操作系统领域的OSDI等不同领域的顶级国际会议一作论文。他是深度学习框架Apache MXNet的创始人之一,合著了开源深度学习教材《动手学深度学习()。他目前是BosonAI的联合创始人。
本文将围绕这次讲座的关键内容进行解读,尝试去分析AI未来的发展路径。
大模型规模:增长的边界
首先,李沐指出,目前主流的语言模型参数规模在100B到500B之间,这个范围在未来一段时间内可能会成为主流。这个判断基于几个关键因素:
数据量:预训练数据量在10T到50T token之间已经足够。李沐认为,虽然理论上可以获取更多数据,但数据的多样性和质量比单纯的数量更重要。(这次李沐没有提到端侧模型的大小和能力问题) 硬件限制:特别是内存大小的限制。目前,一个芯片能封装的内存在200GB左右,这限制了模型的最大规模。 部署难度:超过500B的模型在实际部署时会面临巨大挑战。
这个观点给我们一个重要启示:在AI领域,盲目追求“更大”并不总是正确的。我们需要在模型规模、数据质量和实际应用之间找到平衡点。
硬件发展:带宽是关键,但挑战重重
在硬件方面,李沐强调了三个关键点:带宽、内存和算力三个要素。其中,他特别指出带宽的重要性。为什么?因为在分布式训练中,带宽往往是最大的瓶颈。这个观点在当前AI发展的背景下显得尤为重要。我对硬件的知识储备相对薄弱,这次的讲座确实给了我很多新的知识。
随着AI大模型从训练阶段步入推理阶段,其对算力和带宽的需求呈爆发式增长。以文生视频应用Sora为例,据推测其推理算力需求是GPT-4的1000倍以上。这意味着,不仅仅是计算能力,数据传输能力也面临前所未有的挑战。
李沐生动地描述了这一挑战:"所以一旦用到水冷之后,你的算力就可以更密,就可以放更多机器。芯片就可以压得比较扁。压得比较扁的好处就是,每个芯片之间更近了。芯片之间直接用光纤,以光速互通。光速你看上去很快,但实际上在我们眼里已经很慢了。一台机器传输到隔壁一米之外的机器所带来的几纳秒延迟,几乎是不能忍。我们自己去设计机房的时候会考虑光纤的长度,因为一米的差距就会给分布式训练带来一个可见的性能影响。"
目前,AI计算中心面临的主要带宽问题包括:
机架内带宽不足:每机架通常配置百兆带宽,但要实现GPU远程互联,单机架两台GPU服务器就需要1.6Tbit/s的带宽。这个数字远远超出了当前的配置能力。 数据中心内部流量激增: 思科全球云指数统计显示,数据中心内部之间的流量占比高达71.49%,随着AI计算需求的增加,这个比例可能会进一步提高。 时延问题: 为了保证性能损失在5%以内,像数据库集群系统这样的应用要求至少40Gbit/s的吞吐和3μs的网络往返时延。然而,即使是相对较近的城市之间(如北京-呼和浩特),端到端时延也达到12ms,是集群内应用层端到端时延的1000倍。
这些性能指标,和李沐提到的AI技术中心的指标完全不在一个量级,这些计算中心的改造和升级会是一个巨大的机会,也是巨大的挑战。
能源消耗:AI系统的隐忧
伴随着带宽和算力需求的增长,AI系统的能源消耗也成为一个严峻的挑战。荷兰国家银行的数据专家Alex de Vries估计,类似ChatGPT这样的AI系统,每天处理约2亿个用户请求所消耗的电力,相当于1.7万个美国家庭的日常用电量。这凸显了在追求AI性能提升的同时,我们也需要密切关注和优化数据中心的能源效率。
未来发展方向
面对这些挑战,未来的AI硬件发展可能会朝以下方向努力:
提高芯片密度: 李沐提到了使用水冷技术来提高芯片密度,这不仅可以提高计算能力,也有助于减少芯片间的距离,从而降低通信延迟。 优化网络架构: 开发新的网络技术和协议,以支持更高的带宽和更低的延迟。无限带宽技术和基于以太网的远端直接内存访问技术是可能的方向。 分布式计算优化: 改进分布式计算算法,使其能更好地适应高延迟环境,减少对实时通信的依赖。 能源效率提升: 开发更节能的AI芯片和冷却系统,同时优化算法以减少不必要的计算。 边缘计算: 将部分计算任务转移到网络边缘,减少对中央数据中心的依赖,从而缓解带宽压力。
这些挑战提醒我们,在考虑AI基础设施投资时,不能只看单纯的计算能力,还要关注整体系统的协调性,特别是数据传输能力和能源效率。同时,它也为我们指明了未来技术发展和创新的重要方向。
AI应用:三个层次的挑战
李沐将AI应用分为三类:文科白领、工科白领和蓝领工作。这个分类非常有趣,也很有启发性:
文科白领:AI在这方面进展最快,已经能够完成许多简单任务,如文本处理、客户服务等。 工科白领:进展相对较慢。虽然AI可以辅助编程,但还远未达到取代程序员的地步。 蓝领工作:除了特定领域(如自动驾驶)外,AI在物理世界的应用仍面临巨大挑战。
这一分类让我们更清晰地看到了AI在不同领域的发展状况,并提醒我们在选择AI应用方向时要有针对性。类似降本增效的创业,可能公司内部自己就可以使用工具去完成,不一定是中小企业创业的机会。
长期价值vs短期效益
李沐提出了一个发人深省的观点:今天训练的大模型,一年后其价值可能会减半。这是因为随着技术的快速发展,今天看似先进的模型很快就会被超越。
这个观点给AI从业者和投资者都敲响了警钟:我们不能仅仅追求短期效果,而要思考如何创造长期价值。可能的方向包括:
专注于特定领域,深耕垂直应用。 持续优化数据质量和算法,而不仅仅是扩大模型规模。 关注用户体验和实际问题解决,而不是纯粹的技术指标。
结语:理性看待AI,稳步前行
李沐的讲座为我们描绘了一个清晰、理性的AI发展图景。它既没有盲目乐观,也没有过度悲观,而是指出了AI稳步但不均衡地改变着世界。因为是一个跨界的讲座,并不是专门针对AI从业者的,很多技术问题,李沐没有涉及或者聊得足够深,期待他有机会和AI从业者来一个碰撞,谈谈目前的大环境下,未来是否会涌现大量的AI创业机会,需要什么样的技术条件和市场成熟度,过去的创业经验包括互联网的创业经验是否可以借鉴?
结合8月初谷歌前CEO Eric Schmidt提到的一个概念:单元驱动和群组驱动,给了一个电力革命的例子,需要大家认知的变化,才能够去发现AI原生应用的机会,目前还处在一个非常大的动态变化环境的早期。
说一个趣事,上周末一堂的AI主理人于陆组织了一堂内部的AI从业者做了一个讨论,发现国内的同学对短期的创业机会普遍悲观,但是来自硅谷的两位就非常乐观。这种差异也反映了不同地区对AI发展的不同看法和期待。
“悲观者永远正确,乐观者永远前行”
和大家共勉