郑纬民:支持大模型训练/推理的计算机系统研究与思考 | CXO主笔团

科技   2024-12-24 18:31   天津  

郑纬民

中国工程院院士

清华大学高性能计算所所长

算力百人会专家委主任

1970年毕业于清华大学并留校任教,1982年获硕士学位。曾任中国计算机学会第十届理事长。长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。曾获国家科技进步一等奖1次、国家科技进步二等奖2次,国家发明二等奖1次。2016年获何梁何利基金科学与技术进步奖。2016年获ACM戈登.贝尔奖。与合作者一起发表论文530余篇,著作10部。教学方面长期讲授计算机系统结构课程,2008年被评为国家级精品课程;已编写和出版计算机系统结构教材和专著10本。



主笔强调

AI大模型的构建与优化过程中,算力是核心问题。智能算力快速发展过程中,构建“国产万卡系统”至关重要。应加大软件研发投入,优化软件生态,以此推动智能算力高质量发展。


近年来,算力的发展速度之快令人瞩目,主要得益于两个关键因素:一是国家层面推行的“东数西算”政策,极大地促进了算力的布局与优化;二是AI大模型的兴起,对算力提出了前所未有的需求。




算力发展及大模型应用




今年无疑是AI大模型具有里程碑意义的一年,大模型的发展呈现出了两个鲜明的特点:一是多模态时代的到来,从最初的文字处理,到图像识别,再到视频分析,直至如今涵盖文字、图像、视频等多种信息形式的多模态处理,大模型的应用场景愈发广泛;二是大模型真正进入了应用阶段,金融、医疗、汽车、智能制造等各行各业都开始融入大模型的技术,实现了从理论到实践的跨越。


尽管与美国等发达国家相比,我们在大模型本身的研发上还存在一定差距,但当将大模型与各行各业相结合,即“大模型+X”时,却有望取得超越美国的优势。


在大模型的生命周期中,“数据获取”是至关重要的一环。为了训练出高效、准确的大模型,我们需要从世界各地的网站上获取大量的数据。对于计算机专业人士而言,如何高效地管理这些文件,确保它们在硬盘中的位置易于查找和读取是个大挑战。分布式存储虽然解决了存储问题,却给读取带来了困难,过程耗时较长,影响了大模型的运行效率。


因此,如何优化数据获取和存储的过程,提高文件的读取速度,成为当前亟待解决的问题。




大模型训练过程中的挑战及对策




在数据处理和模型构建的流程中,至关重要的事情便是数据预处理及模型训练。训练大模型时,通常需要大量算力支持。由于显卡数量庞大,系统可能每小时都会出现垂直错误,频繁的错误不仅会浪费大量的时间和资源,还会严重影响训练效率。


一种称为“检查点”方法,则极大地提高了训练效率,减少了因错误而导致的重复劳动。在医疗领域等特定应用场景中,由于训练数据有限,模型的泛化能力和准确性往往受到限制,因而需要收集更多的领域数据,并构建针对特定领域的模型。


模型训练完成后,还需要进行模型推理,这是将训练好的模型应用到实际场景中的关键步骤。在模型推理过程中,同样需要算力支持,以确保模型能够高效地运行并输出准确的结果。


大模型构建领域,可大致将参与者分为三类公司——第一类公司专注于大模型本身的研发,致力于模型的深度研究和创新;第二类公司是将大模型应用于各个领域,通过大模型的赋能提升行业的智能化水平;第三类公司专注于支持大模型的计算机系统研发,致力于优化计算机系统的性能,以满足大模型训练和推理的高算力需求。


大模型构建与优化的过程中,算力是一个核心问题。无论是训练还是推理,都需要强大的算力支持。清华大学团队开发了一套名为“八卦炉”的智算系统核心基础软件,该系统包含了并行系统、编程框架、AI编译器、算子库等多个关键软件,共同构成了支持大模型训练和推理的完整生态。通过将这些软件与国产硬件相结合,可显著提升系统的性能和效率。


目前,我们已经与国内多家企业伙伴进行了深入的合作,通过在“八卦炉”系统上进行优化,这些公司的AI卡性能得到了显著提升,通过将这些公司的技术与“八卦炉”系统相结合,可以为用户提供更加智能、高效和经济的解决方案。




智能算力面临的挑战与对策




智能算力快速发展过程中,算力存储器不足是个棘手问题。当面对大量用户同时使用时,存储器容量往往成为制约性能提升的瓶颈。


对此,我们提出了一种创新的解决方案——公共部分存储优化。通过观察发现,不同用户在进行推理时,很多问题具有共性,因此可将公共部分的数据统一存储,无需为每个用户的每个步骤都分配存储空间。此前清华大学MADSys实验室与月之暗面Kimi合作推出的“mooncake”系统便采用了这一技术,成功解决了存储器不足的问题。


存储器问题解决了,还需要关注“国产万卡系统”的构建。构建“国产万卡系统”并非易事,既需要解决硬件兼容性问题,又需要优化软件生态。目前“国产万卡系统”在性能上还存在一定差距,但只要我们持续投入研发,不断优化软硬件性能,相信未来“国产万卡系统”定能与国际先进水平比肩。


在构建“国产万卡系统”的过程中,还需避免一些常见的误区。例如,将不同品牌、不同型号的万卡混合使用进行联合训练,这种做法往往效果不佳。不同万卡之间的指令集、数据传输速度等存在差异,混合使用会导致性能下降,甚至无法正常工作。因此,在构建万卡系统时,应选择性能相近、兼容性好的万卡进行组合。


此外,对于异地万卡联合训练的问题,我们也应持谨慎态度。由于网络延迟和带宽限制,异地联合训练往往难以达到理想效果。因此,在可能的情况下,应优先考虑在同一地点部署万卡进行训练。


在智能算力市场方面,我们观察到高端算力市场供不应求,而中低端算力市场则供过于求。这主要是由于中低端算力市场的软件生态不成熟,导致用户体验不佳,从而影响了算力资源的利用率。为了提升中低端算力市场的利用率,我们应加大软件研发的投入,优化软件生态,提升用户体验。




写在最后




清华大学团队研发的“八卦炉”系统包含的十个软件在提升算力资源利用率方面发挥了重要作用。通过优化这些软件,可降低对硬件资源的依赖,从而提升系统的整体性能。未来,我们将继续加大软件研发的投入,为智能算力的发展贡献更多力量。


·END·

CIO时代网
中国行业信息化第一门户,服务中国CIO。
 最新文章