阿里云开始给AI换底
文摘
科技
2024-09-24 18:00
北京
每年一度的AI与云服务领域盛会,亦是阿里云展示其技术实力的平台——云栖大会,已隆重开幕。2024年9月19日,在两个台风交替之际,尽管天空布满乌云,暴雨如注,盛会依然如期举行。云栖大会自2009年创办,最初名为“第一届中国网站发展论坛”,至2015年更名为现名,至今已历十载。与往年不同,本届大会特别设立了人工智能+、计算、前沿应用三大主题展区,集中展示了尖端模型、先进算力、创新应用,为云计算与人工智能产业链的从业者及科技爱好者们提供了一场易于理解的科技盛宴。例如,小鹏汽车创始人何小鹏展示了全球首款完全由AI驾驶的汽车。他指出,得益于大模型技术的辅助,自动驾驶试验车在转向、变道等操作上甚至比人工驾驶更为流畅,令人惊叹。何小鹏还预言,36个月内自动驾驶技术将达到老司机般的驾驶水平。再如,国内多家机器人公司展示了其最新的研究成果和行业趋势。金石机器人推出的具有自主知识产权的大功率分布式无柜控制系统及空间物流机器人,填补了国内外物流堆场无人化的空白;宇树科技的Unitree H1四足机器人,以其卓越的灵活性、稳定性和智能性而著称;逐际动力的CL-2机器人则是国内首款能够实时感知地形并动态上楼梯的人形机器人。当然,大会的核心焦点依然是阿里云对AI技术的深刻洞察。阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上发表讲话,指出生成式AI将对数字世界和物理世界进行重构,引发计算架构的根本变革。过去数十年以CPU(中央处理器)为核心的计算体系正在迅速向以GPU(图形处理器)为主导的AI计算体系转变。未来,几乎所有的软硬件都将具备推理能力,计算内核将演变为以GPU AI算力为主、CPU传统计算为辅的模式。也正因此,在这番热热闹闹的科技表象背后,所有人都没有意识到,以阿里云为核心,中国的AI产业正在发生可能影响深远的变化。正在悄然换底的阿里云
阿里云CTO周靖人对一年以来,阿里云在AI领域的战略和技术升级做了总结,实际上已经提出阿里云接下来发展方向的重大变革。这句话的背后,恰恰意味着阿里云现在正在进行的整体变革,完全围绕AI应用中遇到的各种问题展开。首先,当下所有的模型研发和应用方,遇到最重要的问题就是如何克服异构计算带来的风险和影响。毕竟来自各个不同算力芯片研发企业的芯片,是无法简单匹配捏成一股绳,同时启用的。这意味着,AMD或者国产GPU跟英伟达的A100,是不能同时放在一起训练同一个模型的。这对于很多企业来说,带来了极大的算力浪费。阿里云整体架构的升级,技术底层第1个就是要解决异构计算的问题。比如阿里云最新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%。更关键的是这种服务器,可以同时调取各个厂家的GPU,来共同服务相同一个模型的训练任务。通过阿里云内部的开发和系统的匹配,完美解决了异构运算遇到的各种问题。再比如阿里云ACS首次推出GPU容器算力,通过拓扑感知调度,实现计算亲和度和性能的提升。这为很多模型训练的过程提供了一个可以切分且容错率较高的解决方案,能帮助企业在推动模型成功训练的过程上降低自己的投入。其次,大模型应用开发,核心是训练。那么,另一个重要的问题就是数据传输的快慢,很可能决定模型训练的成果。毕竟如果数据传输和处理不及时,在模型训练的过程中实现了断档,延误模型训练的时间,进而延长推动自身应用落地的准备时间。因此,阿里云推出为AI设计的高性能网络架构HPN7.0,不光能大批量快速传输数据,还能稳定连接超过10万个GPU,使得模型端到端训练性能提升10%以上。另外,模型训练的方向千奇百怪,这意味着模型训练时所需要的各种数据和素材,可能存在各种各样的形式,从影视视频到小的音乐片段,所有的数据存储入模型训练库,体现出来的表现形式可能各不相同。如何高效快速地让模型在存储阶段,实现速度的提升,就成为AI基础平台必须解决的问题。为此,阿里云推出CPFS文件存储,数据吞吐20TB/s,完美解决所有数据在各种格式下的存储和提取速度,为AI智算提供指数级扩展存储能力。再次,模型训练最可能遇到的问题,是各种各样的错误。任何对数据处理不及时或者对训练方法选择上的犹豫,都可能带来各种不匹配,进而引发训练错误。而一旦出现训练错误,模型的训练就不得不停下来,下一次的训练依然要从头开始。这不光浪费了模型应用方的时间,也增加了他们训练模型的成本。对于这个问题,阿里云根据自身对模型训练的经验和汲取的各种因素分析,创造性地搭建了一个能对模型进行训练、部署、研发,提供帮助的PAI平台。这个平台能提升模型训练的容错度,利用AI了解错误的出处和如何解决错误,或者补充完全,帮助用户推动训练顺利完成。目前,阿里云这个人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。虽然后续阿里云对于自身通义千问大模型的各个能力进行了升级,并统一对外发布,同时还降低了通义千问的使用费用,但前面所发布的这些底层技术创新,真正说明了阿里云接下来的战略,已经向AI倾斜。换句话说,阿里云正在围绕AI,打造一个全新的AI基础设施。而这个定位的变化,很可能会改变中国AI与互联网发展的现状。多模态在中国落地
本次云栖大会还有另外一个值得注意的技术趋势,那就是多模态开始显露在中国的发展优势。一方面,无论是阿里云的通义千问还是智谱清言,抑或是Kimi,这些中国大模型的领军技术平台,在这一次展会期间,无一例外都展露出强大的多模态能力。阿里云CTO周靖人宣布通义万相全面升级,并发布全新视频生成模型,可生成影视级高清视频,应用于影视创作、动画设计、广告设计等领域。即日起,所有用户可通过通义App及通义万相官网免费体验。通义万相首批上线文生视频、图生视频功能,在文生视频功能中,用户输入任意文字提示词,即可生成一段高清视频;支持中英文多语言输入,并可以通过灵感扩写功能智能丰富视频内容的表现力;支持16:9、9:16等多种比例生成。在图生视频功能中,通义万相支持用户将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成;同时,可以通过提示词来控制视频运动。实际上相较于今年年初openAI拿出Sora,这样一个号称文生视频领军模型的表现,当时惊艳的所有内容,现在在阿里云通义万象上全部实现。而类似的能力,各家国产模型都已经具备,并且表现情况也非常好。反观率先提出Sora的openAI,目前这个所谓的模型依然只是停留在研究报告里,并没有成为对外提供服务的产品。这一次云栖大会,智谱清言推出模型有一个功能就是文生音乐的完善。通过用户输入自身的感悟和对音乐的要求,相关音乐就可以快速生成。跟欧美现在已经出现的主流文生音乐模型不同,国产大模型文生音乐功能的核心,是如何利用AI了解用户的需求,进而让用户在最少提示词的背景下获得满足自身需求的音乐体验。因为像SONU这样国际主流文生音乐应用,实际上使用起来极其复杂,光提示词的相关规则就可以出一本书。这种使用的方式,已经严格限制了文生音乐模型的推广。这也是为什么几个来自中国的文生视频和文生音乐的模型与应用,现在在国际市场异常火爆的重要原因。
算法与链接现实
实际上如果抛开现在能看到的这些眼花缭乱的技术,直追本源的话,这一次云栖大会,展现出中国的AI与美国的AI,已经形成了完全不一样的发展思路。无论是阿里云要打造AI大基建的战略重要转型,还是通义万相和通义千问的升级,抑或是文生视频与文生音乐等多模态模型中国开始领先,都是中国操作模型训练的整体过程,开始与美国互联网大厂有了截然不同的设计。在一个月前ISC2024的现场,中科院的院士张钹曾经指出,美国现在AI的研发机构和平台,过度重视算力上面的投入,而中国的企业因为算力获取的艰难,不得不在知识架构和算法上下功夫,进而推动在单位算力支持下模型训练效果的提升。而这种变化,使我们对于模型内部变化的掌控变得游刃有余。再加上中国互联网相关的数据的丰富程度,远超美国互联网,多模态领域更是如此。这也就让openAI都没有解决的视频音乐多模态问题,在中国的模型开发方手上,呈现出完美的答案。同样,中国对于接下来模型发展的方向非常明确,就是跟产业相结合,跟实际应用相结合。而结合openAI最新推出的O1模型能看出,美国的模型研发方依然是在不停地想办法创造一个数字上帝,希望这个数字上帝能无所不知、无所不会,进而解决美国遇到的各种问题。相比较而言,我们对于大模型发展的思路非常明确,且前景的预测也符合实际的情况。此次云栖大会上,大量机器人的出现就跟此有关。阿里巴巴集团CEO、阿里云董事长兼CEO吴泳铭认为,将大模型、AI与机器人相结合,赋予机器人感知和决策的能力,进而通过机器人干预现实,是大模型未来最重要的落地技术方向。在他看来,过去三十年,互联网浪潮的本质是连接,互联网连接了人、信息、商业和工厂,通过连接提高了世界的协作效率,创造了巨大的价值,改变了人们的生活方式。但生成式AI是通过生产力的供给创造了新的价值,“可以想见,AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响”。从这次云栖大会我们能感受到两个事情。一个是中国AI与大模型的发展方向,现在看,完全正确。只要顺着这个方向继续前进,就一定能有一个非常明确的未来。另一个就是阿里云抢先的转型,为他们成为AI世界的基础设施,奠定了坚实的基础。日本战略咨询之父大前研一这样说过:一家企业的能力反映在“对看不见的未来的风险对冲”和“对看得见的未来的布局”。