2023年,ChatGPT引爆全球科技圈;2024年,同样的震撼再次上演。
2月,OpenAI 宣布推出全新的生成式人工智能模型“Sora”。相信不管你是否关注AI领域,都或多或少听说过它:一段文字,生成“大片”质感的视频,Sora带给人们的感受无疑是炸裂级的,不少人认为视频生产领域即将迎来一场前所未有的颠覆,但实际上Sora带来的影响远不止如此。
【Sora演示视频截图,Prompt:与中国龙庆祝中国年】
当热度稍许褪去,我们或许可以用更加理性的视角去看待Sora以及其造成的影响。就此,我们邀请了顺网科技AI创能中心总监韩挺与大家分享他关于Sora的一些看法。
从技术层面看,韩挺介绍道,Sora是一种Diffusion transformer model,它通过从看起来像是静态噪声开始,逐步通过多个步骤去除噪声来生成视频。Sora通过让模型一次预测多个Frames,解决了即使Subject短暂离开视野也能保持相同的问题(一次生成多帧预测,确保画面主题即使暂时离开视野也能保持一致);其次,Sora采用类似GPT的Transformer架构,采用Patch方式表示视频和图像,类似GPT中的token。统一的数据表示使得Sora能够在更加广泛的数据集上进行训练,使其具有强大的扩展能力,能够采用不同分辨率、不同时长、宽高比的原生视频进行训练;同时,为了提高模型对用户文本指令的理解,Sora采用了在DALL E3中的recaptioning技术即为视频/图像训练数据生成高度描述性的文本,这样使得模型能够更加忠实地遵从用户指令。
在这些技术支撑下,Sora具备了突破性语义理解能力,它能够仅仅根据提示词,生成60s的 连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。且生成视频具有3D一致性、较长视频的连贯性和对象持续性,能与世界互动,模拟数字世界。
韩挺强调,AI的发展和进步离不开算力的投入和发展。Sora作为一个数据驱动的物理引擎,能够实现对现实或幻想世界的富有想象力的模拟。通过复杂的渲染技术、长镜头推理和语义基础等技术,Sora能够从多模态、多元化的数据源中学习,从文字、图形到视频,数据量级再度提升,这无疑需要更多的算力来支撑。
Sora对算力需求的拉动可以从多个层次来梳理:
就Sora本身影响来看,Sora大模型的发布将进一步拉大算力缺口。Sora大模型延续了此前GPT模型“源数据-Transformer-Diffusion-涌现”的技术路径,这意味着其发展成熟同样需要海量数据+大规模参数+大算力作为基座,且由于视频训练所需数据量远大于文本训练的数据量,可以预计Sora大模型将进一步拉大算力缺口;
就行业影响而言,当前这一轮算力需求“爆棚”是大模型和AIGC带来的。同理,和文生文、文生图一样,Sora掀起文生视频模型浪潮(特别是在有开源方案出来之后),预计国内大模型厂商也将快速跟进,从而带动算力需求增加;
从技术发展的视角看,AI技术从理解人类的文字知识转变为理解人类的视频图像知识,这一转变意味着AI将需要处理和理解更大量的信息,无论是从信息的输入还是输出来看,都需要巨大的算力支持。原本预测的算力需求可能是现有水平的3到5倍,如Sora这样的技术,实际所需的算力可能会更加巨大。同时,理解和模拟物理世界的能力得到发展后,AGI(通用人工智能)也会快速发展,而充足的算力正是实现AGI的基石。
这与不少外界观点不谋而合,行业普遍认为,Sora强大的文生视频能力将快速推进应用端商业化落地、拉动产业规模,进而传导到上游算力基础设施,算力基础设施需求将再次迎来爆发。Sora背后是一场算力竞赛,智能算力产业迎来挑战和机遇。
拥抱挑战即是拥抱机遇,顺网面对Sora引发的这波科技浪潮自然也有充足准备。在AI应用方面,顺网创新研发的灵悉引擎,将在智能体层发挥连接算力、大模型与应用的关键作用,帮助从业者降低AI的准入门槛,促进高质量AI陪伴应用的构建。同时顺网的灵悉文本生成算法,可应用于文本生成场景,根据用户输入的文本信息,结合虚拟人人设信息,生成符合用户要求且符合虚拟人人设的文本回答。
在算力方面,顺网的多层次算力布局将保证类Sora的多模态大模型以更具性价比的方式向客户提供服务,帮助用户实现算力“用得上,用得起”的目标。其中,顺网智算中心将提供算力整体解决方案,并可无缝整合顺网“灵悉智能体引擎”及顺网的其他AI应用能力。同时,智算中心与算力云业务相结合,可以实现多层次算力协同,并通过“算力塔”智能调度,由“算力市场”一站式交付。
具体而言,顺网算力具备“三多”、“四优”的特点。“三多”即顺网算力服务具有支持多层次算力、多场景调度和多方式交付的三大特点,这样的业务优势使得顺网和央国企,比如运营商的合作具有很大的灵活性;“四优”即顺网算力服务具备“云边共用”、“降本增效”、“供需匹配”、“开箱即用”四大优势,可帮助相关企业更好地开展业务布局,与相关企业一道帮助客户实现“上好算力 用好 AI”的业务目标。
面向未来,韩挺表示目前顺网在文、音、图等领域均有深入研究,后续考虑在文、音、图的基础上,把文生视频的技术融入到灵悉智能体引擎和 AI应用中去,增强用户体验,进一步挖掘 GenAI 时代红利;在算力方面,韩挺认为SORA 的出现,意味着多模态模型对多层次算力结构有着重大需求,顺网科技将继续在分布式GPU 算力和智能算力两方面发力,结合 AIPC 、SORA 等业界最新进展,推出算力市场等创新产品,提供一站式算力资源和算力服务,更好地服务支撑AI 领域的算力需求!