2024年7月2日,集团公司(台)人力资源部举办“芒果大讲堂——多模态AIGC创新实践专题培训班”,清华大学人工智能研究院副院长、计算机科学与技术系教授、博士生导师朱军现场授课交流。芒果TV智能算法部、虚拟现实部、数字文博技术团队及集团公司各二级单位技术代表约100余人参加了培训,大家就可控生成技术前沿进展及应用进行了充分的交流与互动。
朱军,清华大学人工智能研究院副院长、计算机科学与技术系教授、博士生导师、国际人工智能学会会士(AAAI Fellow)。作为中国人工智能领域领军人物,曾作为分享嘉宾参加央视《开讲啦》节目。其研究领域包括:机器学习、贝叶斯方法、深度学习、数据挖掘。
1
大模型发展跨入多模态时代
模态指表达或感知事物的方式,每种信息的来源或形式都可以称为一种模态。所谓多模态就是除了语言模态,还包括图像、视频、音频等各种模态的信息数据。大模型的发展,从早期的语言模型朝着多模态大模型加速发展。
2
多模态大模型发展趋势:
统一化与通用化
做底座模型时的一个重要诉求是希望模型能够具备多模态输入和输出的能力。多模态输入,即可以理解、处理多种模态的内容,包括文本、视频、音频等;多模态输出,即可以输出基于文字的问答、对话,还可以创作图片、生成视频与音视频协同的内容。这样的架构设计涉及到不同类型数据的表示和处理。由于图像、3D的典型数据和文本数据不一样,处理方式不同,用一个单一的模型架构很难将所有模态数据处理好,因此需要针对性设计。
3
全国首个diffusion trasformer 架构U-ViT
Sora的问世得到大家的普遍关注,它可以生成一次性的视频内容、图像。清华系创业团队——生数科技提出的技术路线,和 Sora 在架构路线上完全一致,但其 U-ViT 比 OpenAI 的 DiT 早两个月问世。这背后有很多核心技术,生数科技比Sora团队更早做了底层的网络架构,将Transformer语言的基本架构引入到扩散模型里做图像视频的生成,首次将ViT架构应用于大规模训练,在两个月时间实现了4秒到16秒的视频生成突破,现在已经能做到32秒。
4
图像、视频、3D生成的多种可能性
图像生成方面,一个通用模型能够支持多元化风格生成,包括中国特有元素、艺术级美学水准,对于语义理解能力也更加突出。视频生成方面,可以模拟真实物理世界,也可根据语义创造超现实场景;初步具备镜头语言,能模拟镜头缓拍效果,保持较高的时空一致性;能够自动生成音效,基于视频快速重建3D对象,做到4D生成。3D生成方面,达到分钟级模型生成速度,最快仅需10秒;做到国际首发4D骨骼动画,通过计算理解动作进行创作;可以对3D场景编辑,增加或删除对象等。
5
技术赋能行业发展
有了技术与数据基座后,可以面向不同行业用户开放模型能力,与AIGC的终端厂商实现创作内容的输出。比如与影视内容生产合作,用AI生成高质量内容;与数字文博结合,实现文物分析、修复与技法还原;与动画制作合作,在角色设计、建模、贴图生成等方面赋能增效,并加速场景构建和角色开发;与游戏行业合作,创建场景道具。
湖南广电正着力打造“文化科技融合、两个效益俱佳”的主流新媒体集团。此次与清华大学人工智能领域专家的交流培训,让集团技术队伍了解国内人工智能领域顶尖技术研究情况和创新应用,同时也向清华大学专家介绍湖南广电应用实践上的需求和难点,以进一步促进产学研成果转化。
芒果大讲堂将继续致力于搭建集团内外技术文化交流平台,让人才交流推进集团战略的落地实现。
湖南广播电视台人力资源部
文章版权为湖南广播电视台人力资源部所有,如需转载,请事先联系后台并请注明出处。
微信:hunantvhr
投稿:hunantvhr@126.com