字节跳动,重磅发布!

财富   2025-02-06 15:33   广东  

【导读】字节跳动推OmniHuman:可从单张照片生成逼真全身动态视频

中国基金报记者 王建蔷

初创公司掀起AI浪潮的同时,头部互联网企业在AI赛道的步伐同样没有停歇! 

2月6日,字节跳动数字人团队推出了新的多模态数字人方案OmniHuman,其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。

字节推出全新AI数字人模型

字节跳动公司研究人员开发了一种名为OmniHuman-1的人工智能模型,能够从单张图像生成逼真全身动态视频,效果令人惊叹。

该模型能够通过一张图片配合音频或视频,生成非常自然的会说话、唱歌的人类动作视频。在生成动画时能够保持极高的真实感,能够精确捕捉到人类的面部表情、身体动作、手势变化、物体交互等细节。

其支持各种不同类型输入(如单一的人物图片和音频、视频等信号),生成非常逼真真人视频动画,涵盖从面部表情到全身动作,无论是说话、唱歌、跳舞等,超越了以往仅能动画面部或上半身的AI模型。

据了解,该模型采用基于DiT架构的多模态运动条件混合训练策略,解决高质量数据稀缺问题。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为“全条件”训练的创新方法,使得AI能够从更大、更丰富的数据集中学习。

从评测结果而言,通过与多个已存在的模型定量对比,OmniHuman算法在多项评估指标上展现出显著优势。

研究团队指出,OmniHuman经过超过18700小时的人类视频数据训练,表现出了显著的进步。通过引入多种条件信号(例如文本、音频和姿势),这项技术不仅提升了视频生成的质量,还有效减少了数据的浪费。

“OmniHuman通过引入多模态条件驱动和全条件训练策略,成功解决了人类动画生成领域长期存在的数据扩展和泛化能力问题。这一发展出现在AI视频生成技术竞争日益激烈的背景下,谷歌、Meta和微软等公司也在积极追逐类似技术。”有业内人士指出。

数字人规模明年或将达百亿元

当下,全球数字人进入高产时代,相关产业规模不断扩大,互联网巨头纷纷下场布局。

目前,除百度、腾讯、阿里巴巴等互联网公司,华为云、京东云、字节跳动、科大讯飞、商汤科技、小冰公司等厂商都已参与到虚拟数字人生产中。

天眼查数据显示,截至2024年9月底,中国与数字人相关的企业数量已达114.4万家,仅2024年前五个月就新增注册企业17.4万余家,显示出数字人产业的市场潜力与活力。

浙商证券认为,数字人有望成为AI大模型的服务入口,在帮助企业实现降本增效的同时,实现toB服务在toC侧的变现闭环。

IDC最新发布的报告显示,中国虚拟数字人市场规模呈现高速增长趋势,预计到2026年将达102.4亿元。

智研咨询认为,随着AI技术不断进步,智能驱动型虚拟数字人将成为市场主流。虚拟数字人的拟人化程度为其核心特征及竞争力所在,虚拟数字人包括真人驱动型与人工智能驱动型,其中真人驱动型虚拟数字人仍离不开现实真人,其动作捕捉、音视频合成等均需要中之人配合完成,拟人化程度更高。目前智能驱动型虚拟数字人受限于技术、设备因素,拟人逼真程度不及真人驱动型。

未来随着自然语言处理、深度学习算法等AI技术的不断发展与突破,智能驱动型虚拟数字人感知能力、表达能力与认知能力都将得到大幅提升,且成本也将进一步下滑。

在性能与成本优势不断显现下,能够实现自我认知和进化的智能驱动型虚拟数字人将逐步取代真人驱动型虚拟数字人,成为市场主流,广泛地应用在各个领域。尤其是AIGC技术的兴起,将助力智能驱动型数字人个性化定制及智能化交互能力再上新台阶。

编辑:江右
校对:王玥
制作:黄梅
审核:木鱼


版权声明

《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。


授权转载合作联系人:于先生(电话:0755-82468670)


中国基金报
关注中国基金报,即时获取深度理财资讯
 最新文章