ZPedia|智谱清影全面升级,默片Sora进入有声电影时代, 10s、4K、60 帧超高清视频自带音效!

文摘   2024-11-08 16:25   北京  

Z Highlights

  • 本文一共测试了新清影视频生成模型在8个内容品类下的用例。在画面质量,新清影模型擅长生成“环境描述类镜头”,对自然语言的理解上有明显的提升,某些场景下的内容几乎可以以假乱真。

  • 本文还测试了音效模型在8种不同内容视频下的用例,CogSound能够精准识别并生成与不同场景相匹配的音效,为视觉效果增添深度与真实感,可以广泛应用于广告、新闻等多个领域。

  • 智谱的多模态大模型矩阵显著提升了画质、动作连贯性和语义理解,支持4K分辨率,音效生成功能即将上线,可以预见未来AI将在影视、游戏等领域得到广泛应用,显著降低内容创作门槛,助力创作者实现更高效的创意表达。

01 “默片Sora“进入“有声电影时代”

三个月前,清影推出了国内首款面向公众的AI视频生成应用——清言App,只需一段指令或图片,30秒内即可生成AI视频,清影为广告、短视频、表情包等创作带来了新的可能。此后,GLM团队开源了CogVideoX系列模型,包括在消费级显卡上流畅运行的CogVideoX-5B,并催生了多个二次开发项目。

但智谱不仅于此。目前智谱的大模型矩阵已扩展至文字、图片、视频和声音。CogSound音效模型基于GLM-4V的视频理解能力,可自动为视频生成音效和音乐内容,准确匹配视频语义和情感,涵盖爆炸、水流、乐器等复杂音效。

清影迈入新阶段:10s时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好人体动作和物理世界模拟。基于最新的CogVideoX模型技术进展,新一代“清影”在多个方面实现了显著提升:

  • 模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度。

  • 4K超高清分辨率:新清影支持生成 10s、4K、60 帧超高清视频,视觉体验拉到极致,动态画面更加流畅。

  • 可变比例:新清影支持任意比例的图像生成视频,超宽画幅也能轻松 Hold 住。

  • 多通道生成能力:同一指令图片可以一次性生成 4个视频。

  • 带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

02 新清影模型

我们第一时间获得了智谱的内测账号,并对新清影的生成效果进行了专注于内容品类的测试。不同于聚焦模型性能、技术突破或娱乐玩法的测试方式,我们更关注“视频生成大模型是否能够有效应用于现有的内容创作流程”,从内容创作的角度具象化视频生成模型在各类实际品类中的表现。

当前,许多内容创作者,尤其是自媒体工作者,在制作视频时常常面临寻找素材的难题,例如,所需素材难以找到或存在版权风险。视频生成大模型的出现为内容生产提供了全新可能。我们从商业广告宣传片、社会新闻、体育赛事、历史故事、动物世界、自然风光、军事科普和科幻电影这八大类型出发,使用模型生成了相应的素材。

生成结果均是基于给定图片和提示词在新清影中的生成,没有经过二次调试。每个视频都分为5秒版本和10秒版本。因为微信公众号的视频数量限制,部分视频转换成了gif格式,时长小于实际秒数。

1、商业广告宣传片

提示词:让画面整体活起来,保时捷911型跑车在蜿蜒山路上快速飞驰在公路上,公路的两边是森林和河流。

2、社会新闻

提示词:让画面整体活起来,外卖小哥沿着街道骑行,穿过人群。
3、动物世界

提示词:动物园熊猫馆内,两只成年大熊猫激烈地扭打在一起。围栏外站满了惊讶的游客,有的拿出手机正在拍摄。
4、自然风光

提示词:一朵盛开的粉红色牡丹花,一只毛茸茸的蜜蜂从远处飞来停在花朵中心。蜜蜂的翅膀微微颤动,采集花蜜。
5、人物刻画

提示词:戴眼镜的外国老头微笑。
6、动作大片

提示词:飞车溅起泥巴
7、战争风云

提示词:废墟中一辆重型坦克,炮塔缓缓移动。
总体来看,模型在场景真实感的呈现上表现出色,细节处理精致,营造出震撼的视觉效果,非常适合用于“环境描述类镜头”的生成,尤其在自然风光和动物世界的场景中。模型展现了超出预期的真实感和细腻度,带来高度逼真的视觉体验。比如蜜蜂和熊猫的视频,几乎难以分辨是AI生成的。

在提示词的语义理解方面,新清影模型的提升尤为显著,对自然语言的理解能力已经取得了长足进步。模型对多数场景的响应速度和准确性都有所提升,生成效果更加贴近人们的期待。虽然在复杂提示词的解读上偶尔会有部分细节遗漏,但整体上已经展现出更为完善的理解能力。

我们期待随着技术的不断迭代和发展,视频生成大模型能够更好地理解物理世界的基本规律,具备常识,并能生成更长、更复杂的高质量视频内容。

03 音效模型

音效模型为视频与声音的同步创作开辟了新的可能,特别是在电影娱乐行业中展现了广泛的应用前景。例如,该模型能够高效生成大规模战斗和灾难场景的音效,显著缩短制作周期并降低制作成本。创作者可以利用这一技术,在更短的时间内完成复杂的音效制作,极大提升影视项目的制作效率。

与此同时,随着GLM-4-Voice情感语音模型的发布,以及音效模型的加入,GLM大模型在声音模态领域实现了人声、音效和音乐的多链路布局。基于图像、视频和声音的多模态模型矩阵进一步完善。音效功能将很快在本月上线公测,为创作者提供更加便捷的创作工具,帮助他们轻松将创意和图像转化为带有音效和背景音乐的AI视频,开启全新的创作体验。

我们对音效模型也进行了测试。测试方式是提供一段默声的视频,由音效模型识别视频内容并生成声音。

在测试中,音效模型展现了出色的视频语义理解能力,能够精准识别并生成与不同场景相匹配的音效,尤其在自然环境、燃烧/爆炸、交通工具和敲击/碰撞声等方面表现尤为优异,为视觉效果增添了深度与真实感。在生成与人类交流相关的声音上,模型仍有进一步提升的空间,但总体效果已展示出音效模型在自动化音效生成中的巨大潜力。可以预见,随着新清影多模态技术的成熟,AI将在影视、游戏等领域得到广泛应用,显著降低内容创作门槛,助力创作者实现更高效的创意表达。

新清影的升级,离不开智谱 CogVideoX 视频生成模型的技术创新。

潜空间扩散模型(Latent Diffusion Model)将音频生成从高维的原始空间转移到低维潜空间中进行处理,这大幅降低了计算复杂度并提升了音频合成效率。模型主体采用优化的U-Net架构,确保在降低计算成本的同时,维持音频生成的高质量。

与此同时,为了实现音视频特征间的精准匹配,模型引入了分块时序对齐交叉注意力机制,使得视频特征可以被精确嵌入到音频生成过程中,确保生成的音频与视频在时序和语义上高度一致。通过这种机制,V2A技术能够在音符和视频帧之间建立一致的语义关系,实现音视频同步效果,消除了传统方法中可能的偏差。

在时序建模方面,模型集成了旋转位置编码,通过为每个序列位置提供独特的标识符号,使模型能够更好地理解音频序列的相对关系。这种编码提升了模型在长序列音频生成任务中的表现,确保音频生成具有更好的连贯性和平滑过渡效果。

04 多模态模型的未来

2024年初,Sora一经推出便引发全球热议。不到一年时间里,几乎所有主流的大模型厂商都推出了自己的多模态模型,生成视频技术在视频时长、生成速度、分辨率、一致性等方面显示出长足进步。视频模型领域 scaling law 继续发挥着作用。

AI教父Geoffrey Hinton在接受访谈时曾说过,多模态是AI的未来,它能让模型更好地理解学习,并且能让模型的空间推理能力更强,是提升AI能力的重要方向。头部风险投资基金Coatue也认为,AI最好的时代还未到来,多模态模型将是前沿创新方向的重要性。

多模态 AI 能力的重要性不仅在于其能够实现对二维、三维空间的理解和推理,更深层次的价值在于它让 AI 能力突破模态限制,进入一个可以处理多种输入、多样交互的广阔场景。这种跨模态的理解与融合,不仅赋予 AI 在视觉、语言和听觉等不同领域间的协同处理能力,更为 AI 赋予了“通用感知”和“智能交互”的特性,使得 AI 不再局限于实验室或专业环境,而是能够自然地融入我们日常生活中的各种复杂情境,真正实现“全场景”的智能化应用。

智谱是国内最早布局多模态的大模型厂商。CogVideoX率先应用于C端,使用户通过简单指令生成高分辨率视频,极大提升了视频创作效率。同时,智谱多模态模型矩阵的持续拓展将生成视频功能不断推向B 端,应用场景包括专业视频制作、视频内容营销、游戏、广告营销和传媒。基于生成视频工具的内容创作成本持续走低。

可以预见,多模态AI将会是内容创作者的必备工具。智谱的多模态模型矩阵具有更加广阔的复合应用场景,不论是专业创作者还是普通用户都能便捷使用视频生成工具。CogVideoX的高分辨率、多通道升级功能大大满足了专业创作者的需求,助力视频生产自动化和成本降低。通过模型间的协作应用,如CogSound与CogVideoX结合,使声音与画面同步生成,从而进一步推动了视频创作流程的自动化。从长远来看,从脚本、视频画面到声音和音效,理想情况下传统视频制作步骤均可由大模型完成,从而实现全流程自动化。内容创作从来没有像今天这样简单和高效过。

从视频直接生成音效的模型,“默片 Sora”将进入“有声电影时代”。

新清影即日起在智谱清言 App 上线,欢迎大家去智谱清言体验。
欢迎扫码加群参与讨论


---------END--------

我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
🚀 我们正在招募新一期的Z Explorer

Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
 最新文章