ZPedia｜智谱清影全面升级，默片Sora进入有声电影时代， 10s、4K、60 帧超高清视频自带音效！

文摘 2024-11-08 16:25 北京

Z Highlights

本文一共测试了新清影视频生成模型在8个内容品类下的用例。在画面质量，新清影模型擅长生成“环境描述类镜头”，对自然语言的理解上有明显的提升，某些场景下的内容几乎可以以假乱真。
本文还测试了音效模型在8种不同内容视频下的用例，CogSound能够精准识别并生成与不同场景相匹配的音效，为视觉效果增添深度与真实感，可以广泛应用于广告、新闻等多个领域。
智谱的多模态大模型矩阵显著提升了画质、动作连贯性和语义理解，支持4K分辨率，音效生成功能即将上线，可以预见未来AI将在影视、游戏等领域得到广泛应用，显著降低内容创作门槛，助力创作者实现更高效的创意表达。

01 “默片Sora“进入“有声电影时代”

三个月前，清影推出了国内首款面向公众的AI视频生成应用——清言App，只需一段指令或图片，30秒内即可生成AI视频，清影为广告、短视频、表情包等创作带来了新的可能。此后，GLM团队开源了CogVideoX系列模型，包括在消费级显卡上流畅运行的CogVideoX-5B，并催生了多个二次开发项目。

但智谱不仅于此。目前智谱的大模型矩阵已扩展至文字、图片、视频和声音。CogSound音效模型基于GLM-4V的视频理解能力，可自动为视频生成音效和音乐内容，准确匹配视频语义和情感，涵盖爆炸、水流、乐器等复杂音效。

清影迈入新阶段:10s时长、4k、60 帧超高清画质、任意尺寸，自带音效，以及更好人体动作和物理世界模拟。基于最新的CogVideoX模型技术进展，新一代“清影”在多个方面实现了显著提升：

模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟，提高了视频的自然度和逼真度。
4K超高清分辨率:新清影支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。
可变比例:新清影支持任意比例的图像生成视频，超宽画幅也能轻松 Hold 住。
多通道生成能力:同一指令图片可以一次性生成 4个视频。
带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

02 新清影模型

我们第一时间获得了智谱的内测账号，并对新清影的生成效果进行了专注于内容品类的测试。不同于聚焦模型性能、技术突破或娱乐玩法的测试方式，我们更关注“视频生成大模型是否能够有效应用于现有的内容创作流程”，从内容创作的角度具象化视频生成模型在各类实际品类中的表现。

当前，许多内容创作者，尤其是自媒体工作者，在制作视频时常常面临寻找素材的难题，例如，所需素材难以找到或存在版权风险。视频生成大模型的出现为内容生产提供了全新可能。我们从商业广告宣传片、社会新闻、体育赛事、历史故事、动物世界、自然风光、军事科普和科幻电影这八大类型出发，使用模型生成了相应的素材。

生成结果均是基于给定图片和提示词在新清影中的生成，没有经过二次调试。每个视频都分为5秒版本和10秒版本。因为微信公众号的视频数量限制，部分视频转换成了gif格式，时长小于实际秒数。

1、商业广告宣传片

提示词：让画面整体活起来，保时捷911型跑车在蜿蜒山路上快速飞驰在公路上，公路的两边是森林和河流。

2、社会新闻

提示词：让画面整体活起来，外卖小哥沿着街道骑行，穿过人群。

3、动物世界

提示词：动物园熊猫馆内，两只成年大熊猫激烈地扭打在一起。围栏外站满了惊讶的游客，有的拿出手机正在拍摄。

4、自然风光

提示词：一朵盛开的粉红色牡丹花，一只毛茸茸的蜜蜂从远处飞来停在花朵中心。蜜蜂的翅膀微微颤动，采集花蜜。

5、人物刻画

提示词：戴眼镜的外国老头微笑。

6、动作大片

提示词：飞车溅起泥巴

7、战争风云

提示词：废墟中一辆重型坦克，炮塔缓缓移动。

总体来看，模型在场景真实感的呈现上表现出色，细节处理精致，营造出震撼的视觉效果，非常适合用于“环境描述类镜头”的生成，尤其在自然风光和动物世界的场景中。模型展现了超出预期的真实感和细腻度，带来高度逼真的视觉体验。比如蜜蜂和熊猫的视频，几乎难以分辨是AI生成的。

在提示词的语义理解方面，新清影模型的提升尤为显著，对自然语言的理解能力已经取得了长足进步。模型对多数场景的响应速度和准确性都有所提升，生成效果更加贴近人们的期待。虽然在复杂提示词的解读上偶尔会有部分细节遗漏，但整体上已经展现出更为完善的理解能力。

我们期待随着技术的不断迭代和发展，视频生成大模型能够更好地理解物理世界的基本规律，具备常识，并能生成更长、更复杂的高质量视频内容。

03 音效模型

音效模型为视频与声音的同步创作开辟了新的可能，特别是在电影娱乐行业中展现了广泛的应用前景。例如，该模型能够高效生成大规模战斗和灾难场景的音效，显著缩短制作周期并降低制作成本。创作者可以利用这一技术，在更短的时间内完成复杂的音效制作，极大提升影视项目的制作效率。

与此同时，随着GLM-4-Voice情感语音模型的发布，以及音效模型的加入，GLM大模型在声音模态领域实现了人声、音效和音乐的多链路布局。基于图像、视频和声音的多模态模型矩阵进一步完善。音效功能将很快在本月上线公测，为创作者提供更加便捷的创作工具，帮助他们轻松将创意和图像转化为带有音效和背景音乐的AI视频，开启全新的创作体验。

我们对音效模型也进行了测试。测试方式是提供一段默声的视频，由音效模型识别视频内容并生成声音。

在测试中，音效模型展现了出色的视频语义理解能力，能够精准识别并生成与不同场景相匹配的音效，尤其在自然环境、燃烧/爆炸、交通工具和敲击/碰撞声等方面表现尤为优异，为视觉效果增添了深度与真实感。在生成与人类交流相关的声音上，模型仍有进一步提升的空间，但总体效果已展示出音效模型在自动化音效生成中的巨大潜力。可以预见，随着新清影多模态技术的成熟，AI将在影视、游戏等领域得到广泛应用，显著降低内容创作门槛，助力创作者实现更高效的创意表达。

新清影的升级，离不开智谱 CogVideoX 视频生成模型的技术创新。

潜空间扩散模型（Latent Diffusion Model）将音频生成从高维的原始空间转移到低维潜空间中进行处理，这大幅降低了计算复杂度并提升了音频合成效率。模型主体采用优化的U-Net架构，确保在降低计算成本的同时，维持音频生成的高质量。

与此同时，为了实现音视频特征间的精准匹配，模型引入了分块时序对齐交叉注意力机制，使得视频特征可以被精确嵌入到音频生成过程中，确保生成的音频与视频在时序和语义上高度一致。通过这种机制，V2A技术能够在音符和视频帧之间建立一致的语义关系，实现音视频同步效果，消除了传统方法中可能的偏差。

在时序建模方面，模型集成了旋转位置编码，通过为每个序列位置提供独特的标识符号，使模型能够更好地理解音频序列的相对关系。这种编码提升了模型在长序列音频生成任务中的表现，确保音频生成具有更好的连贯性和平滑过渡效果。

04 多模态模型的未来

2024年初，Sora一经推出便引发全球热议。不到一年时间里，几乎所有主流的大模型厂商都推出了自己的多模态模型，生成视频技术在视频时长、生成速度、分辨率、一致性等方面显示出长足进步。视频模型领域 scaling law 继续发挥着作用。

AI教父Geoffrey Hinton在接受访谈时曾说过，多模态是AI的未来，它能让模型更好地理解学习，并且能让模型的空间推理能力更强，是提升AI能力的重要方向。头部风险投资基金Coatue也认为，AI最好的时代还未到来，多模态模型将是前沿创新方向的重要性。

多模态 AI 能力的重要性不仅在于其能够实现对二维、三维空间的理解和推理，更深层次的价值在于它让 AI 能力突破模态限制，进入一个可以处理多种输入、多样交互的广阔场景。这种跨模态的理解与融合，不仅赋予 AI 在视觉、语言和听觉等不同领域间的协同处理能力，更为 AI 赋予了“通用感知”和“智能交互”的特性，使得 AI 不再局限于实验室或专业环境，而是能够自然地融入我们日常生活中的各种复杂情境，真正实现“全场景”的智能化应用。

智谱是国内最早布局多模态的大模型厂商。CogVideoX率先应用于C端，使用户通过简单指令生成高分辨率视频，极大提升了视频创作效率。同时，智谱多模态模型矩阵的持续拓展将生成视频功能不断推向B 端，应用场景包括专业视频制作、视频内容营销、游戏、广告营销和传媒。基于生成视频工具的内容创作成本持续走低。

可以预见，多模态AI将会是内容创作者的必备工具。智谱的多模态模型矩阵具有更加广阔的复合应用场景，不论是专业创作者还是普通用户都能便捷使用视频生成工具。CogVideoX的高分辨率、多通道升级功能大大满足了专业创作者的需求，助力视频生产自动化和成本降低。通过模型间的协作应用，如CogSound与CogVideoX结合，使声音与画面同步生成，从而进一步推动了视频创作流程的自动化。从长远来看，从脚本、视频画面到声音和音效，理想情况下传统视频制作步骤均可由大模型完成，从而实现全流程自动化。内容创作从来没有像今天这样简单和高效过。

从视频直接生成音效的模型，“默片 Sora”将进入“有声电影时代”。

新清影即日起在智谱清言 App 上线，欢迎大家去智谱清言体验。

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

http://mp.weixin.qq.com/s?__biz=MzA3NzUxMzM5MQ==&mid=2453886560&idx=1&sn=f6be3787ec2ab671024e43f9d20a137e

Z Finance

我们相信认知能够跨越阶层，致力于为年轻人提供高质量的科技和财经内容。

最新文章

速递丨腾讯混元大模型技术负责人刘威离职，已开始AI视频生成创业

Z Waves｜梁汝波：字节跳动CEO，中国最牛室友，张一鸣上铺的男人，领导3千亿美元字节“去肥增瘦”

速递丨众议院或搅黄亚马逊与TikTok电商合作，只因TikTok可能存在“国家安全问题”

速递丨Mistral发布新AI模型紧追GPT-4o，聊天机器人升级搜索和画布功能

深度丨短剧出海或成TikTok增长新动力，市场规模超百亿美元，头部短剧公司已在TikTok赚得盆满钵满

深度丨亚马逊Alexa AI难产，曾经卖出1亿台的明星产品跌落神坛

速递丨阿里巴巴或将发行50亿美元债券，今年合计债权融资100亿美元

深度丨高盛中国往事，和方风雷合作高盛高华近二十年，大部分钱高盛没有赚到

速递丨特朗普提名的新司法部长曾投票反对TikTok拆分案，新政府对TikTok相当友好

Z Waves｜张颖：经纬创投创始人，小鹏、理想背后的男人，转型最成功的移动互联网投资人

速递丨腾讯三季度新增超3000个职位，大厂正快速扩招应对AI竞赛

速递丨B站首次实现盈利，月活已达3.5亿创下历史新高，头部Up主带货能力激增

深度丨特朗普称将会兑现承诺，不会在美国禁用TikTok，几乎全家人都是TikTok大V

速递丨腾讯第三季度净利润同比增长47%，将投资更多游戏工作室

速递丨亚马逊推出Haul折扣商店从中国直邮商品，直接对标Temu和Shein

速递丨宁德时代考虑在特朗普放宽中国投资限制后在美国建厂

速递丨阿里通义提请劳动仲裁，周畅违反竞业加入字节或面临巨额索赔

深度｜拼多多四大天使投资人：黄峥教父、中国首富、阿里巴巴复仇者、快递之父，赚了400多亿

速递丨字节跳动在美加速招聘中国籍员工，去年近700个中国员工申请H-1B，正加速发展电商业务

速递丨TikTok大选前调整推荐策略吸引美国保守派用户，或是特朗普胜选重要原因

Z Explorer | 和95后团队，做想做的事情，实习不限时间和地点！

深度丨月之暗面连续3位产品负责人离职创业，全面收缩海外

ZPedia丨2024年10月AI产品榜单，PIKA爆涨4倍，国内即梦、豆包继续领跑大厂产品

速递｜月之暗面股东利益分配不均，老股东矛盾激化仲裁杨植麟，此前曾被曝或套现数亿

速递丨字节、阿里和百度的自研AI芯片前途未卜，台积电暂停为中国客户生产先进制程产品

速递丨阿斯利康100多名员工被判入狱，总裁王磊或涉及药品走私

速递丨红杉中国重大变动！重要合伙人郭山汕创立新投资机构，曾主导拼多多、极兔快递等知名项目

ZPedia｜智谱清影全面升级，默片Sora进入有声电影时代， 10s、4K、60 帧超高清视频自带音效！

速递丨阿里云迎小红书超大订单，完成史诗级500 PB数据池迁移，包含成立以来的全部原始和关键数据

速递丨网易高管贪腐涉案合同金额20亿元，至少9人已被采取刑事强制措施

速递丨百度将推出小度AI眼镜对标Meta雷朋眼镜，价格低于299美金，支持文心一言交互

速递丨边塞科技创业1年半被大厂收购，90后清华叉院创始人曾在OpenAI任职，清华、真格和顺为投资

速递丨突发！加拿大政府禁止TikTok在加运营，字节全球法律战再次升级

速递丨马斯克建议特朗普任命SpaceX高管担任政府要职，但SpaceX又是政府的承包商，利益冲突似乎无法避免

深度丨美国大选悬而未决，但川普可能是字节和TikTok不被分拆的最大希望

速递丨Shein欧洲业务去年收入84亿美元增长68%，税后利润实现翻倍增长，员工仅24人

速递丨Shein和Temu全球法律战再度升级，控告对方侵权和不正当竞争，2026年将在伦敦高等法院审判

速递丨字节今年上半年收入730亿美元，国际收入增长超60%，即将超越Meta成为全球广告收入第二大公司，但价值依然被低估

ZPedia丨字节悄咪咪做了款AI陪伴玩具，已有多名大厂高管入局创业，AI版Jellycat是字节下个硬件梦吗？

深度丨华尔街贷款110亿美元给AI公司购买英伟达芯片，或是人类史上最大泡沫之一

Z Explorer | 和95后团队，做想做的事情，实习不限时间和地点！

深度丨Minimax旗下Talkie反超C.ai，字节多款产品霸榜全球AI榜，AI出海或已验证中国的产品力

速递丨Shein成为新质生产力独角兽代表，上市监管阻力或已减弱，但净利润下滑70%仍使上市具有不确定性

速递丨投资腾讯狂赚千亿回报的投资人准备重仓印度，当年以3400万美元收购腾讯50%股份

速递丨阿里巴巴元境大裁员，许多员工上月底last day，未来业务重点将转向元宇宙应用

速递丨腾讯天美高管或因贪腐问题离职，大厂严守反腐红线，此前IEG部门变动涉及多名高管

速递丨考研数学成绩超过OpenAI-o1，夸克全新“AI搜题”上线，妈妈再也不用担心我的学习啦

速递丨红杉高瓴布局伦敦办公室，重点关注欧洲成长期投资，已投资多个项目

速递丨ChatGPT Search网页版和扩展程序同步上线，谷歌的挑战者终于来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉