首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

国产 AI 视频神器大更新，支持 4K、60 帧，视频生成有声时代来了 | 附体验链接

科技 2024-11-08 17:04 广东

今年的 AI 视频生成领域呈现出一种如火如荼的架势。

从最初卷生成时长到卷画面质量，再到最近卷起 AI 特效，行业厂商们开卷的方式千奇百怪，但目标都是共通的，那就是铆足了劲地吸纳新用户，留住旧用户。

然而，尽管市面上许多视频模型号称一键生成视频，但如「默剧」般的成品多少形如鸡肋。尤其是我们对 AI 视频的刺激阈值被一再拔高，音效的缺失就像被捶打的钉子，在用户的心里越扎越深。

当然，厂商们不是不想彻底解决这颗钉子，只是恰好在等待一个厚积薄发的时机。

三个月前，作为国内首个面向公众开放的视频生成产品，智谱清影上线清言 App，只需一段指令或图片，30 秒就能生成 AI 视频。

三个月后的今天，智谱清影再次迎来了一大波重磅升级。

10s 时长、4k、60 帧超高清画质，任意尺寸、更好的任务动作和物理世界模型……除了开卷这些基本功，更重要的是，智谱清影也即将在本月上线生成与画面匹配的音效了。

附上新清影具体升级亮点：

图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强；

更强的人物面部表演细节、动作连贯性和物理特性模拟，提高了视频的自然度和逼真度；

支持生成 10s、4K、60 帧超高清视频，支持任意比例的图像生成视频；

同一指令/图片可以一次性生成 4 个视频，与画面匹配的音效功能将很快在本月上线公测；

并且，当人们还在为 AI 开源/闭源争论不休时，智谱却是国内少有一贯支持开源的企业，而在今天，智谱也正式发布并开源最新版本的视频模型 CogVideoX v1.5。　　

此次开源包括两个模型：CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V，后续，CogVideoX v1.5 也将同步上线到清影，并与新推出的 CogSound 音效模型结合。

代码：
https://github.com/thudm/cogvideo
模型：
https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣布，新清影即日起在智谱清言 App 上线。话不多说，直接附上体验地址：

https://chatglm.cn/video?lang=zh

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

4K 60 帧，新清影已经 next level 了

和蔼的老人面带微笑，面部肌肉细节清晰可见，没有明显的像素化或模糊现象。

火焰老虎的形象也令人印象深刻，不仅步态拟真，眼神之中还透露出一种野性的美感，身上的火焰颜色也呈现出丰富的色彩层次和深度。

车辆急速飞驰，场景转换没有卡顿或延迟，即使是快速移动的对象也能保持连贯性，而在速度感和紧张气氛的营造上也有一手。

喵星人在线化身大厨，熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧语所迷惑，上手才是检验实际效果的唯一标准。

我们也用图生视频功能上手跑了一个放飞孔明灯的视频。孔明灯被释放，缓缓升入夜空，镜头从下往上跟随，天空也被染上了深邃的蓝色。

又或者，我们「复活」了静止的小黄花，微风拂来，小黄花在草地上轻轻摇曳。

不过「新清影」还是需要一定程度的抽卡，这也是目前国内外 AI 视频模型在稳定性上普遍存在的问题，在日常使用这类产品时，还需要多些耐心。

在我们的测试中，最让我们惊喜还是清影的音效生成功能。而这项功能也将在本月晚些时候上线。

对于视频来说，音效和画面总是相辅相成的。

基于此，我们也用几段去掉音频的「哑剧」视频，并让 AI 为它们生成相应的音效，建议打开音量键食用。

例如，《海上钢琴师》最经典的斗琴环节，你更喜欢这个还是原版呢？

美丽的烟花表演，它们在夜空中绽放的瞬间，搭配上 AI 音效，有没有打动你？

雨滴的声音各异，有的清脆，有的低沉，有的急促，有的悠长。

核爆炸的场景很大，搭配声音却几乎没有延迟，在模拟真实爆炸声，环境噪音以及余波等方面表现出色。

别急，仔细听，还有阿凡达水下探险。

如果 CogVideoX 与 CogSound 强强联合，即由清影技术负责生成画面，而音效模型负责配音，最后生成的视频内容也更加生动、真实，甚至能够触动人心。

从无声到有声，AI 视频进入有声电影时代

1900 年，第一部有声电影在巴黎放映，直到十年后，这种能够将声音与影像同步的技术才逐渐成熟，达到了商业化的标准。

有声电影的问世，不仅仅终结了电影自诞生之初的沉默状态，更重要的是，它将电影从单一的纯视觉艺术转变为视听结合的全新艺术形式。

影片上的演员开口说话，而观众席上也响起对有声电影的欢呼声。

两者心声交响，心音共鸣。

如今，历史的轮回再次上演，从年初的「哑剧」到如今的 AI 音效，如果说前者还是局限于 0-1，那么 AI 音效的加入，则标志着 1-N 史诗级跨越。

基于 GLM-4V 的视频理解能力，智谱家族的新成员——音效模型 CogSound 能够准确识别并理解视频背后的语义和情感，并在此基础上生成与之匹配的音频内容。

例如，爆炸、水流、乐器、动物叫声以及交通工具声等。

在影像叙事中，声音的到来是一个关键拐点，它不仅使叙事从依赖文字构建的视频中突围，而且在观念和方法上都带来了更广阔的想象空间。

然而，影视行业对 AI 的引入无疑是充满争议的。

上个月，好莱坞演员的罢工风波尚未平息，而导演卡梅隆则在出席峰会时表示，AI 将会重新定义电影故事讲述，帮助编剧导演探索新的故事线，以及叙述手法。

放诸到视频产业界，音效模型也有着广泛的应用场景，比如可以生成电影中的大规模战斗场景和灾难场景的声音，大大缩短制作周期，降低制作成本。

只是，AI 时代下的视听艺术究竟应该会是什么样？历史上的技术大爆发给我们提供了一些思路。

如果说工业革命的机械化、流水线作业等方式，让标准化的大规模生产成为可能，那么随着 AI 的到来，通过学习大量的数据和模式，能够模仿人类的决策过程、并且根据每个用户的具体需求和偏好定制个性化服务。

简言之，通过降低使用门槛，AI 让每个普通人都能手捏自己喜欢的个性化视频。

法国新浪潮的代表人物让-吕克·戈达尔，也曾探讨过电影技术变革对电影语言和艺术性的影响：

电影不是仅仅在拍摄时使用声音和影像，而是在观众心中构建某种语言。无声电影通过视觉创造了更多的可能，而有声电影则改变了这种创作方式。

而追溯至今年 2 月份，人们关于 AI 视频的展望是由 OpenAI 发布的 Sora 率先拉开，但很遗憾，直到此时此刻，该产品却仿佛陷入「如来」的状况，至今未见踪影。

也正是在这个期间，我们很高兴能够看到国内厂商在这一赛道上交出了不错的成绩单。

不过，这或许还只是开胃小菜，智谱认为真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成。

构建包括文字、图像和视觉等模态在内的智谱多模态大模型矩阵，能够进一步提高大模型的应用和工具能力，也是在迈向 AI 的终极目标——AGI。

至此可以说，我们真正迈入了 AI 有声电影时代。

http://mp.weixin.qq.com/s?__biz=MjM5MjAyNDUyMA==&mid=2651028401&idx=1&sn=4f27a49539b7e35d39c072d0a17e8bae

AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI

最新文章

首发体验| AI学会发红包了！国产Agent一句话控制手机电脑，我看到了「摸鱼自由」的未来

字节跳动起诉前实习生并索赔 800 万/华为百万级轿车 48 小时预订量达 2108 台/支付宝上线「AI 帮找工作」功能

Sora 泄露事件背后，艺术家为什么要集体反抗 OpenAI？

AI 视频巨头重磅更新！提示词都不用费劲写了，从未有过这样的视频创作方式

OpenAI 再获软银 15 亿美元投资 / 比亚迪回应要求供应商降价:非强制要求/《王者荣耀》卫冕 10 月全球手游收入冠军

Sora 遭遇严重泄露！艺术家愤怒「复仇」OpenAI，测试渠道全网疯传

史上最薄 iPhone 或全面取消实体SIM卡/预售价百万起，华为发布尊界S800/英伟达展示AI语音模型

Mate 70 发布！华为最强 AI 手机来了，余承东高呼对得起「那四个字」

网易云音乐怒斥 QQ 音乐「剽窃式创新」/华为Mate70系列支持 AI 手势隔空传送/库克来华：没中国就没苹果今天的成就

国行 iPhone 16 实现 AI 自由，三步就够了

微信内测原图原视频 14 天自动清理功能/iPhone17系列仅Pro机型搭载5倍光学变焦/AI助力，陶哲轩宣布等式理论计划成功

AI 聊天机器人让用户去死，大学生吓到崩溃，官方紧急道歉

AI或成华为Mate70最大卖点/苹果Siri大升级，2026年拟超ChatGPT/可口可乐AI广告翻车|Hunt Good周报

刚刚，黄仁勋获港科大荣誉博士，演讲大秀中文，称 AI 可能是人类历史上最重要的技术

你画 AI 猜，这个开源 AI 图像神器，在玩一种很新的 P 图

小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器

国产大模型黑马的首个推理模型来了，和 o1 PK后，我发现了AI深度思考的大问题

《黑神话：悟空》获金摇杆奖年度游戏/胖东来回应「员工结婚不许要彩礼」/OpenAI 薪酬曝光，奥特曼年薪仅 55 万

农夫山泉钟睒睒炮轰张一鸣，要求道歉/马斯克：AGI最晚2026年实现，人形机器人超100亿/曝华为鸿蒙智行销售车型明年翻倍

初代星舰最后一飞！首次在太空点燃猛禽发动机，马斯克、特朗普现场观看

iPhone 17 Air 厚度曝光，将是苹果最薄手机/余承东展示华为Mate70 细节/阿里通义千问发布新开源 AI 模型

马斯克与 OpenAI 决裂内幕全曝光！这封邮件让他破防，怒斥「我受够了」

从 GPT-2 开始玩 AI 的博士生，把论文做成了上线 Steam 的独立游戏｜AI 新职人

华为Mate70系列开启预售，预约人数超200万/《黑神话：悟空》获TGA年度游戏提名/英伟达AI芯片被曝存在过热问题，交付推迟

马斯克新 AI 破解千年难题却被紧急喊停？这个「玩笑」怎么让 AI 圈一夜未眠

首发 | Kimi 首个多模态功能体验，AI 一键为音乐生成 MV，月之暗面不再只卷长文本

华为 Mate 70 定档海报提前曝光/AI 疑似证明黎曼猜想，已被叫停/vivo X200 系列更新改善炫光

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

马斯克再谈约架扎克伯格：随时奉陪/传满血版 o1 下月推出/苹果或将推出 AI 智能家居中控屏 | Hunt Good 周报

Kimi 发布新模型对标 OpenAI o1！月之暗面创始人回应近期争议

给马斯克上了瑞士卷大考后，我终于拿捏这个国产 AI 视频模型的最强新功能

17 岁高中生写了个神级 Prompt，直接把 Claude 强化成了满血 o1

余承东曝Mate70将在本月26日发布/美团哈啰单车在郑州停运，哈啰已恢复/OpenAI 拟打造AI 经济区与中国竞争

AI 最可怕的不是取代人类，是已经让我们不相信看到的是真照片

iPhone 15成Q3全球销量最高智能手机/OpenAICEO辟谣AI发展「撞墙」论/B站上市后首次单季度盈利

OpenAI 最新产品全曝光！奥特曼驳斥 AI 发展撞墙，Ilya 认错，秘密寻找下一个重大突破

苹果广告又翻车，给 AI 产品做创意怎么就不能 Think different

OpenAI 下一代模型遭遇重大瓶颈，前首席科学家透露新技术路线

曝小米AI眼镜将于明年发布，雷军预期出货30万台/马斯克新职务官宣，狗狗币大涨/苹果或将推出 AI 智能家居中控屏

黄仁勋最新演讲：每家公司都将成为 AI 制造商 | 万字实录

OpenAI 总裁宣布回归！结束「最长假期」，将专注重大技术挑战

2025 放假安排公布，增加两天假期 / 李子柒恢复更新，播放量破亿 / 百度发布首款 AI 眼镜

百度发布首款 AI 眼镜！比 Meta 爆款更卷，苹果也在押注的智能眼镜正在爆发

支付宝崩了上热搜，官方致歉/字节豆包发布新模型，AI 一句话 P 图/罗永浩发文怒喷餐厅卖预制菜

人类智力锁死在了 2021，OpenAI CEO 预言 AGI 可在 5 年内实现 | 万字专访实录

独家首测：全新 Mac mini 的 Type-C 接口能供电了？实测后，我们发现了苹果的秘密

OpenAICEO ：AGI将于2025年到来 / iPhone 部分旧款机型降至半价 / 开封夜骑爆火，官方喊话夜骑大学生

黄仁勋两万字访谈实录：希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

传 Sora 两周内推出/OpenAI 元老、北大校友翁荔宣布离职/Google 版「贾维斯」泄露 | Hunt Good 周报

打败 Midjourney，匿名屠榜的 AI 生图黑马，让人人都能设计海报

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉