首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

智谱，让AI视频正式迈入“有声时代”

文摘 2024-11-11 18:00 北京

要说谁是中国的OpenAI？在我心中，智谱一定是非常靠前的那个答案。

而且，智谱比OpenAI还Meta。毕竟OpenAI自GPT-3.0上线后，就没怎么开源了，而智谱每隔一段时间就给你开源一下，把他们家技术池里的鱼捞出来，给你玩玩。

今年，是智谱的AI应用大年。我整理了下，到目前为止，他们一共上线了10多款AI产品。这产品发布，高产似那个啥啊。

从文字、图像、音频到视频，智谱一直都在多模态路上狂奔，向AGI（通用人工智能）奔去。

3个月前，智谱推出了「清影」视频生成产品（基于CogVideo X模型），只需要30秒就能生成6秒的AI视频。我们第一时间做了测评，好玩，好快。

今天，智谱又带来了最新的CogVideoX V1.5模型产品——「新清影」。

最近，有幸参加了「新清影」的内测，我将我的一些测试总结和发现，分享给大家。

AI视频有声了

在这之前，不管是Runway、Luma还是可灵、海螺、PixVerse，大家生成的视频都是无声的，是默片。

要想让视频有声音，只有自己再剪辑，加上BGM，或者通过对口型功能添加AI配音。

而现在，AI视频正式进入了“有声电影时代”。智谱自研了CogSound音效模型（本月即将上线），可以根据视频内容自动生成音效、节奏等元素，来适配视频。

我给大家放个视频（全部由AI生成），你就明白了。

这是《2012》电影原片的音效。

这是智谱生成的音效。

怎么样？是不是非常接近原片了？看到这里，有人可能会杠一下：你这只是接近原片，又没有超越，有什么了不起的？

大哥，你知道电影《2012》的配乐有多少首，团队有多少人吗？

截图自《2012》电影

而现在，AI只用几分钟就生成好了。是，肯定还达不到电影级别。但，日常创作完全够用了。而且，这还只是模型的第一版。

剪过片子的同学都知道，有时为了找一个音效素材要找很久很久，好不容易找到了吧，还得担心版权问题。这个智谱生成的音效，我敢说可以秒杀某音上70%的尬音效了。

这玩意是怎么实现的呢？

它是基于智谱GLM-4V模型的视频理解能力，能够准确识别并理解视频背后的语义和情感，从而生成与之匹配的音频，如爆炸、水流、乐器、动物叫声、引擎轰鸣声、交通工具声等。

再联想到，两周前，智谱还发布了端到端的GLM-4-Voice语音模型，更自然，更生动。

那这下链路齐全了，现在文字、图片、视频、声音、音效模型都有了，就可以据此建立完全多模态的产品，生成更真实、更直接的内容。大大缩短制作周期，降低制作成本。

我帮大家问了下智谱的同学，说音效模型将在本月上线智谱清言APP，与「新清影」一起生成有声AI视频。

我放个Case，大家感受下。画面由清影生成，音效由CogSound模型生成。

以后，只需要一个好的idea，剩下的事就全交给AI吧。

图生视频升级

除了新增音效模型外，图生视频的各方面能力这次也有了大幅提升。

比如画质，升级到4k、60帧、10s，这画面看着是真舒服。

人物面部表情更合理，更真实。

这是我最喜欢的一个Case，这演技怕是《小丑》本尊亚瑟·弗莱克（Arthur Fleck）来了吧。

图由Recraft生成，视频由新清影生成，提示词：男人先是笑，然后悲伤、绝望、抑郁，表情痛苦，内心挣扎。

提示词：美女抚摸狮子后背鬃毛。

遵循物理规律，AI终于可以把水自然地倒进杯子里了，杯中水会随倒入量而增加。

提示词：小河快速流动，云朵缓缓飘动，10s视频。图由朋友@德里克文 原创提供。

运动合理性，也得到了显著增强。

提示词：猫模仿人类炒菜。

提示词：冰川发生爆炸。

提示词：机器人正在维持治安。街面上，车辆穿梭，人群走动。

大幅度镜头调度，也能生成，动作保持连贯。

提示词：汽车加速行驶，溅起水花，洒满镜头。

提示词：女孩满脸疑惑，转身走向镜头。

一些复杂的提示词指令，也能够理解，生成电影级画面。比如，我参考今年的“整活”电影《美国内战》生成了一个片段，这慢镜头有那个味道了。

提示词：警队背后的浓烟发生爆炸，人群骚动，警队拿着防弹盾牌缓缓向前。

也不限比例，新清影支持任意比例图片生成视频。你上传的图片是什么比例，它就生成什么比例的视频。

提示词：镜头摇移，天空中飞船穿梭，霓虹灯闪烁。

提示词：汽车极速行驶，跟踪镜头。图由朋友@德里克文 原创提供。

犹记得，「清影」刚上线时，其图生视频还比较弱。没想到，2个月后带来了这么大的提升。在图生视频领域，现在的「清影」绝对可以跻身第一梯队了。

上线即开源

前面，我们说到，智谱比OpenAI还Meta。

这次，智谱继续坚持一贯的风格——发布即上线，上线即开源。

图｜CogVideoX 架构

这款最新的新清影模型CogVideoX v1.5，今天起就可以在智谱清言APP和web体验使用了。同时，智谱也宣布了开源，给到所有开发者使用。

体验链接：https://chatglm.cn/video

开源链接：https://github.com/thudm/cogvideo

Ps，4k、60帧，你得备张好点的显卡啦~

写在最后

两周前，在智谱发布会上，他们曾发布了这样一张图，将人工智能的发展路线分成了5个等级。

L1语言能力，L2逻辑与思维能力，L3工具能力，L4自适应能力，L5超越人类能力。

智谱认为，当前业界处于L1~L2阶段，正在向L3探索。他们发布的Phone ues产品AutoGLM，正是智谱在L3工具能力方面的探索和尝试。

从AutoGLM到新清影，不得不说，智谱离AGI又进了一步！

在科幻神作《银河系漫游指南》中，有一个著名的设定：超级电脑“深思”（Deep Thought）耗费了750万年的计算，得出“生命、宇宙以及任何事情的终极答案”是42。

为什么终极答案是42？小说发表后的这40多年里，大家众说纷纭，争议不断。但我觉得，相对于搞清楚为什么终极答案是42，不如弄清楚生命、宇宙以及任何事情的终极问题是什么，更重要。

从我对智谱的了解来看，他们正是在朝着弄清楚人工智能的42%阶段是什么、有什么以及为什么的方向前行。

Don't Panic.

Ps.现在登录智谱清言APP或访问这个链接，就可以体验「新清影」了，音效模型也将在本月底上线~

体验链接：https://chatglm.cn/video

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533457&idx=2&sn=76b28377507737d7e8fe2e3a5c0bb60d

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉