智谱,让AI视频正式迈入“有声时代”

文摘   2024-11-11 18:00   北京  

要说谁是中国的OpenAI?在我心中,智谱一定是非常靠前的那个答案。

而且,智谱比OpenAI还Meta。毕竟OpenAI自GPT-3.0上线后,就没怎么开源了,而智谱每隔一段时间就给你开源一下,把他们家技术池里的鱼捞出来,给你玩玩。


今年,是智谱的AI应用大年。我整理了下,到目前为止,他们一共上线了10多款AI产品。这产品发布,高产似那个啥啊

从文字、图像、音频到视频,智谱一直都在多模态路上狂奔,向AGI(通用人工智能)奔去。

3个月前,智谱推出了「清影」视频生成产品(基于CogVideo X模型),只需要30秒就能生成6秒的AI视频。我们第一时间做了测评,好玩,好快。

今天,智谱又带来了最新的CogVideoX V1.5模型产品——「新清影」

最近,有幸参加了「新清影」的内测,我将我的一些测试总结和发现,分享给大家。

AI视频有声了

在这之前,不管是Runway、Luma还是可灵、海螺、PixVerse,大家生成的视频都是无声的,是默片。

要想让视频有声音,只有自己再剪辑,加上BGM,或者通过对口型功能添加AI配音。

而现在,AI视频正式进入了“有声电影时代”。智谱自研了CogSound音效模型(本月即将上线),可以根据视频内容自动生成音效、节奏等元素,来适配视频。

我给大家放个视频(全部由AI生成),你就明白了。
这是《2012》电影原片的音效。 
这是智谱生成的音效。
怎么样?是不是非常接近原片了?看到这里,有人可能会杠一下:你这只是接近原片,又没有超越,有什么了不起的?

大哥,你知道电影《2012》的配乐有多少首,团队有多少人吗?
截图自《2012》电影

而现在,AI只用几分钟就生成好了。是,肯定还达不到电影级别。但,日常创作完全够用了。而且,这还只是模型的第一版。

剪过片子的同学都知道,有时为了找一个音效素材要找很久很久,好不容易找到了吧,还得担心版权问题。这个智谱生成的音效,我敢说可以秒杀某音上70%的尬音效了

这玩意是怎么实现的呢?

它是基于智谱GLM-4V模型的视频理解能力,能够准确识别并理解视频背后的语义和情感,从而生成与之匹配的音频,如爆炸、水流、乐器、动物叫声、引擎轰鸣声、交通工具声等。

再联想到,两周前,智谱还发布了端到端的GLM-4-Voice语音模型,更自然,更生动。

那这下链路齐全了,现在文字、图片、视频、声音、音效模型都有了,就可以据此建立完全多模态的产品,生成更真实、更直接的内容。大大缩短制作周期,降低制作成本。
我帮大家问了下智谱的同学,说音效模型将在本月上线智谱清言APP,与「新清影」一起生成有声AI视频。

我放个Case,大家感受下。画面由清影生成,音效由CogSound模型生成。

以后,只需要一个好的idea,剩下的事就全交给AI吧。

图生视频升级

除了新增音效模型外,图生视频的各方面能力这次也有了大幅提升。
比如画质,升级到4k、60帧、10s,这画面看着是真舒服。

人物面部表情更合理,更真实。

这是我最喜欢的一个Case,这演技怕是《小丑》本尊亚瑟·弗莱克(Arthur Fleck)来了吧。
图由Recraft生成,视频由新清影生成,提示词:男人先是笑,然后悲伤、绝望、抑郁,表情痛苦,内心挣扎。

提示词:美女抚摸狮子后背鬃毛。

遵循物理规律,AI终于可以把水自然地倒进杯子里了,杯中水会随倒入量而增加。
提示词:小河快速流动,云朵缓缓飘动,10s视频。图由朋友@德里克文 原创提供。

运动合理性,也得到了显著增强。
提示词:猫模仿人类炒菜。

提示词:冰川发生爆炸。

提示词:机器人正在维持治安。街面上,车辆穿梭,人群走动。

大幅度镜头调度,也能生成,动作保持连贯。
提示词:汽车加速行驶,溅起水花,洒满镜头。

提示词:女孩满脸疑惑,转身走向镜头。

一些复杂的提示词指令,也能够理解,生成电影级画面。比如,我参考今年的“整活”电影《美国内战》生成了一个片段,这慢镜头有那个味道了。
提示词:警队背后的浓烟发生爆炸,人群骚动,警队拿着防弹盾牌缓缓向前。

也不限比例,新清影支持任意比例图片生成视频。你上传的图片是什么比例,它就生成什么比例的视频。

提示词:镜头摇移,天空中飞船穿梭,霓虹灯闪烁。

提示词:汽车极速行驶,跟踪镜头。图由朋友@德里克文 原创提供。

犹记得,「清影」刚上线时,其图生视频还比较弱。没想到,2个月后带来了这么大的提升。在图生视频领域,现在的「清影」绝对可以跻身第一梯队了。

上线即开源

前面,我们说到,智谱比OpenAI还Meta。

这次,智谱继续坚持一贯的风格——发布即上线,上线即开源。
图|CogVideoX 架构

这款最新的新清影模型CogVideoX v1.5,今天起就可以在智谱清言APP和web体验使用了。同时,智谱也宣布了开源,给到所有开发者使用。

体验链接:https://chatglm.cn/video
开源链接:https://github.com/thudm/cogvideo

Ps,4k、60帧,你得备张好点的显卡啦~

写在最后

两周前,在智谱发布会上,他们曾发布了这样一张图,将人工智能的发展路线分成了5个等级。
L1语言能力,L2逻辑与思维能力,L3工具能力,L4自适应能力,L5超越人类能力。

智谱认为,当前业界处于L1~L2阶段,正在向L3探索。他们发布的Phone ues产品AutoGLM,正是智谱在L3工具能力方面的探索和尝试。
从AutoGLM到新清影,不得不说,智谱离AGI又进了一步!

在科幻神作《银河系漫游指南》中,有一个著名的设定:超级电脑“深思”(Deep Thought)耗费了750万年的计算,得出“生命、宇宙以及任何事情的终极答案”是42。

为什么终极答案是42?小说发表后的这40多年里,大家众说纷纭,争议不断。但我觉得,相对于搞清楚为什么终极答案是42,不如弄清楚生命、宇宙以及任何事情的终极问题是什么,更重要。


从我对智谱的了解来看,他们正是在朝着弄清楚人工智能的42%阶段是什么、有什么以及为什么的方向前行。


Don't Panic.


Ps.现在登录智谱清言APP或访问这个链接,就可以体验「新清影」,音效模型也将在本月底上线~


体验链接:https://chatglm.cn/video

永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章