要说谁是中国的OpenAI?在我心中,智谱一定是非常靠前的那个答案。
而且,智谱比OpenAI还Meta。毕竟OpenAI自GPT-3.0上线后,就没怎么开源了,而智谱每隔一段时间就给你开源一下,把他们家技术池里的鱼捞出来,给你玩玩。
今年,是智谱的AI应用大年。我整理了下,到目前为止,他们一共上线了10多款AI产品。这产品发布,高产似那个啥啊。从文字、图像、音频到视频,智谱一直都在多模态路上狂奔,向AGI(通用人工智能)奔去。3个月前,智谱推出了「清影」视频生成产品(基于CogVideo X模型),只需要30秒就能生成6秒的AI视频。我们第一时间做了测评,好玩,好快。今天,智谱又带来了最新的CogVideoX V1.5模型产品——「新清影」。最近,有幸参加了「新清影」的内测,我将我的一些测试总结和发现,分享给大家。在这之前,不管是Runway、Luma还是可灵、海螺、PixVerse,大家生成的视频都是无声的,是默片。要想让视频有声音,只有自己再剪辑,加上BGM,或者通过对口型功能添加AI配音。而现在,AI视频正式进入了“有声电影时代”。智谱自研了CogSound音效模型(本月即将上线),可以根据视频内容自动生成音效、节奏等元素,来适配视频。怎么样?是不是非常接近原片了?看到这里,有人可能会杠一下:你这只是接近原片,又没有超越,有什么了不起的?大哥,你知道电影《2012》的配乐有多少首,团队有多少人吗?而现在,AI只用几分钟就生成好了。是,肯定还达不到电影级别。但,日常创作完全够用了。而且,这还只是模型的第一版。剪过片子的同学都知道,有时为了找一个音效素材要找很久很久,好不容易找到了吧,还得担心版权问题。这个智谱生成的音效,我敢说可以秒杀某音上70%的尬音效了。它是基于智谱GLM-4V模型的视频理解能力,能够准确识别并理解视频背后的语义和情感,从而生成与之匹配的音频,如爆炸、水流、乐器、动物叫声、引擎轰鸣声、交通工具声等。再联想到,两周前,智谱还发布了端到端的GLM-4-Voice语音模型,更自然,更生动。那这下链路齐全了,现在文字、图片、视频、声音、音效模型都有了,就可以据此建立完全多模态的产品,生成更真实、更直接的内容。大大缩短制作周期,降低制作成本。我帮大家问了下智谱的同学,说音效模型将在本月上线智谱清言APP,与「新清影」一起生成有声AI视频。我放个Case,大家感受下。画面由清影生成,音效由CogSound模型生成。以后,只需要一个好的idea,剩下的事就全交给AI吧。除了新增音效模型外,图生视频的各方面能力这次也有了大幅提升。比如画质,升级到4k、60帧、10s,这画面看着是真舒服。这是我最喜欢的一个Case,这演技怕是《小丑》本尊亚瑟·弗莱克(Arthur Fleck)来了吧。图由Recraft生成,视频由新清影生成,提示词:男人先是笑,然后悲伤、绝望、抑郁,表情痛苦,内心挣扎。遵循物理规律,AI终于可以把水自然地倒进杯子里了,杯中水会随倒入量而增加。提示词:小河快速流动,云朵缓缓飘动,10s视频。图由朋友@德里克文 原创提供。提示词:机器人正在维持治安。街面上,车辆穿梭,人群走动。一些复杂的提示词指令,也能够理解,生成电影级画面。比如,我参考今年的“整活”电影《美国内战》生成了一个片段,这慢镜头有那个味道了。提示词:警队背后的浓烟发生爆炸,人群骚动,警队拿着防弹盾牌缓缓向前。也不限比例,新清影支持任意比例图片生成视频。你上传的图片是什么比例,它就生成什么比例的视频。提示词:汽车极速行驶,跟踪镜头。图由朋友@德里克文 原创提供。犹记得,「清影」刚上线时,其图生视频还比较弱。没想到,2个月后带来了这么大的提升。在图生视频领域,现在的「清影」绝对可以跻身第一梯队了。这次,智谱继续坚持一贯的风格——发布即上线,上线即开源。这款最新的新清影模型CogVideoX v1.5,今天起就可以在智谱清言APP和web体验使用了。同时,智谱也宣布了开源,给到所有开发者使用。体验链接:https://chatglm.cn/video开源链接:https://github.com/thudm/cogvideo两周前,在智谱发布会上,他们曾发布了这样一张图,将人工智能的发展路线分成了5个等级。L1语言能力,L2逻辑与思维能力,L3工具能力,L4自适应能力,L5超越人类能力。智谱认为,当前业界处于L1~L2阶段,正在向L3探索。他们发布的Phone ues产品AutoGLM,正是智谱在L3工具能力方面的探索和尝试。从AutoGLM到新清影,不得不说,智谱离AGI又进了一步!在科幻神作《银河系漫游指南》中,有一个著名的设定:超级电脑“深思”(Deep Thought)耗费了750万年的计算,得出“生命、宇宙以及任何事情的终极答案”是42。为什么终极答案是42?小说发表后的这40多年里,大家众说纷纭,争议不断。但我觉得,相对于搞清楚为什么终极答案是42,不如弄清楚生命、宇宙以及任何事情的终极问题是什么,更重要。
从我对智谱的了解来看,他们正是在朝着弄清楚人工智能的42%阶段是什么、有什么以及为什么的方向前行。
Don't Panic.
Ps.现在登录智谱清言APP或访问这个链接,就可以体验「新清影」了,音效模型也将在本月底上线~
体验链接:https://chatglm.cn/video