智谱生成视频升级,告别默片Sora

文摘   2024-11-08 16:31   中国香港  

智谱的哥们说,他们的视频生成产品又又又升级了。

这次绝对震撼,不仅仅图生视频的效果更好了,更牛的是让视频有声音了。

以前不管sora还是啥,大家搞的都是“默片”,真到用的时候还得需要搞点音频素材。

我说,“我看过你们的cogVideoX 2B和5B的开源模型,效果还不错,现在都进化到生成带声音的影片了?别和我说你拿视频帧去检索视频帧关联的音频库,然后找出一条最相关的音频配上去,这也有点太土了。”

哥们说这次真的是技术突破原生端到端生成,不是检索配音,这个月就会上线。“另外我们的cogVideoX1.5我们也要开源了。”

你之前不是测过清影的文生视频吗?你把视频发我下,我在后台给你跑下,你看看效果咋样。

没问题,试试看效果到底咋样,我准备了三十几个不同的测试场景,直接甩给哥们,过了一会儿,他打包发了我一个400多M的压缩包。

听了下,电影配乐,氛围声,水流,乐器,人群,自然,爆炸声等效果都还可以,公众号文章发零散的视频不方便,我把三十几个不同场景,涵盖各种风格的视频片段压缩为一整个视频,感兴趣的老哥们可以带上耳机,感受一下。

哥们说,除了视频音效模型,这次他们的 CogVideoX模型也更新了,新清影在许多方面得到提升。
  • 模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度。

  • 4K超高清分辨率:新清影支持生成10s、4K、60帧超高清视频,视觉体验拉到极致,动态画面更加流畅。

  • 可变比例;新清影支持任意比例的图像生成视频,超宽画幅也能轻松 Hold住。

  • 多通道生成能力:同一指令/图片可以一次性生成4 个视频。

  • 带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

我们测一下图像生视频,以下的测试用例均为一张图和对应的prompt描述,要求清影在原画基础进行视频创作。

1.原始画面是一个孩子用蜡笔画的家庭,一座红色的房子,周围是一片绿色的草地,太阳高高挂在空中,四个笑脸人物站在门前,手拉着手,充满童趣。让太阳旋转起来。


2.原始画面是一幅超现实主义画作,一只巨大的鲸鱼在城市的天空中游弋,下面是熙熙攘攘的街道,行人仰望着天空,表现出惊奇的表情。让鲸鱼看向街道上的人群。

3.原始画面是赛博朋克风格的街道,夜晚,霓虹灯牌闪烁,人物戴着高科技护目镜,穿着闪亮的黑色皮衣,在充满未来感的背景中匆匆前行。让人物缓慢向前移动。

4.一幅经典的油画描绘了一个金发贵妇,穿着华丽的蓝色礼服,风格油画。让贵妇旋转眨眼微笑和轻语。

5.一幅田园诗意的油画,描绘了一片静谧的乡村田园,黄昏时分,牧羊人在夕阳下的草地上赶着羊群回家,远处是金黄的麦田和茅草屋。让羊群动起来。


6.一个浪漫的场景,一个年轻的情侣在月光下的古老桥梁上相遇,桥下是波光粼粼的河水,夜空中星光点点,充满梦幻色彩。让镜头拉近,水面波动。


7.一个长发少女,在夜晚的城市街头,背后是闪烁的霓虹灯牌,风吹起她的衣角,表情坚定而温柔。让少女的头发飘动起来。

8.梦幻风格的插画,一个精致的玻璃花瓶中插满了各种神秘的花朵,每一朵花都发出微弱的光芒。在黑色背景下,花瓶和花朵闪闪发光,仿佛来自异世界。让花瓶旋转花朵闪耀。

9.一幅手账插画,一个可爱的兔子坐在蘑菇上,周围是各种小花和叶子,背景是浅色的 网格纸,充满温馨可爱风。让兔子友好的动耳朵和张嘴。


10.一幅唯美插画,一个长发飘逸的少女站在悬崖边缘,远眺大海。风吹动她的裙摆,夕阳的余晖洒在海面上,反射出金色的光芒。让少女的头发和长裙随风飘扬。

11.安塞尔·亚当斯的黑白风格,一片宁静的山间湖泊,湖面倒映着周围的松树林。晨雾弥漫,远处是连绵的山脉,天边微弱的晨光。让环境变得云雾缭绕,河水流动起来。

12.赛博朋克街头,雨夜,戴着墨镜的猫头人,低角度镜头,明亮的蓝色和粉色灯光,道路,让环境下雨,猫头人转头。

试了几个测试用例之后,看来智谱的哥们可以呀,开源和产品两手抓,两手硬。自从openAI放了Sora的烟雾弹之后,反而国产的视频模型生成模型越老越有希望了,模型水平也都在国际第一梯队水平,并且在本土化的功能上,实用性方面做了更多工作。

真替哥们感到高兴,目测年终奖要爆炸,赶紧让他请我吃饭去。感兴趣的同学可以去智谱清言体验一下!

包包算法笔记
大模型技术和行业认知
 最新文章