生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差

创业   2024-11-15 13:30   广东  

作者子川

来源AI先锋官


解决多主体一致性难题,Vidu带着它的新功能出来炸街了!
这两天,生数科技发布了 Vidu 1.5 ,这个模型多出来了一个新的能力:多主体一致性。这也是视频生成领域,首个可以控制多个元素的视频生成功能。
大家可以理解为:上传多张图片,然后指定图片中的元素生成视频,并且保证这些复杂的元素不会变形。
比如上传角色、物体和地点的图,它可以用你指定的这些元素,做出一条视频来。
给大家看官方给出的案例就知道是怎么一回事了。
上传一张卡通人物的图片、一个蛋糕,以及一张水晶矿的照片。并输入提示词:男孩拿着蛋糕,出现在水晶场景里。
不一会,就生成一个男孩拿着蛋糕,出现在水晶场景里的视频。
跟刚刚介绍的那样,视频中的元素都是按照上传图片中的元素生成的。
看起来是不是效果还不错。
此次Vidu的多主体一致性功能,对图片的数量和图片的元素是没有限制的。换句话说,不仅只是能上传人物+物品+场景的图片,而是可以上传更多的图片,指定更多的元素,实现更多主体元素的一致性。
比如上传3张群体图片,输入提示词:十个主体,在一个古代的亭子里聚会

视频如下:

除了真人以外,3D卡通人物也可以生成。

提示词:“小男孩在玩具城里行走,慢慢转身到背面,镜头轻微向右移动”
效果真的就那么好?先打一个问号!
在小编的印象里,Vidu的视频生成效果应该比较拉跨,为了体验到实际的效果,那就上手实测一下。
首先,整一张白居易的图片,再上传一张雪花啤酒的图片,让白居易也喝一下啤酒的滋味。
输入提示词:一个男子拿着啤酒瓶在喝酒。

大概几十秒后,白居易喝雪花啤酒的视频就生成好了。
视频看起来很丝滑,不过很快就发现,视频里面的主人公和小编刚刚上传的不是同一人,而且差的不是一星半点儿。
啤酒瓶的雏形还是比较好的保存了,但是上面的雪花标签已经基本看不清了。
所以在保持主体一致性上得打一个问号!(抽了五次卡)
那就再来一个,来一个简单的,让雷总和漩涡鸣人来一场跨出电视机的拥抱。
提示词:两个人拥抱在一起。

同样是生成了5次,这场跨出电视机的拥抱终究是没有抱上,不过和上一个视频相比,它至少把图片中的元素都生成出来了。
既然动作生成效果不好,那就来一个静静站着的视频,让马斯克站在北极给小米su7打个广告。

这次的效果就比较不错,不过视频里的马斯克和原图的马斯克稍稍有点不一样,变年轻了!小米的车标变成了保时捷的(狗头两个)。在主体一致性方面还是差点意思。
整体体验下来。Vidu给人的感觉就是想法不错,此次的主体一致功能让视频生成变得更加可控。不过效果挺差的,还是得再观望观望。
目前该功能已经上架Vidu 的官网了,大家可以上手试试看。不过,现在只有三次的免费机会,后面每次试用就会需要消耗 4 个积分。




 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


AI先锋官
AIGC大模型及应用精选与评测
 最新文章