生数科技Vidu 1.5 称首次突破多主体一致性,实测发现效果很差
创业
2024-11-15 13:30
广东
作者|子川
来源|AI先锋官
解决多主体一致性难题,Vidu带着它的新功能出来炸街了!这两天,生数科技发布了 Vidu 1.5 ,这个模型多出来了一个新的能力:多主体一致性。这也是视频生成领域,首个可以控制多个元素的视频生成功能。大家可以理解为:上传多张图片,然后指定图片中的元素生成视频,并且保证这些复杂的元素不会变形。比如上传角色、物体和地点的图,它可以用你指定的这些元素,做出一条视频来。上传一张卡通人物的图片、一个蛋糕,以及一张水晶矿的照片。并输入提示词:男孩拿着蛋糕,出现在水晶场景里。不一会,就生成一个男孩拿着蛋糕,出现在水晶场景里的视频。跟刚刚介绍的那样,视频中的元素都是按照上传图片中的元素生成的。此次Vidu的多主体一致性功能,对图片的数量和图片的元素是没有限制的。换句话说,不仅只是能上传人物+物品+场景的图片,而是可以上传更多的图片,指定更多的元素,实现更多主体元素的一致性。比如上传3张群体图片,输入提示词:十个主体,在一个古代的亭子里聚会视频如下:
除了真人以外,3D卡通人物也可以生成。
提示词:“小男孩在玩具城里行走,慢慢转身到背面,镜头轻微向右移动”在小编的印象里,Vidu的视频生成效果应该比较拉跨,为了体验到实际的效果,那就上手实测一下。首先,整一张白居易的图片,再上传一张雪花啤酒的图片,让白居易也喝一下啤酒的滋味。视频看起来很丝滑,不过很快就发现,视频里面的主人公和小编刚刚上传的不是同一人,而且差的不是一星半点儿。啤酒瓶的雏形还是比较好的保存了,但是上面的雪花标签已经基本看不清了。
所以在保持主体一致性上得打一个问号!(抽了五次卡)那就再来一个,来一个简单的,让雷总和漩涡鸣人来一场跨出电视机的拥抱。
同样是生成了5次,这场跨出电视机的拥抱终究是没有抱上,不过和上一个视频相比,它至少把图片中的元素都生成出来了。
既然动作生成效果不好,那就来一个静静站着的视频,让马斯克站在北极给小米su7打个广告。这次的效果就比较不错,不过视频里的马斯克和原图的马斯克稍稍有点不一样,变年轻了!小米的车标变成了保时捷的(狗头两个)。在主体一致性方面还是差点意思。整体体验下来。Vidu给人的感觉就是想法不错,此次的主体一致功能让视频生成变得更加可控。不过效果挺差的,还是得再观望观望。目前该功能已经上架Vidu 的官网了,大家可以上手试试看。不过,现在只有三次的免费机会,后面每次试用就会需要消耗 4 个积分。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。