工具与测评 | 可灵 vs LUMA :谁是meme之王?

文摘   2024-06-25 18:48   广东  

一、引言


今年年初,Sora挥舞着AI的魔杖,轻启了模拟世界的大门。而如今,随着挑战者们的陆续登场,6月的视频生成大模型市场迎来了一场前所未有的新品爆发。


Luma AI携其Dream Machine亮相,立刻在社交网络上掀起了一阵热烈讨论,甚至让那些曾经风靡一时的meme们也摇身一变,以视频的形式在社交媒体上疯狂传播。


放眼国内,快手发布的"可灵"以全面对标Sora的姿态,引发了业界的广泛关注,不少博主、创作者纷纷分享自己使用“可灵”的体验。官方放出的实例中,”蒙娜丽莎用手戴上眼镜“的简短prompt就让蒙娜丽莎立即起范了,只能说,不要太拽好不好~


而随后Runway也发布了自己最新的Gen-3,官方给出的示例也是令人拍手叫绝。但很遗憾的是,Runway Gen-3目前还没有面向公众开放,因此本次测评只能围绕Luma与可灵两个产品挑选一些有趣的案例进行测评。


二、界面展示

01

Luma:Dream Machine

https://lumalabs.ai/


Luma的界面十分强调简洁,搜索条孤零零位于界面的正上方,文生视频和图生视频都在同一页面操作。用户只需要简单上传照片或文字,然后点击上传的箭头即可完成。(搜索条下方的Idea是官方提供的prompt模板,可以作为参考和模仿)


占整个页面主要面积的是用户的动图生成历史,如果你需要生成大量的动图的话,这个设计可以帮助你很好地了解视频生成的进度条。


根据官网描述,目前LUMA用户可免费享受单天生成5个视频的体验。(只能说且用且珍惜,额度一下子就没了╯︿╰)


02

可灵大模型

https://kling.kuaishou.com/


与Luma不同的是,可灵在操作上提供更细致的区分,其文生视频和图生视频功能各自拥有专属的操作界面。



不仅提供了视频比例的选项,同时也在文字框随机提供了热门TAG,用户根据提示输入自己心仪的prompt,点击即可生成,只需要3-5分钟就可以看到生成后的结果了。


此外,页面底部还提供一系列精选的prompt及其生成的视频成果,供用户浏览和参考,点击后即可复用。与Luma每天仅限生成5个视频的额度相比,可灵在视频生成的数量上则完全不设限。不过现在可灵只是内测阶段,用户只能排队等待资格。而据说目前申请队列已经排到20万人了,可谓是盛况空前。



三、  成果测评

基于目前用户们分享的使用”可灵“和”luma“创作的成品以及我们自己跑的效果图,本文从文生视频/图生视频对比入手,基于不同的素材类型,对两者进行一个对比,效果孰优孰劣看视频说话。


01

文生视频


吃播

一位白人小女孩两只手各拿着一只龙虾正在品尝

A young white girl is savoring lobsters, holding one in each hand.


可灵生成的效果确实挺惊艳的,在细节上的打磨表现得尤为出色。视频中小女孩嘴角的蘸料残渣清晰可见,大口啃咬和咀嚼动作也很自然生动。不过,白人小女孩呢?


相比之下,Luma对文字的理解似乎带了点艺术家的自由发挥了哈!原本prompt描述的是一个“白人女孩”双手各拿一只龙虾,生成结果却是一位肤色较深的小女孩,一只手拿着龙虾。


这下好了,两边都没理解白人的含义,只能说模型有它们自己的理解。


一位普通的中国中年男性在江边的河岸上,坐着吃面,近景,稳定镜头

A regular Chinese middle-aged man is sitting by the river, eating noodles on the riverside bank, close-up,steady shot


可灵这条视频只能说堪称完美!整个画面动作十分流畅协调,连咀嚼吞咽的动作都完美复刻出来。背景的落日余晖倒映在波光粼粼的河面上,连流水的波纹都清晰可见,美中不足的是筷子上的细节可能有些变形。


Luma生成的吃播视频中,咀嚼动作显得有些生硬和不自然,很像“无实物“吃播表演。而且视频中男子的手部结构也不是那么的清晰,有些不协调感。


动物

肥胖橘猫背着一只小白猫,并推着装满烧饼的两轮小推车在街道上行走,镜头从左往右

A chubby orange cat is carrying a little white cat on its back and pushing a two-wheeled cart full of sesame seed cakes down the street, shot from left to right


可灵生成的视频质量确实令人印象深刻,对提示词的解读非常精准,视频画面非常流畅自然。


Luma似乎又在文字理解上展现了艺术家般的自由创作。尽管提示词指定的是橘猫推着装满烧饼的两轮小推车,生成的视频却呈现了橘猫背着装有烧饼的盘子和小白猫的场景。忽略这一点偏差,视频的画面整体效果还是值得肯定的。


一只猴子正在使用缝纫机缝制衣服

A monkey is using a sewing machine to make clothes.


可灵生成结果,主角猴不仅手上动作完备,头部动作和眼球转动也基本围绕着缝衣服这个动作展开。


相比之下,感觉Luma理解了又感觉它没完全理解,所有的prompt中提到的要素都被包含在图中,但是唯独我们的主角猴放着缝纫机不用,自己在那虚空穿线,主打一个重在参与,佯装干活。


02

图生视频


meme

一位男生转身回头拥抱并轻吻了红衣女子

The young man turns around, embraces, and kisses the lady in red.


开头出现的梗图又来了~可灵的视频中,这位蓝衣男子终于完成自己的夙愿拥抱了红衣女子,不过,似乎真的变成了三个人的电影?


Luma就更加奔放了,红衣女子一个闪现猛地扎向男子的怀抱。看来目前无论是可灵还是Luma都只能字面上理解我们给出的Prompt,无法从图片上找到一些蛛丝马迹来完善整个逻辑链条,所以生产出来的怪图也不得不让人啼笑皆非了。


男生的狞笑

The young man smirks.


不得不说可灵在表情转换上的表现要比Luma自然得多。毕竟可灵依托于快手庞大的真实人脸数据资源,通过大量的训练,能够更加精准地捕捉和再现人类表情的微妙变化。


Luma的视频中男生迅速调整了自己的笑容,随即瞬间收敛表情,堪比川剧变脸。然而,这个转变过程略显崩坏,收尾不够干净利落,最终变脸后仿佛换了一个人。


动漫风格live 2d

微笑,眨眼,live2d,稳定镜头

the girsl smiling,winking,Live2D,stable shot,fixed shot


可灵生成的动态还不错,微笑和眨眼很好的完成了,草神本身的可爱感也在左右摇摆的动作下被放大,不过这个奇怪的背景转换不知道是什么词条带来的问题。


Luma这边则看下来对于人物动作没有很好地处理,感觉更多是利用视角的晃动来替代人物本身的动作,一闪而过的笑容也不是微笑,眨眼也没有展现出来。


人物

微笑,耸肩,最后可爱地撅嘴

The girl gives a slight, lopsided smile, then gently shrugs her shoulders, and finally ends with an adorable pout


我愿称可灵的美女视频为全场最佳!每一个表情的细微转换,动作和拉丝的眼神都配合的相得益彰,让人不禁感慨不愧是快手的大数据库,这方面上老铁是专业的!


相比于可灵的妩媚,Luma更像是邻家的阳光大姐姐,在侧光的加持下显得活力十足,元气满满,只是结尾部分从场景外突然生出的大手让人吓一大跳,莫非这个撅被理解错了?


经典画像

蒙娜丽莎微笑着拿出了粉色马卡龙

Mona Lisa is pulling out the macaroons and eating them


可灵的蒙娜丽莎从手中凭空变出了一块粉红色的马卡龙并放在了嘴边,可以看出这块粉红色的马卡龙细节还不错,美中不足的是蒙娜丽莎本人的脸部没有动作,这时候的蜜汁微笑反而有些魔性。


Luma这边呢,什么都没干。可能是由于没能很好理解prompt以及无法生成照片里不具备的素材,所以结果上看只是将整体画面慢慢放大。


教科书素材

一位少年拿着武器正在戳向偷吃西瓜的獾

A teenager with a weapon is poking at a badger stealing watermelon


可灵完美“领会”到正在进行时的语法和动作的关联,润土真就拿着叉子一动不动的看着在西瓜田里撒欢的獾。感觉想要可灵实现我们所希望达成的效果,就得咬文嚼字仔细斟酌,不能出现一点歧义。


Luma似乎未能捕捉到那只在西瓜田中嬉戏的獾,而润土则拿着一种难以辨认的“武器”,在瓜田中四处搜寻獾的踪迹,最终连手中的“武器”也神秘地消失了。


四、总结


仅从我们这次不正经测评的角度来看,不管是稳定度还是提示词的理解,可灵整体来说的效果还是优于LUMA的。其次,可灵能够在比较少Retry的情况下就能完成不错的效果,尤其是真人相关的内容上,可以看到一些人物动作神态上的流畅度,表现非常优异。


当然我们也不难猜到,快手庞大的真人短视频可以很好地作为优质数据集构建,自然训练的效果上有得天独厚的优势。但是LUMA在一些运镜上的生成效果也还是比较出色的,如果二者的优点可以结合一下就更好了。


不过从另一个角度来说,对比Runway目前的进度,二者的可控性可能是要差一些。像运动笔刷这类工具也还没有配备,更不用说Gen-3还会上线导演模式以及其他高级控制工具。对于大多数使用AI视频的创作者来说,可控性才是关键,就像Controlnet之于SD,可控性差点对于AI视频更是同样重要。


既然如此,那就让我们一起期待Runway正式开放后的表现吧。


关于LitGate

大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!


我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群


更多精彩活动和功能筹备上线中,敬请期待~


关注我们,一起探索AI创作的无限可能吧!


新版官网地址:www.litgate.ai


LitGate
AI赋能游戏开发,一站式创作者社区 http://www.litgate.ai
 最新文章