Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

百科 2024-12-17 06:06 广东

大半夜的，OpenAI的垃圾直播没任何看头，就发了个个性化的AI搜索。

但是，Google没有预告、没有营销，默默的在X上发了两个大货。

当今最先进的AI视频模型Veo 2，还有AI绘图模型Imagen 3改进版。

我们一群人，一边看效果，一边不断的惊呼卧槽。

我几乎从来不使用炸裂这个词，但是AI视频Veo 2的效果，真的让我有点想欢呼，甚至，有点像2月16号那个宿命的一夜，看Sora的感觉。

一个一个来说。

一. AI视频Veo 2

不说废话，先看视频。

说实话，这些视频，我都不愿意转成gif，而是直接传视频上来给大家看。

这个审美、这个稳定性、这个真实质感、这个物理规律，当得起当今最强的称号。

真的，物理之神，特别是那个切番茄的视频，我一度真的怀疑是实拍的，太恐怖了。

而且，我看了一圈Prompt，发现对拍摄风格、角度、运动等等的语义理解，都极佳。

比如这个汽车飞驰的视频，Prompt里写的就是：

“低角度跟踪镜头，18mm 镜头。汽车漂移，留下光线和轮胎烟雾的轨迹，创造出视觉上引人注目且抽象的构图。相机低位跟踪，捕捉到流线型的橄榄绿色肌肉车驶向一个拐角。当汽车进行戏剧性的漂移时，镜头变得更加风格化。旋转的轮子和翻滚的轮胎烟雾，在周围城市灯光和镜头光晕的照射下，形成了在黑色沥青上划出的光线和色彩的条纹。城市景观--黄色出租车、霓虹灯和行人--变成了模糊的抽象背景。体积光照增加了深度和氛围，将场景转变为一个视觉上引人注目的运动、光线和城市能量的构图。”

有那么多的开车的AI视频镜头，而这，是我看过的最好的，没有之一。

还有，能直接对一个运动的物体，用Prompt来对其进行超级稳定的多轮材质变化。

稳定到起飞，这也是我第一次，能在AI视频里，见到如此稳定的特效变换的。

Google自己也做了一个人类观察者的评测，通过Meta发布的基准数据集 MovieGenBench，做了1003个数据，来让大家盲测，哪个效果更好。

最后得到的结果，是这样的。

这块我稍微解释一下，有两个表，分为Overall Preference（整体偏好度）和Prompt Adherence（提示匹配度）。

每个图表的横轴表示不同的被对比模型，分别是Meta、可灵v1.5、Minimax、Sora Turbo。

Google做的是把Veo 2跟这些模型做点对点的盲测。真的，国产模型居然也能作为对比基准了，突然有一股热血涌上心头。。。

而每个柱由三个部分组成，颜色代表结果分类：

绿色部分（Veo）：评测者在对比中更偏好Veo输出的比例。

白色部分（Ties）：评测者认为两者不分上下，即没有明显偏好的比例。

粉色部分（Other preferred）：评测者更偏好另一模型（非Veo）的比例。

以Google DeepMind浓眉大眼的一贯作风，基本不会造假，所以能看到，Google的Veo 2在大多数情况下，取得了最优结果。

而在Google的评测里，除了Veo 2之外，另外四个模型里，最强的是可灵v1.5，这个结果也是挺有趣的。

而且，有一点是需要注意的，Veo 2，是可以直出4K视频的。

他们在Youtube上传的视频，也是原生4K，这个就非常的恐怖。

他们自己也说，目前最大的难点和限制，还是在运动上。

原话是：“创建真实、动态或复杂的视频，并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一项挑战。”

来看一下他们的Badcase。

说是Badcase，但是我感觉他们发出来的时候估计脸上也都带着笑，那意思就是：

给你们看看，爷的运动有多强。

有瑕疵，但是对比Sora这种，这运动质量，已经吊炸天了。

Veo 2网址在此：https://labs.google/fx/tools/video-fx

需要排队，直接填一份表单就好。

按照Google的性格，排队肯定要不了多久，不是OpenAI那种纯粹耍猴的，绝不可能一等就是半年，应该很快就能用上。

OpenAI的这波12天直播，感觉彻底把路人缘败光了，之前Google一直被OpenAI恶心的头疼，而这次，直接彻底反击。

你喜欢狙我是吧，来来来，这次Gemini 2、Veo 2、Imagen 3我一个一个放，你不是喜欢抢热度吗？来啊，这次来抢啊，看谁抢谁啊小兔崽子。

老虎不发威，你还当我Google是病猫了？

二. AI绘图Imagen 3

除了Veo 2之外，Google这波还直接发了他们改进版的AI绘图Imagen 3模型，其实严格来说，是Imagen 3-002模型，Imagen 3的第二代。

第一代Imagen 3是2024年5月14日，在谷歌的I/O开发者大会上发的。

半年过去，Google对Imagen 3进行了一次大幅的进化，推出了改进版的第二代，他们自己的评测上，直接屠榜。

网址在此：https://labs.google/fx/zh/tools/image-fx

目前无需排队，可以直接玩，而且，免费。

直接在输入框里写Prompt，就可以开始玩。

他们这个Prompt的设计，也很有意思，你可以输入各种奇奇怪怪的一大串Prompt，他会自动给你拆解分词，有点像老罗当年那个胶囊大爆炸的感觉，把一些词分出来后，给你变成下拉框，自动联想几个其他的选项。

比如我的prompt是：

一个穿着巴斯光年服装的小黄人，身穿带翅膀的太空游侠套装，站在一个五彩缤纷的玩具店里，指着天空，仿佛准备起飞，背景是满满的玩具架，生动而富有活力的风格，中景。

一个非常简单的Prompt，我们翻译成英文后，扔到Imagen 3里。

你会发现它在运行之后，会给你选中一些词变成下拉。

比如它把wings单独拎了出来，你点下拉后。

可以自动替换成喷气背包、火箭助推器、滑板车等等，非常有意思。

我们按照它的联想，把背饰换成喷气背包、背景换成电子游戏机房、姿势改成挥手告别，再跑一张看看。

这个交互，真的很通人性。我太喜欢了。

再放一些我跑的图。

整体看下来，有一种感觉就是，下限贼低，很吃Prompt，要是Prompt写不好，那其实也会出不少很丑的图。

但是语义理解真的挺不错的，上限目前没太测出来，可能还不错。

但是不太适合新手玩。

写在最后

OpenAI这段时间的直播，彻底把人缘败干净了。

看了一圈，几乎都在骂。

不管是国内，还是国外。

再遥想今年2月16号，Google的Gemini1.5 Pro被OpenAI的Sora淹的彻底没了声量，而现在，整个局势，好像反了过来。

甚至，很多人都没发现，之前Sora的大功臣，都已经跳槽到Google DeepMind了。。。

营销这事，真的是一把双刃剑。

现在这OpenAI的局面，真的都是自己造的。

万物皆轮回。

不要把自己作没了。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com

数字生命卡兹克

努力分享一些很新、很酷的AI干货，愿我们永远对世界保持好奇。

最新文章

这些用AI伪造的苦难，正在剿杀人们的善意。

我花了5天时间，整理了一份AI硬件大全。

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

我们决定用50个关键词，来总结2024这AI狂奔的一年。

2025年的第一次招聘在此，量大管饱。

现在的搜索引擎，快被AI垃圾淹成赛博粪坑了。

2024的最后一天，由智谱AI新上线的o1为这一年划上句点。

在无人注意的蓝海里，PixVerse正踏上登神长阶。

可灵AI深夜悄悄上线AI模特，他们这是要革电商的命。

当身边亲人离去的那一刻，我才真的懂了数字生命的意义。

AI美女图成了过去式，“巨物宝可梦”才是新的流量密码。

10秒钟用AI给你的头像戴上圣诞帽，P图软件可以歇歇了。

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍。

快手可灵1.6正式上线，他们又一次超越了自己。

一手实测豆包新发布的视觉理解大模型，他们真的卷起飞了。

Google全新发布AI视频Veo2、AI绘图Imagen3 - 何以凌越。

3分钟用AI让照片开口说话，去造属于自己的梦吧。

OpenAI全量上线4o视频通话 - 我们等了7个月。

体操运动，是所有AI视频最残酷的图灵测试。

30秒就能完美复刻你的声音，这就是当今最强的中文AI语音克隆。

人在新加坡，Google喊我来看AI下棋。

o1满血版上线，还有卖200美刀的Pro会员｜OpenAI直播第1天。

混迹于公众号的AI喷子“鲜虾包”，是这么练成的。

10秒钟用AI一键直出中文海报，我们终于等到了这一天。

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

我们再也回不去，没有AI的世界了 | ChatGPT两周年。

智谱AI全新发布Agent家族，用AI操控一切不再是梦了。

周鸿祎为了他们新出的AI搜索，居然亲自去拍了一部短剧。

Sora遭泄漏，被压迫的艺术家们，打响了反击OpenAI的第一枪。

一手体验Kimi版“o1”模型，这就是最通人性的数学AI。

体验完Vidu划时代的新功能，我觉得可以正式抛弃3D渲染了。

我们花了3天，做了一个文章一键同步的插件，然后，免费送。

我终于把我新买的iPhone16 Pro，接入了国产AI，实现AI自由。

微信公众号悄悄上线AI音色克隆，微信的一小步，却是AI的一大步。

数字生命卡兹克，又双叒招聘啦！

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

秘塔AI上线"知识库"，他们直接超进化成AI搜索完全体了。

体验完百度世界2024上的iRAG，我觉得AI绘图也可以没有幻觉了。

“动动嘴”就能编辑图像，豆包悄咪咪上线了这个超实用的新功能。

当我让AI在双十一购物，为啥它们都只买电子产品啊？

智谱AI上线4K60帧"新清影"，还要直接开源，我觉得他们疯了。

一键生成完整海报，这个AI是要革PS和Canva的命。

腾讯悄悄开源了两款大模型，他们快成中国的Meta了。

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

想用AI特效在万圣节“鬼混”，看这一篇就够了。

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

做AI捏捏，享赛博解压。

Runway的这个新功能，想要彻底颠覆动捕行业。

智谱AI悄悄发布AutoGLM，这一次，贾维斯真的要成现实了。

Midjourney上线图像编辑，他们终于知道什么叫开放了。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉