谷歌版Sora发布：最大对手竟是快手的「可灵」，OpenAI 最辣鸡

科技 2024-12-17 17:04 中国香港

谷歌刚刚发布了其最新的视频生成模型 Veo 2 和图像生成模型 Imagen 3，并推出了一项全新的图像生成实验工具 Whisk，有趣的是根据谷歌的测试，OpenAI Sora成为表现最差的主流视频生成模型，可灵成为视频生成顶流之一，海螺表现也不错

Veo 2：号称最先进的视频生成模型

Veo 2 能够生成各种主题和风格的高质量视频。在与顶尖模型的对比测试中，由人类评估者进行评判，Veo 2 取得了最先进的成果。它对真实世界物理规律以及人类动作和表情的细微之处有了更深入的理解，从而提高了视频的整体细节和真实感

Veo 2 理解电影语言的独特之处。用户可以指定类型、镜头和电影特效，Veo 2 能够以高达 4K 的分辨率和数分钟的时长来呈现效果。无论是低角度的跟踪镜头，还是科学家使用显微镜的特写镜头，Veo 2 都能轻松实现。通过提示词中的 “18mm 镜头” 或 “浅景深”，Veo 2 可以分别生成广角镜头或背景模糊、突出主体的效果

Veo 2 的核心优势包括：

高质量和控制力: 能够忠实地遵循简单和复杂的指令，并逼真地模拟真实世界的物理规律以及各种视觉风格

增强的真实感和保真度: 在细节、真实度和伪影减少方面显著优于其他人工智能视频模型

先进的运动能力: 由于对物理规律的理解以及执行详细指令的能力，Veo 能够准确地呈现运动

更强大的相机控制选项: 准确地解读指令，以创建各种镜头风格、角度、运动以及它们的组合

Veo 2 在 Meta 发布的 MovieGenBench 基准数据集上，对 1003 个提示词及其对应的视频进行了人类评估。结果显示，Veo 2 在整体偏好和准确遵循提示词的能力方面表现最佳，对比模型为Sora,Meta的Movie Gen，可灵，海螺

Overall Preference（总体偏好）绿色部分 代表 Veo 模型被用户偏好。红色部分 代表 其他模型 被用户偏好。白色部分 代表结果打平（Ties）

Prompt Adherence（对提示的遵循程度）•同样，绿色代表 Veo 模型遵循提示的表现。红色代表其他模型表现更好。白色表示平局

从谷歌这个测试中我们发现，OpenAI的 Sora 是几款主流的视频生成模型中相对表现最差的，可灵是谷歌最大的竞争对手，在总体偏好和指令遵循偏好两个指标上，如果把平手和偏好指标数据加起来，可灵是几款视频模型中唯一相对Veo超过50%的偏好选择的模型，哈哈，可灵获得谷歌的认证

与传统视频模型经常“虚构”多余细节（如多余的手指或意外的物体）不同，Veo 2 产生这些问题的频率较低，使其输出更逼真。

Imagen 3

谷歌也改进了其 Imagen 3 图像生成模型，现在可以生成更明亮、构图更好的图像。它能够以更高的精度渲染更多样化的艺术风格，从照片写实主义到印象主义，从抽象到动漫。升级后的 Imagen 3 模型能够更忠实地遵循提示词，并呈现更丰富的细节和纹理

提示：背景有霓虹绿色灯光、浅景深的亚洲女性肖像

提示：一张特写的微距摄影素材照片，画面中一颗草莓被精细地雕刻成蜂鸟的形状，正处于飞翔中，翅膀模糊成动态效果，仿佛正在吸食一朵色彩鲜艳的管状花朵的花蜜。背景是郁郁葱葱、色彩丰富的花园，柔和的虚化效果（散景）营造出梦幻般的氛围。图像极其精细，采用浅景深确保草莓蜂鸟的锐利对焦，而背景则柔和淡出。高分辨率、专业摄影师风格，柔和的光线使场景细节表现得淋漓尽致，专业的色彩分级进一步增强了鲜艳的色彩，使画面呈现出卓越的清晰度。景深使蜂鸟与花朵在虚化背景下格外突出

提示：以高预算动画电影风格呈现，画面充满生动、绘画般的质感，展现出广阔的星际景观，紫色、蓝色与金色的发光星云交织辉映。主角是一名身披星辰图案飘逸斗篷的小女孩，伫立在一座晶莹剔透的悬崖边缘。悬崖下，熔化的星尘之河在银河中蜿蜒流淌，金色光芒动态闪烁。背景中，高耸的星座以神话生物的形态悬浮，轮廓由发光的点状线条勾勒而成。流星划破广袤的天空，为画面增添了动感与璀璨的光辉。镜头角度略微升高，既捕捉到了浩瀚银河的壮丽，也展现出主角旅程的孤独与神秘感

Imagen 3 可以生成各种格式和风格的高质量图像，从逼真的风景到质感丰富的油画或奇思妙想的粘土动画场景

提示：雄狮在梦幻般的丛林中傲然咆哮的详细插图，紫色白色线条艺术背景，浅紫色纸张纹理上的剪贴画

提示：黏土动画场景。一个老年妇女的中广角镜头。她穿着飘逸的衣服。她正站在一个郁郁葱葱的花园里，用一个橙色的浇水壶给植物浇水

在与顶尖图像生成模型的并排比较中，由人类评估者进行评判，Imagen 3 取得了最先进的成果

Imagen 3 能理解以自然、日常语言编写的提示，因此无需复杂的提示工程就能轻松获得想要的输出结果

提示：一张折纸鸟在城市景观中翱翔的特写照片，鸟儿与其他不同颜色和图案的鸟儿成群结队，在下方的建筑物上投下错综复杂的阴影

目前，最新的 Imagen 3 模型将在 Google Labs 的图像生成工具 ImageFX 中全球推出，覆盖 100 多个国家。用户可以访问 ImageFX 开始体验。

Whisk：用图像激发创意的全新工具

Whisk 是谷歌实验室推出的最新实验项目，允许用户输入或创建图像，以表达他们心目中的主题、场景和风格。然后，用户可以将它们组合在一起，并重新混合，创造出独特的作品，例如数字毛绒玩具或珐琅别针。

Whisk 结合了最新的 Imagen 3 模型和 Gemini 的视觉理解和描述能力。Gemini 模型会自动为用户的图像编写详细的描述，然后将这些描述提供给 Imagen 3。这个过程让用户可以轻松地以有趣的新方式重新混合主题、场景和风格

谷歌是真的“杀疯了”，一雪前耻。

Python 入门路线图（2024 极简无废话版）

科研图表可视化利器，交互式操作，与Matplotlib 无缝集成

机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

最新文章

我心目中最强的 10 个 Python 库

写代码这么多年，我依然觉得编程很美妙！

谷歌版Sora发布：最大对手竟是快手的「可灵」，OpenAI 最辣鸡

高中生手机写出2.5万行代码，网友：给小孩哥捐个电脑！

AI+行业，目前的答案只有一个词： Agent

LSTM之父：我也是注意力之父！遥遥领先Transformer 26年！

Cursor + Qwen2.5-Coder 开发一个网页应用，So easy！附代码

用 Python 把 Markdown 玩的明明白白

快速学会登上nature的热门算法，LSTM！

梅宏院士：当前 AI 存在三大问题，泡沫太大！以偏概全！期望过高！

机器学习与大模型的结合：用大模型做特征筛选

AI +《永乐大典》，1800部书在线读

Python 3.13 封神！改变 AI 和 ML 游戏规则

「普通博士生」和「顶级博士」的区别

【干货】7种常用数据分析模型和方法，建议收藏！

爷青回！人人影视宣布：将二十年数据开源分享

一段神奇的Python代码，拿走不谢

用大模型写年终总结，推荐三种方式

Python 入门路线图（2024 极简无废话版）

涨点神器！100个即插即用缝合模块【合集下载】

强烈建议尽快搞个软考证！（重大利好）

Python 和 R ，谁更厉害？

白嫖Cursor

雷军的大学时候的论文：不需要参考文献

原来概率论不只是数学，还是人生导师！

不是，现在都流行用Kaggle写论文了吗？

几个超酷的项目，已开源！

刚刚，吴恩达宣布，推出新的开源 Python 包

科研图表可视化利器，交互式操作，与Matplotlib 无缝集成

RAG还是微调，怎么选？

用 Excel 表格做出堪比动画软件效果的 AI 手绘讲解

用 Python 把 PDF 玩的明明白白

5G唯一受益者，何同学道歉了！我也“专门写了一个软件”！

史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

Cursor 完全实用教程之外，Cursor Rules 详解

人生苦短、程序员必备神器！从开发到部署的主流工具全景图

机器学习数据降维与可视化：t-SNE详解与实践【附代码】

用 R 复刻了一张图，附代码

快速学会登上nature的热门算法，LSTM！

值得开发者好好看一看的AI大模型入门教程（内含300道AI面试真题）

50K*16薪，进字节了！

教授何恺明在MIT的第二门课——《深度生成模型》，PPT陆续已出

机器学习进阶必备-10 个高效 Python 工具包完全指南

再见 EasyExcel ！

【赠】出书了，《破解深度学习》来了！

大模型发展方向，你绝对想不到！

机器学习数据预处理中的数据泄露问题！

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

涨点神器！100个即插即用缝合模块【合集下载】

手搓AI大模型应用获25万用户，辞职创业，收入不如摆摊，网友建议：重新进厂打工

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉