和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

科技 2024-12-17 23:32 广东

昨晚，OpenAI在“圣诞节攻势”的Day8发布搜索功能，其实10月份就已经正式发布了，本次更新是做了优化：更快，而且可以搜索出多模态信息，而且还可以在实时通话的时候语音搜索。此外，搜索功能开始向所有免费用户推出。

感觉，OpenAI又是敷衍了事的一天直播，感觉压轴的东西还要等等。

而对手公司谷歌却在昨晚带来了全新的视频生成模型Veo 2和改进版图像生成模型Imagen 3，而且全部都是Sota。

谷歌CEO劈柴还亲自在X平台宣传最新版的Veo 2和Imagen 3。

谷歌在2024谷歌I/O大会上正式推出视频生成模型Veo，Veo可以生成超过60s的高质量1080p视频。今天，谷歌发布了Veo的新版本Veo 2，Veo 2相比第一代Veo主要的提升有：

生成分辨率高达4K的视频，这个应该是目前所有商业视频模型没有的；
更好地理解现实世界的物理和人类的动作与表情，提升了生成视频的细节和整体的逼真度；
理解提示词中的相机控制，比如广角镜头，POV镜头和无人机镜头等等。
生成出现“幻觉”的情况较少，比如出现多余的手指或者意外的物体。

话不多说，直接上生成视频的例子：

而且，在Meta发布的基准数据集MovieGenBench（包含1003个提示词）上，人工评测结果显示，Veo 2在整体偏好和提示词遵循能力方面均超过目前的主流模型如可灵1.5，Minmax的海螺，Meta的Movie Gen以及OpenAI最新发布的Sora Turbo。所以，Veo 2应该是目前视频生成模型中的Sota了。

不过，Veo 2也不是没有缺陷。尽管Veo 2有了很大的进步，但能够创建逼真的、动态的或复杂的视频，并在复杂场景或运动中保持完全一致性，但这仍然是一个挑战。下面是几个不好的例子：

Prompt:The camera moves in a slow dolly shot, revealing the opulence of a Renaissance palace chamber adorned with gold-inlaid furniture, velvet drapes, and chandeliers casting soft, flickering light. A queen sits motionless at a gilded desk, her crimson silk gown cascading onto the floor like spilled blood. On the desk lies an unsigned letter, its edges curled with age. The camera frames her from behind, catching the reflection of her stoic face in a massive, ornate mirror. In the background, courtiers murmur, their silhouettes dancing like ghosts in the candlelight. The room feels heavy, every gilded detail amplifying an air of betrayal and paranoia. The color palette alternates between deep, regal reds and cold golds, with chiaroscuro lighting intensifying the drama. Shot on 70mm film for rich texture, evoking the grandeur of historical masterpie

Prompt:A tracking shot, with the subject centered in the frame, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds. The skater, clad in a flowing white costume that ripples with every move, exudes an ethereal grace. The camera smoothly keeps pace, capturing their every movement with a dreamlike quality. The background is a swirling canvas of pastel colors and soft, shifting clouds, creating a sense of otherworldly wonder. The skater's serene expression and the whisper-quiet sound of their blades on the ice add to the magical atmosphere. The overall impression is one of ethereal beauty and effortless movement, set against a backdrop of pure fantasy.

Prompt:A wide, static shot re-establishes the entire skatepark, showcasing the various features and obstacles. The setting sun casts long, dramatic shadows across the park, creating a heightened sense of anticipation for the skateboarder's final, and most challenging, trick.

除了升级Veo，谷歌还改进了自己的图像生成模型Imagen 3。升级的Imagen 3可以生成更明亮、构图更好的图像。同时它能够以更高的准确性渲染更多样化的艺术风格：从写实主义到印象派，从抽象艺术到动漫。这次升级还提升了模型的提示词遵循能力，生成的模型也有更丰富的细节和质感。

下面是一些生成的图像实例：

在GenAI-Bench上，人工评测结果显示，最新版的Imagen 3已经超过之前的Sota模型Flux 1.1 Pro以及Recraft V3，成为图像生成领域新的Sota。

另外，除了谷歌还发布了一个实验的工具Whisk，Whisk这个工具可以配合Imagen 3来用。Imagen 3只能实现文本来生成模型，但是有了Whisk，Imagen 3可以输入图片来传达要新生成图像的主体、场景和风格，简单来说，就是支持了图像提示词。

它的实现也很简单，就是在后台，Whisk结合了Imagen 3模型和Gemini的视觉理解和描述能力。Gemini模型会自动为输入图像编写详细的说明，然后将这些描述输入Imagen 3。这个过程能以有趣的新方式混合输入图像的主题、场景和风格。

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉