速递｜Google DeepMind发布新视频模型，可以生成2分钟以上视频，分辨率最高可达4k

文摘 2024-12-17 09:38 北京

图片来源：Google

根据TechCrunch报道，周一，DeepMind宣布推出下一代视频生成AI产品 -Veo 2，也是Veo的继任者。Veo目前已为Google产品组合中的越来越多的产品提供支持。

Veo 2可以生成长达两分钟以上的视频，分辨率最高可达4k（4096 x 2160像素）。值得注意的是，这比OpenAI的Sora能达到的分辨率高出4倍，时长超过6倍。

当然，目前这只是理论上的优势。Google的实验性视频创作工具VideoFX中（Veo 2目前仅在此平台上独家提供），视频最大限制为720p和8秒（Sora最多可生成1080p、20秒的视频）。

Google VideoFXVeo 2在VideoFX中的表现图片来源：Google

VideoFX目前处于等待名单中，但Google表示，本周将扩大可以访问该工具的用户数量。

DeepMind产品副总裁Eli Collins还告诉TechCrunch，Google将在其Vertex AI开发者平台上提供Veo 2，“随着模型准备好进行大规模使用。”

Collins表示：“在未来几个月里，我们将继续根据用户反馈进行迭代，并寻求将Veo 2的更新能力整合到Google生态系统中的有趣应用案例中……我们预计明年会有更多更新。”

更具可控性

像Veo一样，Veo 2可以根据文本提示（例如“汽车在高速公路上行驶”）或文本加参考图像生成视频。

那么Veo 2有什么新变化呢？DeepMind表示，这款可以生成多种风格视频的模型，具有改进的“物理学和摄像机控制”理解能力，生成的画面更加“清晰”。

所谓“清晰”，DeepMind指的是视频中的纹理和图像更加锐利——尤其是在有大量运动的场景中。至于改进的摄像机控制，它使Veo 2能够更精确地在生成的视频中定位虚拟“摄像机”，并能让摄像机从不同角度捕捉物体和人物。

DeepMind还声称，Veo 2能更真实地模拟运动、流体动力学（如倒入杯中的咖啡）和光的属性（如阴影和反射）。这包括不同的镜头和电影效果，DeepMind表示，还能细致地展现人类表情。

Google Veo 2。图片来源：Google

DeepMind上周向TechCrunch分享了一些从Veo 2生成的精选样本。对于AI生成的视频，它们看起来相当不错——甚至可以说非常出色。Veo 2似乎对折射和复杂液体（如枫糖浆）有很强的把握，并且能模仿皮克斯风格的动画。

但是，尽管DeepMind坚持认为该模型不太可能生成额外的手指或“意外的物体”，Veo 2仍然未能完全跳出“恐怖谷”。

还有这段视频中奇怪的滑溜路面——加上背景中的行人彼此融合，建筑物也有不符合物理规律的外立面：

Google Veo 2。图片来源：Google

Collins承认，仍然需要进一步改进。

他说：“连贯性和一致性是需要改进的地方。Veo可以在几分钟内持续遵循提示，但无法在较长时间内遵循复杂的提示。同样，角色一致性也是一个挑战。生成复杂细节、快速且复杂的动作，以及不断推动现实主义的边界，还有待提高。”

Collins补充说，DeepMind正在继续与艺术家和制作人合作，改进其视频生成模型和工具。

“自从我们开始开发Veo以来，我们就与创意人士，如唐纳德·格洛弗（Donald Glover）、周末（The Weeknd）、d4vd等合作，深入了解他们的创作过程，以及技术如何帮助实现他们的愿景。”Collins说，“我们与Veo 1上的创作者的合作为Veo 2的开发提供了有价值的经验，我们期待与受信任的测试人员和创作者合作，获得这款新模型的反馈。”

安全性与训练

Veo 2经过大量视频训练。这是AI模型的普遍工作方式：提供大量数据示例，模型通过识别数据中的模式来生成新的数据。

DeepMind没有透露Veo 2的训练视频具体来自哪里，但YouTube是一个可能的来源；Google拥有YouTube，而DeepMind曾表示，像Veo这样的Google模型“可能”会基于YouTube内容进行训练。

“Veo已通过视频与描述的配对进行训练，”Collins表示，“视频与描述配对是指视频和与视频中发生内容相关的描述。”

Google Veo 2。图片来源：Google

尽管DeepMind通过Google提供了工具，允许网站管理员阻止实验室的机器人从他们的网站提取训练数据，但DeepMind并未提供机制让创作者从现有训练集中删除作品。该实验室及其母公司认为，使用公开数据训练模型属于合理使用，这意味着DeepMind认为自己没有义务征得数据所有者的许可。

并非所有创作者都同意这一点——尤其是考虑到有研究估计，在未来几年，成千上万的电影和电视工作岗位可能会受到AI的影响。包括流行AI艺术应用Midjourney背后的初创公司在内的几家AI公司，正面临指控，指控他们未经同意就使用内容进行训练，侵犯了艺术家的权益。

Collins表示：“我们致力于与创作者及我们的合作伙伴共同工作，达成共同目标。我们将继续与创意社区以及更广泛行业中的人士合作，收集意见并倾听反馈，包括那些使用VideoFX的人。”

得益于今天生成模型的行为方式，它们带来了一些风险，比如复述，这指的是模型生成训练数据的镜像副本。DeepMind的解决方案是基于提示级别的过滤器，包括针对暴力、恶心和露骨内容的过滤器。

Collins表示，Google的赔偿政策目前不适用于Veo 2，直到它广泛发布为止。

Google Veo 2图片来源：Google

为降低深度伪造的风险，DeepMind表示，它正在使用专有的水印技术SynthID，在Veo 2生成的帧中嵌入隐形标记。然而，像所有水印技术一样，SynthID也并非万无一失。

Imagen升级

除了Veo 2，Google DeepMind今天早些时候还宣布了Imagen 3的升级，这是其商业图像生成模型。

Imagen 3的新版本开始向ImageFX的用户推出，Google的图像生成工具，从周一开始。根据DeepMind的说法，它可以生成“更明亮、更具构图感”的图像和照片，风格包括现实主义、印象派和动漫。

“这次升级[到Imagen 3]也能更忠实地遵循提示，并渲染更丰富的细节和纹理，”DeepMind在一篇博客文章中写道，并提供给TechCrunch。

Google ImageFX图片来源：Google

与此模型一起推出的还有ImageFX的UI更新。现在，当用户输入提示时，提示中的关键词将成为“芯片”，并显示下拉菜单，列出相关的建议词。用户可以利用这些芯片来修改自己输入的内容，或从提示下方自动生成的描述行中选择。

来源：

[1] Google DeepMind unveils a new video model to rival Sora, https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

投稿邮箱：zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

Z Finance

我们相信认知能够跨越阶层，致力于为年轻人提供高质量的科技和财经内容。

最新文章

速递｜美对字节态度风向转变，参议员正敦促拜登政府延长TikTok出售期限90天

速递｜CEO亲自上庭后高通胜诉ARM，但芯片设计许可纠纷尚未平息，ARM或将上诉

速递｜谷歌或取消在安卓新设备上预装浏览器，认为法院强拆Chrome将抑制创新

Z Waves｜朱啸虎：传奇独角兽捕手，投中滴滴饿了么，套现ofo，错过字节，炮轰kimi

深度｜微软投资数百亿成英伟达芯片全球最大买家，字节与腾讯位列第二第三

速递｜美国对华反垄断监管升级，腾讯放弃Epic Games董事会席位

ZPedia丨可灵AI：从隔空拥抱到赛博试衣间，国产AI的花活已经甩开Sora一条街

速递｜重磅！美国最高法院同意听取TikTok上诉辩论，或将审查TikTok禁令是否违宪

速递｜张一鸣在香港成立资产管理公司，或将专注风险投资

深度｜亚马逊云科技re:Invent 2024，全新Nova系列大模型与AI芯片赋能企业AI落地，让选择成为核心竞争力

速递｜MiniMax旗下Talkie疑美服下架，年收入7000万美元，已是AI独角兽旗下最成功的出海产品

速递｜小红书高管再次调整，今日资本原合伙人担任战略负责人，将组建战略投资团队

速递｜通义从阿里云分拆，ToC团队并入夸克，ToB团队迁移至智能信息事业群

速递｜智谱完成新一轮30亿元融资，新战投和国资加入，商业化实现翻倍，MaaS平台日均Tokens消耗量增长150倍

速递｜TikTok请求美国最高法院阻止政府禁令，特朗普表示对TikTok有感情

速递｜Google DeepMind发布新视频模型，可以生成2分钟以上视频，分辨率最高可达4k

速递｜月之暗面最终豁免日，但朱啸虎并不打算原谅张予彤，1亿美元免费原始股需要补偿老股东

速递｜TikTok Shop一年时间超越Shein和Sephora，已成为美国消费者线上购物首选

速递｜监管部门批准64项AI服务，行业竞争加剧，市场或趋于饱和

深度｜高瓴转向，新基金计划募资80亿美元布局日本等亚洲市场，募资也将聚焦亚洲和中东国家

速递丨美国法院驳回字节暂缓TikTok禁令的请求，国会要求谷歌和苹果准备从应用商店移除TikTok

速递丨谷歌发布Android XR操作系统，在XR设备竞争上谷歌通过Gemini构建XR生态系统

速递丨小红书2024年利润预计突破10亿美元，相比2023年翻倍

速递丨前暴雪CEO仍然有意收购TikTok，将在川普上台后推进

速递丨微软推出基于合成数据集的新一代Phi-4，小模型也可以擅长数学推理

速递丨小红书日搜索量1年翻倍已接近百度一半，百度失去搜索龙头地位或只是时间问题

速递丨监管机构已要求拼多多调整“仅退款”政策，称为小型商家带来了不公平的负担

速递丨TikTok起诉加拿大政府，要求撤销关停加拿大子公司的命令

ZPedia丨2024年11月AI产品榜单，Kimi登顶国内总榜，豆包狂追不止，Kling AI连续2月大跌

速递｜面壁智能完成新一轮数亿元融资，将在端侧AI领域加速商业化布局

速递｜小红书重组业务部门成立应用算法部，商业化进一步提速

速递｜英伟达反垄断调查或是”警告“，但仍可能面临销售额10%近10亿美元罚款

速递｜亚马逊押注agent成立新实验室Amazon AGI，Adept华人联创David Luan领导！

深度｜张一鸣正亲自下场招募AI大牛，字节布局海外算力已成为英伟达在亚洲最大客户之一

速递｜TikTok请求暂停拆分禁令待最高法院审查，拜登政府希望法院迅速驳回

速递｜腾讯或搁置收购《刺客信条》开发商育碧，与吉勒莫家族因控制权争议陷入僵局

速递｜英伟达涉嫌垄断被立案调查，此前收购迈络思案的限制性条件到底是什么？

速递｜前百川智能联合创始人洪涛离职，或因AI商业化不达预期

速递｜字节、阿里和腾讯将在AI顶会NeurIPS上演抢人大戏，这一届AI博士应届年薪165万

速递｜德勤起诉中国区前副主席等3位合伙人，称下载大量机密文件用于加入竞争对手

速递｜TikTok网红担心禁令将使粉丝一夜清零，正向Ins和YouTube倒流

速递｜最高法院可能不会受理，字节希望暂停禁令时间与特朗普政府达成协议，否则1个月后将被迫关停美国业务并裁员

深度｜DeepMind CEO对谈诺奖得主：AI无法替代人类科学家，科学最难的是提出正确的问题

速递｜TikTok败诉，华盛顿特区上诉法院裁定拆分法案有效，字节需要在1月19日之前出售TikTok

速递｜朱啸虎隔空喊话杨植麟：回避了所有问题，要堂堂正正的做人做事

速递｜杨植麟回应朱啸虎，但很多问题我们还是一头雾水

ZPedia｜夸克搜索：90后都在用的阿里“秘密武器”，其实是AI全能助手的AI搜索

速递｜砺思资本对冲基金今年已实现53%回报率，明年1月将推出2亿新基金

速递｜马斯克的xAI又融了60亿美元，估值已超400亿美元

速递｜朱啸虎表示金沙江创投愿意豁免月之暗面及创始人，但会继续追责张予彤

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉