首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

创业 2024-12-18 17:36 辽宁

作者｜Jimmy

来源｜AI先锋官

可能大多数人对AI生成视频的印象还停留在威尔史密斯吃意面的抽象视频上……

种种魔性画面简直犹如野生菌中毒既视感，因其过于抽象，甚至还吸引到了威尔史密斯本尊的模仿。

但如果小编说，AI生成视频已经发展到下面这样

这样

这样

以及这样了呢

上面的几段视频分别由Sora和谷歌新发布的Veo2生成。

先卖个关子，各位可以猜猜看，哪段视频是由Veo2生成的，哪段视频又是我们的老朋友Sora生成的。

话说，就在当地时间的12月16日，也就是OpenAI12日发布会的第7天，谷歌DeepMind突然推出了其第二代视频生成模型-Veo2。

不仅支持生成最高4K分辨率的视频，也将最长视频长度提升到了前所未有的2分钟，颇有前来踢馆OpenAI的味道……

据DeepMind的发布会报道，Veo2不仅可以更好地理解真实世界的物理规律，还可以理解电影语言，能听懂镜头参数，景深，景别，光效等专业术语甚至还能指定拍摄角度，动作和风格。

在盲测中也以号称以两倍的得票率领先于Sora、海螺和可灵。

谷歌计划明年初将其上线，还会整合进YouTube用于创作短视频。

如果该计划可行，那么今后电影与短视频的拍摄，无疑将进入AI时代，谷歌大有凭借Veo2将Sora拍在沙滩上的势头。

在技术方面，Veo2 使用了4D卷积神经网络。4D CNN 结合了3D卷积和时间序列的深度特征提取，允许模型在保持高分辨率的同时，处理视频中的动作细节和时空关系。

值得一提的是，Veo2还采用了独特的GAN 架构，其中，生成器负责生成视频内容，判别器则判断生成视频与真实视频的差异，通过不断的对抗优化，提升了模型生成的逼真度。

不继续卖关子了，揭晓答案。

前三个视频的画面看起来更符合现实世界的物理规律，它们是由Veo2生成，第四个视频则由Sora生成。

从所发布作品来看，Veo2的确要优于Sora，但Veo2真的如谷歌宣传的那样脚踢Sora、拳打可灵，是 AI 视频领域的新王吗？在其正式开放前，还难定论。希望它不会如 sora 那样跳票。

我们不妨做下简单分析，在学习机制方面，Veo2和Sora同样都采用了自注意力机制（Self-Attention）来捕捉长时间跨度内的视频内容和情感信息。

而在最关键的复杂场景处理方面，Sora基于RNN和 Transformer这种专门设计用于序列数据的架构。

对于复杂的情节生成，Sora 能够非常好地保持整个情节的连贯性，并处理长时间跨度内的情感或语义变化。

在小编看来，Veo2在上线后很可能同样面临与sora相同的问题，模型在展示时，通常是针对某些特定的生成任务，比如单一场景或简单的叙事任务。

在实际应用中，模型可能需要处理更复杂的、长时间跨度的情节、更多的变量，甚至需要根据用户的输入生成高度多样化的内容，这对模型的性能提出了更高的要求。

所以，不知Veo2上线后是否同样会面临和Sora一样，不如预期，被用户疯狂吐槽。

（关联阅读：Sora发布即“翻车”，被国外用户指不如可灵、海螺AI）

这里面，用户过高的期望、硬件资源限制、训练数据局限性以及生成内容的复杂性等因素，都会成为限制Veo2的性能的重要因素。

Google也坦言，其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”，比如多出的手指或意外出现的物体。

让我们且等且看吧！

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

AIGC大模型及应用精选与评测

最新文章

“李飞飞团队50美元复刻DeepSeek R1”之辨

Google三大模型齐发，均进Lmarena前十，实测对比Deepseek、Qwen推理能力大增

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

除夕无休! DeepSeek 推多模态大模型Janus-Pro，实测生图效果一般

春节旅行前，请收下夸克AI锦囊

实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

均不输o1，DeepSeek、Kimi 撞车发布最新模型

实测，小红书正式上线翻译功能

对比可灵、vidu2.0，实测 Luma AI 全新视频模型Ray2

OpenAI开年首发Tasks，AI agent真的要来了？

马斯克xAI首推Grok APP，我们实测发现了这些震惊和翻车

DeepSeek推出手机App，实测体验就一个字“快”

王星被绑架案敲响警钟，看看这款国外的“黛西奶奶”AI反诈工具

“被埋男孩图”涉案者被行拘，我们实测了这些AI图鉴别工具

实测！谷歌最火 AI 工具NotebookLM重磅更新

英伟达Cosmos平台阳谋

实测天工4.0，比肩o1，力压kimi，推理能力大增！

最全！英伟达 CES 2025 发布会核心产品与技术详解

黄仁勋CES 2025演讲实录，现场“王炸”不断，5090显卡、3000美元个人AI超算等等

第一时间评测：罗永浩首个AI产品J1 Assistant，只支持英文并限制国内IP

一文带您看懂AI agent

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

对比测试可灵1.5 ，及PK Veo2，可灵1.6物理规律、语义理解等能力皆大幅提升

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

理想汽车做了个独立的 AI APP

突然刷屏的ai界“拼多多”deepseek

新王诞生！阿里通义开源多模态推理模型QVQ，实测杀赢旧王ChatGPT o1

我们让这些 AI 大模型推选了 “2024年10大AI产品”

最全！ OpenAI 12天直播大戏合集（文字+视频）

又是期货，OpenAI推出全新推理模型o3，实力远超o1

深夜发布！英伟达 Jetson Orin Nano“掌中超算”到底有多强？

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

最全！AI大模型订阅和API价格全球排行榜

Kimi 终于出手多模态！实测视觉思考模型 K1.VS. 正式版o1，不相上下

AI驱动人形机器人大爆发（附:最新锐34款人形机器人视频）

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

新增视频编辑功能，OpenAI最大期货Sora兑现，奥特曼称其视频版 GPT-1

Sora v2即将发布，支持生成一分钟视频、多场景切换、完美的角色一致性

OpenAI上线o1满血版，ChatGPT Pro 会员200美元/月被吐槽

谷歌Genie2:单图生成无限可交互 3D 世界，马斯克要用它做游戏

“一图一世界”！李飞飞World labs 最全视频 Demo 合集

实测腾讯开源混元视频模型：PK 可灵、即梦，效果不赖

李飞飞《经济学人》撰文：AI 革命始于大语言模型，下一步是基于视觉的空间大模型

搭载阶跃大模型，这款二次元 AI 应用可读出任意物件灵魂

周鸿祎为它拍短剧，实测纳米搜索是视频创作工具，不是 AI 搜索

可口可乐AI圣诞广告惹争议，网友:令人毛骨悚然（附:其他7个品牌 AI广告）

Sora 接口泄露三小时:网友创作视频“最全合集”（附:艺术家对 OpenAI 控诉信全文）

k0-math模型上线Kimi，实测效果还不错

Luma 紧跟Runway半小时推文-图-视频模型，我们实测效果一言难尽

搜狗输入法嵌入AI 搜索功能，实测很丝滑，对比微信输入法 AI 会如何？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉