首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

2024-09-24 15:40 浙江

刚刚，字节的火山引擎的发布会基本结束了。

我现在有点过于激动。

虽然发布会结束了，但是我觉得，一个颠覆行业的全新的起点，在这一刻，正式到来了。

字节正式发布了他们全新的两款AI视频模型：

豆包视频生成-PixelDance模型和Seaweed模型。

Seaweed模型下次我再详细来说。这次，我想说这个豆包PixelDance模型，因为太屌了，屌炸了，我真的是全程惊叹着看完的。

他们正式宣布这玩意的那一刻，现场掌声雷动，我隔着屏幕都感觉快特么把房顶掀翻了。

真的，如果要给这个豆包PixelDance模型，做一个总结，那就是三个词：

人物的复杂连续动作，多镜头组合视频，极致的运镜控制。

听着感觉有点难理解是不是？不用急，我一会详细来解释。

我先放几个case，给大家感受一下这玩意的震撼：

真的，影视行业在之前，几乎没法用AI，就是因为，人物表演太垃圾，还有场景和人物一致性太差，运镜说实话也不咋地。

现在，字节出手，将AI视频推上了全新的高度。

行业颠覆的奇点，就在今天，就在这个发布会上，正式到来了。

而我，在憋了整整4天后，也终于可以发出这篇文章。

对，4天前，我就受字节邀请，提前测过了这个豆包PixelDance模型，当时给我震惊的无以复加，你知道，作为一个博主，测完了这么屌的东西，自然就是想第一时间分享出去，但是因为保密协议，我只能只字不提。

所以你就知道，我这4天，憋的有多难受。

而现在，一切都来了。我终于可以特么的说话了。

说回那三个最重要的特点：

人物的复杂连续动作，多镜头组合视频，极致的运镜控制。

一. 可以做连续动作的人物表演

过往，AI视频有一个很致命的点，就是看起来像PPT动画。

不管是Sora展示出来的视频、还是runway、还是可灵等等，运动幅度再大，也只是镜头幅度大，从来没有人的复杂动作。

顶天了，转个身，或者快速跑个步，或者挥个手，或者拥抱一下。说实话，就单拥抱这个，都没几个AI视频能做出来的。

而如果让图里这个女生，摘下墨镜，站起身，然后走向雕像呢？

所有的AI视频，全部阵亡。

而这一次豆包PixelDance，做到了，真的。

除了手上的表有一些些闪动，人物比例、动作、肢体、光影等等，几乎毫无瑕疵。

一个戏好看，人的动作表演，才是最重要的啊。

比如在《喜剧之王》里，在最后一幕，周星驰饰演的尹天仇，在对着柳飘飘喊出那句经典的“我养你啊”的台词之后，柳飘飘坐在离去的出租车里，哭的非常伤心，看了一会手上的钱和表，然后把他们放进包里，拿出尹天仇视为信仰的那本《演员的自我修养》，伤心的抱在胸口。

这段表演，是连续的。连续的东西，才有张力。你才能感受到，那痛彻心扉的情绪。

而现在，用AI，生成可以做连续动作的人物表演，不再是空谈。

再看一个case，男人喝了一口咖啡，然后放下，一个女人从背后走来。

还有，人物表情也很屌，老人笑着笑着，就哭了。

我也想哭，真的。

去年8月我做《流浪地球3》预告片的时候，我就幻想过无数种关于AI做人物表演的可能。

仅仅一年后的今天，豆包就帮我圆了这个最大的梦。

二. 多镜头组合视频

一张图+Prompt，就能生成风格、场景、人物一致的多镜头视频，这个能力，我只在Sora的宣传片里面看到过。

就是那个著名的一只狼对着月亮嚎叫的视频。

其实说实话，这个视频当时看，非常的震撼，但是现在看其实也还好，风格、角色和场景都太简单了，所以一致性很好保持，也没啥复杂的故事和分镜。

但就这样，现在，依然没有任何一个AI视频，能做到单视频多镜头，而且还能保证完美的一致性。

别跟我说LTX studio那种玩意，那个做做故事版还行，做正片？洗洗睡吧，别说场景了，人物保持全景、中景、特写统一都难。而且真的丑的出奇。

但是现在，豆包PixelDance做出来了，而且一致性简直无敌，真的。

而且，只需要一张图+Prompt就行。

比如，这个。

Prompt：拿着镰刀的死神朝女人走近。镜头切换，特写女人的脸，她惊恐地尖叫。

或者，一场战斗。

Prompt：白色机器人抬起双手拿着一把步枪对着画面左侧不断射击。枪口射出一道绿色的能量光线。镜头切换，画面左侧是一个黑色的机器人，一道绿光从画面右侧快速射入，击中了它的身体，黑色机器人被击倒并爆炸。镜头切换，背面拍摄白色机器人，它望向远处的爆炸，转身走出了画面。

又或者，看一个离奇的克苏鲁故事。

一张图和Prompt，就能生成单视频多镜头，屌爆了，真的。

对于影视和广告行业来说，几分钟能瞬间调度后面两三个镜头的分镜，直接出成片。

普通人的使用门槛，也巨幅降低，人人都是导演，人人都可以做故事的时代。

如今，真的到来了。

三. 极致的运镜控制

豆包PixelDance模型的运镜，是我见过最离谱，最牛逼的。

现在的AI视频的运镜控制，还基本集中在摄像机+运动笔刷两个功能的组合拳上，但是说实话，上限真的有限，很多大运镜和变焦，根本做不出来。

而豆包PixelDance，效果真的就特娘的离谱。

什么鸟瞰缩放上移旋转这种基操我就不说了，关键是，直接一句话，各种360度围绕主体环绕、前后景变焦、摇摄、目标跟随、升降镜头什么玩意都行。

效果出奇的好，我第一次见到，在AI视频，运镜能这么牛逼，这么炫酷的。

直接看case。

Prompt：女人微笑着低下头，镜头拉远，一个白人男人注视着这个女人。

变焦的极度自然顺滑，无敌，太无敌了。

还有这个，360度大幅度环绕运镜。

Prompt：黑白风格，镜头环绕着戴墨镜的女人拍摄，从她侧面移动到正面，最后聚焦于女人的面部特写。

这是一张图，然后一句Prompt干出来的，你敢信？这动作幅度，这稳定性，比特么建模出来的还离谱，我真的服了。

你这让摄影们还怎么玩，疯了啊...

写在最后

Sora一个巨型期货，从2.16号到如今，迟迟不见任何踪影。

而后，6.6号，可灵默不作声，正式上线，代表了中国Sora的输出。

而今天，9.24号，字节再把AI视频，推向一个全新的高度，是一个在Sora的宣传片里，都看不到的高度。

至此，中国不需要Sora，豆包模型就是天。

豆包PixelDance也不需要什么中国版Sora的外号，豆包PixelDance就是豆包PixelDance，他就是现在AI视频的天。

也至此，AI视频不再是玩具，而是真正的，可以进入到影视、广告、动漫工作流中，带来一些全新的想象。

这一枪，由我们打响。

今天这个豆包PixelDance模型，就会优先对企业开启邀测，过几天上线火山方舟，至于啥时候上线即梦向C端用户全员开放，可能还得等一段时间，毕竟太新，他们说还想再优化优化模型能力，稳定了以后，就直接上线即梦，给全员开放了。

真的，也从来没有什么奇迹，一切都是沉淀多年的积累，一切都是如约而至。

今天，我也可以喊出那句台词：

字节，No.1！

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247491700&idx=1&sn=edec95aa0b53feddb1a4cf709336cc85

拜AI古佛，修赛博禅心

最新文章

原理解析：17岁高中生「神级 Prompt，把 Claude 强化成满血 o1」

从百度 iRAG，看 AI 分野

我在公众号里，实现了一键特效

赛博精酿｜智能体专场：月底请大家喝一杯

招人｜中国信通院：大模型数据工程研究员

零代码：一键部署 3D 模型，守护最好的坤坤

腾讯开源：3D素材生成模型、最大 MoE 模型，兼容 OpenAI SDK 方式调用

我开发了一款排版器：20秒，完成公众号排版

OpenAI 在「问啥都行」上的一些回复

10月盘点：AI 行业大事记

我开发了一款新的 AI 搜索：批量搜

深度理解提示词：人人能学会，无需硬背

革命序章：Claude 3.5 新 API，可操作电脑

细说实现：大模型是如何被投毒的

“最强”小模型：Ministral 3B/8B 发布

175 份实战手册，来自 OpenAI

AI 模型战局渐定，下一波红利在哪？

特斯拉「We, Robot」发布会总结

拆解：智谱的「深度推理/多步搜索」

搞 AI 的，包揽诺贝尔物理、化学奖

独家信息：关于 o1 的 20 个真相

像用实习生一样用 AI 辅助你编程

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

扣子最佳实践：雅思口语专家

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

PIKA1.5正式上线，他们走上了另一条全新的"整活"之路。

AIPO：校园 AI 创投活动，开放报名！

9月：AI 圈的乌龙、趣事与新闻

智谱 API ：1折

OpenAI CTO 离职，Sora 前景不明

Llama-3.2 发布：多模态，禁欧洲

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

提示工程：反复崛起，反复被死亡

Claude Prompt：方法论

智谱开源：图生视频模型 & 视频标注模型

Qwen 2.5 开源，API 打一折

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉