豆包视频生成模型交作业，火山引擎谭待：大模型要从卷价格走向卷性能

楼市 2024-09-25 14:30 北京

作者 | 张莹

编辑 | 杨锦

运营编辑 | 李阳

字节跳动的Sora终于来了！

9月24日下午，在字节跳动旗下火山引擎举办的AI创新巡展上，火山引擎一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。

目前视频生成模型赛道拥挤，不仅有Sora，还有Vidu、可灵、Dream Machine等。

稍晚一步的豆包，把竞争力放在了目前视频生成模型的痛点上——多动作多主体交互和多镜头的一致性。

除了豆包视频生成模型外，火山引擎还发布了音乐模型、同声传译模型，并升级通用语言模型、文生图模型、语音模型。

数据显示，截至到9月，豆包大模型的日均 tokens 使用量已经超过1.3万亿，4个月的时间里 tokens 整体增长超过了10倍。在多模态方面，豆包·文生图模型日均生成图片5000万张，此外，豆包目前日均处理语音85万小时。

字节跳动进军AI视频生成

火山引擎总裁谭待在介绍豆包视频生成模型时称，“我们在这里面有非常多的技术创新，比如通过⾼效的DiT融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的Transformer结构，这样让整个⽣成视频的动作更灵动，镜头更多样，细节更丰满。”

通过这些技术创新，豆包视频生成模型可以达到什么效果？

第一，多动作多主体交互。

谭待在现场展示了一则此次发布的模型生成的视频。该视频的描述是“特写⼀个⼥⼈的面部，有些⽣⽓，戴上了⼀副墨镜；这时⼀个男⼈从画⾯右侧⾛进来抱住了她”。

豆包视频模型完全遵循了这一复杂指令，实现了多动作多主体交互的视频生成。

多角色互动一直是视频生成模型的难题，大部分视频生成模型只能完成简单指令单一动作。

豆包视频生成模型的早期版本今年2月就在即梦上应用。搜狐科技早前上手即梦时发现，即梦在遇到多主体也会出现手部畸变、面部不自然等问题。

而此次火山引擎发布的豆包视频生成模型具有精准的语义理解能力，可以遵从更复杂的prompt，解锁时序性多拍动作指令与多个主体间的交互能力，或许可以改善这一问题。但在豆包此次发布的宣传视频中，豆包视频模型处理在处理多主体、动作交互时，仍有手部细节处理不到位的问题。

第二，拥有多镜头语言。

AI生成视频往往是单镜头的，一旦镜头切换就可能出现主体变换的问题。

而⾖包视频模型可以让视频在主体的⼤动态与镜头中进行炫酷和平滑切换，拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔，使得生成的视频不是简单的PPT动画。

第三，一致性多镜头生成。

多镜头切换时难以保持一致性是视频生成的难点之一。此次发布的豆包视频生成在一个 prompt 内实现多个镜头切换，同时保持主体、风格、氛围的一致性。

此外，豆包视频模型还支持黑白、3D 动画、2D 动画、国画等多种风格，1:1、3:4、4:3、16:9、9:16、21:9 等六个比例，适配于各种终端，以及电影、手机竖屏等不同画幅。

不过目前，新款豆包视频生成模型还在即梦AI内测版小范围测试，未来将逐步开放给所有用户。此次发布的视频模型还有待市场的大范围检验。

视频生成模型竞争升级

当前，视频生成大模型赛道拥挤，国内外企业纷纷发力。

今年2月，OpenAI发布视频大模型Sora。该大模型可以通过文本指令输出长达60秒的视频，演示视频备受赞叹。不过现在Sora还没有向公众开放，因此被外界调侃为“期货”。

此后半年，视频生成大模型集中涌现。先是生数科技在4月份推出Vidu，两个月后，快手发布视频生成大模型“可灵”。紧接着，AI初创公司Luma AI也发布了视频生成工具Dream Machine，Runway推出新的视频生成模型Gen-3 Alpha。

就在豆包视频生成模型发布的五天前，阿里在云栖大会上发布通义万相视频生成大模型，APP端更是不限次使用。

上述大模型中，Vidu、可灵、Dream Machine、通义万相等均对外开放，而非“期货”。

在激烈竞争之下，字节跳动也加入进来。豆包两款视频生成大模型的发布，被认为是字节跳动正式进军AI视频生成的标志。按照现在的时间来算，豆包入局时间较生数科技、快手等晚了几个月。

“今天也有朋友问，豆包视频模型为什么在现在这个时间点推出，我们不是说一定要抢第一，推出一个不是特别好的产品。”

谭待在与搜狐科技等媒体交流时，解释了为何此时才发布视频模型。在他看来，模型是影响未来十年、二十年的长远的东西，“希望推出的是比较成熟的产品。”

此次推出的豆包视频大模型，优势就在于语义理解能力、多镜头下的一致性。同时，谭待指出，抖音、剪映对视频理解和理解，也是豆包视频生成的一大优势。

“大模型价格已不再是

阻碍创新的门槛”

效果不好、成本太贵、落地太难，是火山引擎智能算法负责人、火山方舟负责人吴迪认为的大模型在业务场景落地的关键挑战。

5月份，字节跳动宣布，豆包主力模型定价比行业平均水平低99.3%，第一个把模型成本做到每千token低于一厘钱，打响了大模型价格战的第一枪。

随后，阿里云也宣布阿里云宣布其9款商业化及开源系列模型降价。百度智能云宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。2024云栖大会期间，阿里云宣布三款通义千问主力模型再次降价，最高降幅达90%。

在会后的群访环节中，谭待进一步称，“我觉得这不是价格战，而是大家要把应用做起来的时候，要把成本做到一个合理的价格，现在大家已经做到了。”

对于大模型价格战打到负毛利的说法，谭待并不完全认同。不过谭待未透露豆包的毛利。

但谭待强调，to b最重要的事情就是可持续，不能像to c一样“羊毛出在猪身上”，模型免费、靠广告赚钱是不成立的，to b卖的东西就必须做到正毛利。

谭待在演讲中提到，大模型价格已不再是阻碍创新的门槛，随着企业大规模应用，大模型支持更大的并发流量正在成为行业发展的关键因素。

火山引擎披露，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时增长十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

据谭待介绍，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。例如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI教育公司的TPM峰值更是达到630K。基于此，⾖包Pro默认支持高达800K的初始TPM。

在谭待看来，大模型的应用成本已经得到很好解决。“大模型要从卷价格走向卷性能，卷更好的模型能力和服务。”

http://mp.weixin.qq.com/s?__biz=MzAwOTcwMTEzMw==&mid=2650271502&idx=1&sn=2ea2de141465cd35a59368bc80799156

硅谷AI见闻

搜狐科技旗下AI账号——AI见闻，独家、深度、专业感受AI地心的前沿脉动

最新文章

设计AI的人，也要被AI替代了？

被裁设计师转行AI创作，为赚钱200元代写作业的活儿也接

百万年薪大厂人35岁被裁：AI创业3个项目赚3万，为还房贷重返职场

AI见闻｜“六巨头”财报公布，Meta与亚马逊最烧钱，黑神话入围2024金摇杆，xAI面向开发者推出API

商汤科技大裁员，押注 AI 已亏528亿

AI见闻｜华为前三季度利润下滑，OpenAI硬刚谷歌，ChatGPT增加搜索功能

AI见闻｜谷歌被俄罗斯罚款25位数，超全球GDP，谷歌25%新代码由AI生成，掌握提示词工程成关键钥匙

贾扬清今年第二次回国，我们和他聊了聊中美AI都在忙着找的答案

AI见闻｜马斯克称2040年人型机器人数量超过人类，英伟达构建全球最大AI超级计算机

硅谷来信：诺奖“盖戳”认证，AI成科研“最强大脑”？

马斯克：脑机接口植入物可拆卸，手术10分钟完成，价格相当于一部手机

对话金蝶赵燕锡：AI将重塑企业管理体验、流程和决策，但大模型不能解决一切

对话梅宏院士：现在的大语言模型技术路径不可能通往AGI，天花板是能预测到的

AI见闻｜字节跳动预设立欧洲 AI研发中心，谷歌“贾维斯”问世，AI自主操控电脑指日可待

ARM计划“断供”高通，昔日伙伴为何“反目成仇”？

黄仁勋最新演讲，称Blackwell四季度有望量产，英伟达算力将增长20倍

给AI打工的人｜大龄、转行、AI设计师，我该待在舒适区，还是去往AI风口？

科大讯飞星火4.0 turbo发布，能力超越GPT-4 turbo！刘庆峰：AI应用已进入落地深水区

OpenAI劲敌甩大招！Claude 3.5升级，能力反超GPT-4o，训练AI自己操控电脑

AI见闻｜华为纯血鸿蒙登场，nova13全系支持北斗卫星图片消息，微软打造全套AI工具，开启AI代理时代

对话智源研究院院长王仲远｜纯语言模型无法实现AGI，多模态将是必经之路

图灵奖得主杨立昆：我们需要人类水平的AI，尽管现在的系统做不到（内附演讲PPT）

AI见闻｜库克&陈漫同游北京/机器狗泰山测试，解决景区垃圾运输难题/视频生成模型遇冷，李彦宏称“百度不会去做”

AI见闻｜华强北iPhone 16破发，黄牛边抢边赔/x平台允许第三方使用内容训练AI/英伟达力挺特斯拉人形机器人

自动驾驶能做到绝对安全吗？蘑菇车联CEO朱磊给出答案

“AI教父”怒批：现在的人工智能还不如猫聪明！

AI见闻｜OpenAI纳新、Meta裁员，ChatGPT看人下菜碟，区别对待“小帅”和“小美”

文末福利｜搜索引擎被淘汰？实测Kimi、智谱、360的最新AI搜索功能，谁的表现最强

黄仁勋谈AI改变工作方式，生产力提升不意味需要裁员

黄仁勋每天用ChatGPT，称其推理能力会越来越强

AI见闻｜首个 AI Kaggle 大师诞生，OpenAI 夺 7 金封王，vivo发布“蓝心智能”AI战略

特斯拉无人驾驶出租车登场！马斯克：最早2026年推广，车辆成本低于3万美元

AI见闻｜特斯拉“Robotaxi ”亮相，马斯克亲自试驾，英伟达竞品AMD“全线猛攻，“史上最长双十一”，电商战役已敲响

OpenAI重组谋生！既能赚钱又兼顾公益，还能防止被微软恶意收购

对话清华刘嘉：诺奖颁给AI是物理学的自我革命，AI必须纳入物理体系

刚刚！诺贝尔化学奖也给了AI

杰弗里·辛顿：不懂AI的物理学家不是好诺奖得主

AI见闻｜诺贝尔化学奖揭晓，再次花落AI/英伟达5连涨重燃AI热，相关概念股一度涨20%/“纯血鸿蒙”公测，华为用户扎堆体验

获66亿美元融资、估值1570亿美元，OpenAI“抛弃”技术理想，加速商业化

AI见闻 | OpenAI拿下今年最大融资，苹果或取消一年一更新，Meta推出号称最先进的媒体基础模型

滞留太空114天，马斯克拯救宇航员布奇和苏尼

AI见闻｜智谱开放平台国庆月打折，最低每月19元，华为三折叠特别版最高定价10万元

AI见闻 | 苹果退出OpenAI融资谈判，中国完成首个全国产化万卡万参大模型训练，开源TeleChat2-115B

AI见闻｜导演卡梅隆加入Stability AI董事会，奥特曼否认得到OpenAI“巨额股权”，欧盟《AI公约》Meta未签署

对话西湖大学仇旻：AR眼镜还要3-5年进入大众市场，未来还很难替代手机

Meta年会小扎开箱！头显售价不到苹果1/17，全息AR眼镜，黄仁勋点赞

一出好戏！“ChatGPT之母”离职，OpenAI 转向营利性组织只差奥特曼临门一脚

大模型是泡沫？刘韵洁院士：GPT已2亿用户，行业大模型是中国的出路

豆包视频生成模型交作业，火山引擎谭待：大模型要从卷价格走向卷性能

AI见闻｜字节跳动进军AI视频生成，TikTok Music将于11月关闭，中东正在成为硅谷AI投资领域的关键力量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉