字节跳动大消息！一口气两款视频模型，迎战Sora！豆包通用大模型pro全面升级！音乐生成模型、同声传译模型终于来了！

文摘 2024-09-25 12:37 浙江

点击箭头处“蓝色字”，关注更多及时AI资讯！

2024年9月24日，字节跳动在火山引擎 AI 创新巡展·深圳站公布了豆包模型家族的多项重磅更新：

豆包通用模型pro升级：

截至8月底，综合能力累计提升25%，其中数学能力、专业知识实现超过35%的提升。
默认的初始tpm（每分钟处理tokens数量）支持800k，高于业界其他模型，还可根据企业具体需求进一步扩容。
上下文窗口达到256k，可一次性处理约40万汉字，相当于一口气读完《三体》的第一部和第二部，并且加量不加价。

新成员加入：

1. 视频生成模型：

有PixelDance和Seaweed两个版本。PixelDance v1.4是字节跳动研究团队开发的DIT结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的视频片段；Seaweed版本也支持文生视频和图生视频两种方式。
能实现对复杂指令的理解和遵循，解锁时序性多拍动作指令与多个主体间的交互能力；在镜头语言方面，可以让视频在主体的大动态和镜头中进行平滑切换，实现变焦、环绕、缩放等；能实现多镜头切换的一致性，通过一个prompt实现多个镜头切换，同时保持主体、风格、氛围的一致性；支持多种风格，如黑白、3D动画、2D动画、国画等，还能根据企业的发布平台生成多种比例的视频，适配不同终端及画幅。

2. 音乐生成模型：

实现了音乐生成通用框架，从词曲唱三个方面生成高质量音乐。用户输入prompt可得到歌词，在10余种不同风格的音乐和情绪表达中选择后可进一步创作歌曲，再基于豆包语音能力，生成可以媲美真人演唱效果的声音，还可以实现气口、真假音转换技巧的模拟。开发者可通过火山方舟使用该模型的api，用户也可直接通过豆包app和海绵音乐app创作音乐。

3. 同声传译模型：

采用端到端模型架构，叠加豆包的语音克隆能力，模拟真人发音。在实时翻译方面，可以做到边说边译，在办公、法律、教育等场景接近甚至超越人类同传水平，还能支持跨语言同音色翻译。

此外，自5月豆包大模型发布以来，其tokens调用量提升超过10倍，日均tokens使用量超过1.3万亿，多模态方面日均生成图片5000万张，日均处理语音85万小时。

接下来我们来对这些新加入的成员仔细了解一下

Doubao-视频生成PixelDance

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-pixeldance

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的精彩视频片段。模型具备出色的语义理解能力，无论是复杂的故事叙述，还是细腻的情感表达，PixelDance V1.4 都能轻松应对。模型可完成时序性多拍动作，支持多主体复杂交互，还拥有丰富的运镜效果，多风格多比例兼容性强，能快速生成优质的视频片段，赋能影视创作，广告传媒，短视频，直播，电商等多个场景。

精准的语义理解：

PixelDance V1.4具有精准的语义理解能力。目前市面上的竞品大多只能完成简单指令单一动作，而PixelDance V1.4可以遵从复杂prompt，解锁时序性多拍动作指令与多个主体间的交互能力，指哪儿打哪儿，为你打开想象力的大门。

多个主体之间的交互prompt：一个男人走进画面，女人转头看着他，他们互相拥抱，背景周围的人在走动。

遵从复杂prompt：狮子身上燃烧着火朝画面左侧跑去，它逐渐被火焰吞没成为一团火焰，火焰逐渐变成了字母WOW。

时序性多拍动作指令prompt：特写一个中国女人的面部。她有些生气地戴上了一副墨镜，一个中国男人从画面右侧走进来抱住了她。

强大动态与炫酷运镜：

针对高动态的复杂场景视频，模型设计了高效的DiT融合计算单元，使生成视频的动作更灵动，镜头更多样，表情更丰富，细节更丰满。支持超多镜头语言，灵活控制视角，带来真实世界的体验。

一致性多镜头生成：

全新设计的扩散模型训练方法使得模型具备一键生成故事性多镜头短片的能力，并且成功攻克了多镜头切换时一致性的技术挑战，可10秒讲述一个起承转合的故事。在一个prompt内实现多个镜头切换，同时保持主体，风格，氛围的一致性，让更多用户可以使用模型一键制作短片，实现导演自由。

多风格、多比例兼容：

深度优化后的Transformer结构，大大提升了视频生成的泛化能力，支持包括黑白、3d动画、2d动画、国画、水彩、水粉等多种风格，包含1:1、3:4、4:、16:9、9:16、21:9六个比例。

Doubao-视频生成Seaweed

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seaweed

Doubao-视频生成-Seaweed 支持两种视频生成方式：文生视频和图生视频。该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒，并可动态延长至20-30秒。

逼真度极高，细腻丰富的细节层次：

Seaweed能够生成影视级的视频，具备丰富的细节层次，逼真度极高

prompt：一只大熊猫正在享用热腾腾的火锅。

prompt：女孩抬起左手，遮住微笑的嘴巴。

视觉美感高，专业级色彩与光影：

专业级色彩调和和光影布局，大幅提升画面视觉审美

动态流畅，符合真实物理运动：

运动画面流畅自然，速度快慢符合物理运动机制

丰富的应用场景：

模型支持生成具备高级视觉美感与丰富细节层次的视频，能够将用户的文本、图像转化为高质量的视频作品。可以应用于电商营销、城市文旅宣传、动画教育、短剧等广泛的应用场景。

Doubao-pro-256k

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-pro-256k

Doubao-pro-256k是Doubao-pro系列的全面升级模型，上下文窗口从128k扩展升级一倍，现支持256k的上下文窗口;模型具备更高的性能、更大的窗口与更具吸引力的超高性价比，能够应用于更加广泛的应用场景。

模型优势：

1. 极具吸引力的性价比，支持更大上下文窗口与更高性能的同时；

2. 上下文窗口加倍，支持256k，约40万汉字上下文内容的推理；

3. 应用全面，效果领先；能力覆盖广泛的通用任务场景，提供优质的效果呈现。

应用场景：

1. 文本分类与信息抽取：给定多篇文本内容，按设定的标准进行分类并从中提取关键信息，实现高效的文本分析。

2. 小说全文总结摘要：上传长篇小说全文，总结小说内容的简要概括，包括背景、主要人物、情节发展等。

3. 长文续写：在长篇幅的文本基础上，基于文本的情节、主题、风格等继续创作。

价格：

推理输入：0.0050元千tokens

推理输出：0.0090元千tokens

Doubao-同声传译

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-clasi

Doubao-同声传译模型由Bytedance Research开发，依托豆包大模型的语音理解能力，实现高质量、低延迟的端到端同声翻译，支持跨语言同音色翻译，以及粤、沪等常见方言的识别;适用于会议翻译、线上直播等实时场景。

实时翻译，超低延迟：超低延迟的端到端翻译，低时延与高质量的绝佳平衡

自然高质量，超精准翻译：提供高质量的精准翻译，语句流畅自然，翻译效果接近人类专业口译员

音色克隆，更多使用场景：支持基于音色克隆的语音翻译和字幕翻译，覆盖更多使用场景

丰富的应用场景：模型提供超低延时且自然高质量的实时翻译，支持跨语言同音色翻译，有效打破沟通中的语言壁垒;能够覆盖包括会议论坛、线上直播、跨境电商、产品出海发布等对翻译的实时性与准确性要求较高的场景

Doubao-音乐生成模型

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-music

Doubao-音乐生成模型是字节跳动推出的音乐创作大模型，能够通过文本描述或图片，轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品，并支持10余种不同的风格和情绪的随心选，极大的降低音乐创作门槛，让每个人都能成为音乐创作大师。

高品质音乐生成

歌词更精准：基于豆包大模型能力，仅需简单的输入几个字，就能生成与旋律节奏匹配、与音乐风格高度契合的歌词，准确表达情感

旋律更多样：

支持10余种不同的音乐风格和情绪表现，尤其在民谣、国风和流行方向适合国内听众的审美听感

曲风：民谣、流行、摇滚、国风、古风、嘻哈、R&B、朋克、电子、爵士、雷鬼、DJ、迪斯科、国风电子…

心情：快乐、活力、EMO、鼓舞、怀旧、兴奋、思念、律动、伤感、放松、浪漫

演唱更真实：

根据歌曲风格匹配适合的音色演唱，真实呈现气口和真假音转换，并支持高质量音质听感

创作门槛低：

无论是偶尔闪现的灵感、心动的美图还是已经写好的歌词，从小白到高手都可以把用户的想法和图片变成音乐记录生活表达情感

图片成曲：

深度分析和理解图片中的内容，生成氛围匹配的高质量音乐。

灵感成曲：

仅需一句灵感即可创作文字和情绪匹配的音乐作品

写词成曲：

支持对已创作的歌词的音乐旋律和演唱创作，帮助用户实现情感共鸣。

Doubao-文生图模型-智能绘图

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-t2i-drawing

豆包文生图模型智能绘图是基于字节跳动视觉大模型打造的新一代文生图模型，可对用户输入的文本进行精准理解，生成更符合语义、审美特性和创造力的不限风格的优质图像，以较低的创作成本帮助企业或创作者降低内容生产成本、激发创意。

最新升级2.0 S/2.0L 产品优势：

复杂图文匹配：新模型能够精确呈现真实世界与想象世界的复杂场景，包括：升级多数量、多属性、大小、高矮、胖瘦和运动6类难点现实场景，生成结果更符合物理世界规律;在概念组合、角色创造和虚拟空间塑造方面展现出更强的创造力，擅长生成奇幻小说和创意设计等想象场景。

中国文化理解：持续优化中国特色内容，升级对中国古代绘画艺术的理解和呈现，更好的表现不同技法如工笔画、写意画、兼工带写等，让文生图更能传达中国魅力。

画面效果更美：创作出画面构图与空间位置更加丰富多样的作品，尤其善于从光影明暗、氛围色彩和人物美感3个方向进行画面质感的提升。

应用场景

社交媒体内容：生成吸引人的图像内容，用于品牌的社交媒体平台，提升用户互动和关注度。

广告创意：快速生成创意广告图像，帮助市场营销团队探索和实验不同的广告设计。

教学辅助：为复杂的教学内容(如历史事件、科学概念)创造直观的图像，帮助学生更好地理解和记忆。

艺术创作：艺术家可以通过文生图技术探索新的艺术风格和表达形式，创作出独一无二的艺术作品。

电影和游戏设计：在电影或视频游戏的前期概念设计阶段，文生图技术可以快速生成场景草图或角色设计，帮助创意团队形成更具体的视觉概念。

模型列表

扫码关注更多AI资讯

我们一起学AI！

同桌的AI小纸条

一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用，探索人工智能领域的无限可能，并征服他们，让AI赋能生活快乐每一天！

揭秘AI时代的'黄金矿场',挖掘灵感和需求的'秘密武器'——Reddit如何成为AI时代的"潘多拉魔盒"！这矿我们又该怎么挖？

全网最全海内外AI图像生成大模型一览！生成速度、风格支持、角色控制、成本、使用方式等全方位对比!分分钟get属于你的图片大模型！

2025年AI大模型白话科普文第一弹，必然是国产开源之光DeepSeek-V3！多个基准测试中比肩世界顶尖闭源模型！

Anthropic、LangChain发来年终汇报！2024人工智能应用全景报告！如何构建有效的Agent和Workflow

圣诞特辑！OpenAI近期动作大盘点！一文get领头军OpenAI全套战略布局！多模态、端侧布局、用户体验、开发者生态..AGI

Google推出Gemini 2.0：迈向多模态与代理体验新篇章！探索人机协作新方式，赋能开发技术平权！AI Studio新体验

对抗AI奖励黑客，揭秘模型训练隐秘角落！离开OpenAI后Lilian Weng重磅回归技术分享！大白话解读，看模型如何“谄媚”

近期AI研究精华：战略性链式思维链提升LLM性能；噪声对LLM竟有正向作用？COF助力构建高质量长文本问答，长上下文强过RAG？

Anthropic定义MCP规范，整治LLM数据源接入混乱现状，打通Agent构建最后一公里！“信息孤岛”终打破，定制化接入翻篇

AI Agent代理技术栈的创新实践-2024最新洞察！从0到1构建自己的AI Agent智能代理，最强选型，看这一篇就够了！

OpenAI O1背后的COT意味着什么？模型的发展是否迎来了新的范式？AGI会加速到来么？思维链又带来了哪些新的机遇与挑战？

Scaling Laws推翻？低精度训练才是最优解？堆数据训练竟让模型变差？数据噪声大反而让模型鲁棒性变强.全是新知识点快收藏！

如何制作高质量的AI Agent？读了20+篇文章，提炼出prompt高级技巧大全，预置模板直接拿来用！唤醒大模型深度能力还省钱

本地部署大模型被环境搞疯？免费云服务器一键部署Dify构建Agent！OpenAI、千问..各家模型随便接！谁还在氪金玩大模型？

不用买卡！本地电脑CPU也能运行大模型！笔记本也能分分钟本地玩转LLM文生图！大模型入门本地环境打通（踩坑）指南，看着一篇就够了

10分钟完成文字转播客音频Agent！解析Google爆火Notebooklm背后的技术与逻辑！个人版播客生成智能体，你值得拥有

Google的NotebookLM爆火，一键生成超逼真双人对话播客！AI改革的春风终于席卷了播客！功能实测+开源版本部署看这篇！

终于可以在本地玩大模型了！Docker+Ollama+Dify，分分钟带你构建Llama模型本地服务，CPU也能玩的大模型教程！

字节跳动大消息！一口气两款视频模型，迎战Sora！豆包通用大模型pro全面升级！音乐生成模型、同声传译模型终于来了！

AI视频生成模型及工具最全收录！开源工具箱和基础模型、视频生成、可控视频生成、动作定制、长视频生成、图像泄漏优化模型..速查指南

不用前端知识，也能快速创建交互友好的机器学习模型Web界面！Gradio快速入门—LLM应用开发与落地，前端与大模型的齐头并进

OpenAI发布史上最强模型o1！认知大幅升级，学会人类“深思熟虑”！传说中的“草莓”大揭秘，拥有思维链的推理领域神级模型！

AI Agent、低代码、模块化AI开发工具Top级选手深度对比，Dify vs LangChain！一文搞清二者差异与如何选择

8岁女孩也能码出聊天机器人？Midjourney、Perplexity、OpenAI...都在用的AI编程神器-Cursor！

N号房2.0事件再现，全球女性恐慌！她决定开源AI模型对抗Deepfake，正面宣战性犯罪黑势力，守护技术正义，用AI打败AI！

当一站式Agent平台配置已经无法满足我...Dify小白入门攻略！在线/本地部署+应用发布，一条龙弄清楚！知识库这回给你说明白

0基础能写代码，程序员从此1打10！全网最全AI编程工具盘点！免费+中文友好，终于科技平权！人手一份的AI时代编程法宝你不能错过

AI Agent真实发展现状总结！智能体真的是未来？各家公司如何落地？OpenAI、英伟达、谷歌如何布局？智能体设备即将走入生活

LLM+Transformer可视化Top工具组合图解！深入剖析大模型流程细节，分分钟把LLM这“黑盒子”背后智能的奥秘拿捏！

敢不敢跟我一起，15分钟预训练数据到模型训练全流程跑通！概念看了万万千，一到动手就蒙圈！看完这个流程绝对懂了！学AI怎么能错过？

AI领域掌管专业术语到白话解释的神级百科全书！全网最全&最好懂的人工智能术语大全！500+高频术语收录、宝藏速查字典！错过就亏了

模型微调过程中微调数据、偏好数据、预训练数据、测评数据...都是什么意思？有什么差别？数据集里找？如何构造？写完这一篇我真的悟了

自立门户！StableDiffusion原班人马携黑森林实验室强势来袭！最强文生图模型FLUX.1硬核空降开源社区，MJ压力山大

LangChain全新Agent可视化工作流！你不能错过的LangChain科普！与LlamaIndex差别在哪儿？咱都要学吗？

看了那么久RAG还是调不明白？万字长文给你讲透RAG问题与优化策略！掌握Agent必备技能！AI学习你不能错过的RAG最全科普！

OpenAI上新招！规则奖励 (RBR) 方法驱动大模型，再也不怕政策变化？模型训练终于摆脱人工大量数据收集？人工与智能的联手！

RAG vs Fine-tuning模型微调，你真的懂了么？哪个是LLM优化最优解？有什么快速判断方式？新手进村到底该先学哪个？

Meta再出大招，Llama 3.1 官方正式发布！与当下最强的 GPT-4 、Claude 3.5 旗鼓相当，还是开源可商用！

敢不敢跟我一起搭建一个Agent！不写一行代码，10分钟搞出你的智能体！纯配置也能真正掌握AI最有潜力的技术？AI圈内人必备技能

Agent终于能主动进化？揭秘首个让AI自我进化的训练框架！突破人类专家局限，告别手动调优！端到端符号化框架如何引领AI自我革命

一文看OpenAI近期大事：发布证明验证者游戏提高模型准确性、发布对话偏好优于4o的GPT-4o mini、合作新型 AI 芯片

打破Prompt提示词的“玄学”，从此大模型回答不再抽盲盒！解放提示词工程师不是梦！北大百川联推-PAS系统！LLM的王炸助手

0编码也能搞AI大模型！Agent算外力，模型真内功！领域AI服务与模型开发平台差别？绝对不能错过的热门模型服务与训练平台盘点！

最全盘点！国内外最高人气AI视频制作神器-文生视频、图变动画。数字叙事AI新时代！作为AI人士不能不掌握的视频创作最新工具发展！

大模型通向AGI最大的风险是数据？2026年真的会数据枯竭么？中美开源数据现状差异？一图看懂AI时代数据饥荒的应对策略与核心技术

AI领域这些混淆概念，你也懵了么？机器学习vs深度学习、有监督vs无监督、预训练vs微调、算法vs模型...一文说清，从此明朗！

OpenAI都做不下去的GPTs，为何国内如此火热？盘点国内一站式Agent搭建平台，一文说清差别！大家都在用Agent做什么？

WAIC 2024 世界人工智能大会，各家AI巨头公司的老板们怎么说？跟着AI领头大咖视角，一起看人工智能的未来！

科班出品的智能体Agents，都是怎么玩的？AI热门场景全覆盖！创作、PPT、搜索、翻译、绘画视频数字人...总有一款您用得到！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉