字节跳动大消息!一口气两款视频模型,迎战Sora!豆包通用大模型pro全面升级!音乐生成模型、同声传译模型终于来了!

文摘   2024-09-25 12:37   浙江  


点击箭头处“蓝色字”,关注更多及时AI资讯!



2024年9月24日,字节跳动在火山引擎 AI 创新巡展·深圳站公布了豆包模型家族的多项重磅更新:

豆包通用模型pro升级:

  • 截至8月底,综合能力累计提升25%,其中数学能力、专业知识实现超过35%的提升。

  • 默认的初始tpm(每分钟处理tokens数量)支持800k,高于业界其他模型,还可根据企业具体需求进一步扩容。

  • 上下文窗口达到256k,可一次性处理约40万汉字,相当于一口气读完《三体》的第一部和第二部,并且加量不加价。

新成员加入:

1. 视频生成模型:

    • 有PixelDance和Seaweed两个版本。PixelDance v1.4是字节跳动研究团队开发的DIT结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的视频片段;Seaweed版本也支持文生视频和图生视频两种方式。

    • 能实现对复杂指令的理解和遵循,解锁时序性多拍动作指令与多个主体间的交互能力;在镜头语言方面,可以让视频在主体的大动态和镜头中进行平滑切换,实现变焦、环绕、缩放等;能实现多镜头切换的一致性,通过一个prompt实现多个镜头切换,同时保持主体、风格、氛围的一致性;支持多种风格,如黑白、3D动画、2D动画、国画等,还能根据企业的发布平台生成多种比例的视频,适配不同终端及画幅。

2. 音乐生成模型:

    • 实现了音乐生成通用框架,从词曲唱三个方面生成高质量音乐。用户输入prompt可得到歌词,在10余种不同风格的音乐和情绪表达中选择后可进一步创作歌曲,再基于豆包语音能力,生成可以媲美真人演唱效果的声音,还可以实现气口、真假音转换技巧的模拟。开发者可通过火山方舟使用该模型的api,用户也可直接通过豆包app和海绵音乐app创作音乐。

3. 同声传译模型:

    • 采用端到端模型架构,叠加豆包的语音克隆能力,模拟真人发音。在实时翻译方面,可以做到边说边译,在办公、法律、教育等场景接近甚至超越人类同传水平,还能支持跨语言同音色翻译。

此外,自5月豆包大模型发布以来,其tokens调用量提升超过10倍,日均tokens使用量超过1.3万亿,多模态方面日均生成图片5000万张,日均处理语音85万小时。


接下来我们来对这些新加入的成员仔细了解一下


Doubao-视频生成PixelDance


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-pixeldance

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的精彩视频片段。模型具备出色的语义理解能力,无论是复杂的故事叙述,还是细腻的情感表达,PixelDance V1.4 都能轻松应对。模型可完成时序性多拍动作,支持多主体复杂交互,还拥有丰富的运镜效果,多风格多比例兼容性强,能快速生成优质的视频片段,赋能影视创作,广告传媒,短视频,直播,电商等多个场景。

精准的语义理解:

PixelDance V1.4具有精准的语义理解能力。目前市面上的竞品大多只能完成简单指令单一动作,而PixelDance V1.4可以遵从复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,为你打开想象力的大门。

多个主体之间的交互prompt:一个男人走进画面,女人转头看着他,他们互相拥抱,背景周围的人在走动。

遵从复杂prompt:狮子身上燃烧着火朝画面左侧跑去,它逐渐被火焰吞没成为一团火焰,火焰逐渐变成了字母WOW。

时序性多拍动作指令prompt:特写一个中国女人的面部。她有些生气地戴上了一副墨镜,一个中国男人从画面右侧走进来抱住了她。

强大动态与炫酷运镜:

针对高动态的复杂场景视频,模型设计了高效的DiT融合计算单元,使生成视频的动作更灵动,镜头更多样,表情更丰富,细节更丰满。支持超多镜头语言,灵活控制视角,带来真实世界的体验。

一致性多镜头生成:

全新设计的扩散模型训练方法使得模型具备一键生成故事性多镜头短片的能力,并且成功攻克了多镜头切换时一致性的技术挑战,可10秒讲述一个起承转合的故事。在一个prompt内实现多个镜头切换,同时保持主体,风格,氛围的一致性,让更多用户可以使用模型一键制作短片,实现导演自由。

多风格、多比例兼容:

深度优化后的Transformer结构,大大提升了视频生成的泛化能力,支持包括黑白、3d动画、2d动画、国画、水彩、水粉等多种风格,包含1:1、3:4、4:、16:9、9:16、21:9六个比例。


Doubao-视频生成Seaweed


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seaweed

Doubao-视频生成-Seaweed 支持两种视频生成方式:文生视频和图生视频。该技术基于Transformer结构,利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。

逼真度极高,细腻丰富的细节层次:

Seaweed能够生成影视级的视频,具备丰富的细节层次,逼真度极高

prompt:一只大熊猫正在享用热腾腾的火锅。

prompt:女孩抬起左手,遮住微笑的嘴巴。

视觉美感高,专业级色彩与光影:

专业级色彩调和和光影布局,大幅提升画面视觉审美

动态流畅,符合真实物理运动:

运动画面流畅自然,速度快慢符合物理运动机制

丰富的应用场景:

模型支持生成具备高级视觉美感与丰富细节层次的视频,能够将用户的文本、图像转化为高质量的视频作品。可以应用于电商营销、城市文旅宣传、动画教育、短剧等广泛的应用场景。


Doubao-pro-256k


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-pro-256k

Doubao-pro-256k是Doubao-pro系列的全面升级模型,上下文窗口从128k扩展升级一倍,现支持256k的上下文窗口;模型具备更高的性能、更大的窗口与更具吸引力的超高性价比,能够应用于更加广泛的应用场景。

模型优势:

1. 极具吸引力的性价比,支持更大上下文窗口与更高性能的同时;

2. 上下文窗口加倍,支持256k,约40万汉字上下文内容的推理;

3. 应用全面,效果领先;能力覆盖广泛的通用任务场景,提供优质的效果呈现。


应用场景:

1. 文本分类与信息抽取:给定多篇文本内容,按设定的标准进行分类并从中提取关键信息,实现高效的文本分析。

2. 小说全文总结摘要:上传长篇小说全文,总结小说内容的简要概括,包括背景、主要人物、情节发展等。

3. 长文续写:在长篇幅的文本基础上,基于文本的情节、主题、风格等继续创作。

价格:

推理输入:0.0050元 千tokens

推理输出:0.0090元 千tokens


Doubao-同声传译


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-clasi

Doubao-同声传译模型由Bytedance Research开发,依托豆包大模型的语音理解能力,实现高质量、低延迟的端到端同声翻译,支持跨语言同音色翻译,以及粤、沪等常见方言的识别;适用于会议翻译、线上直播等实时场景。

实时翻译,超低延迟:超低延迟的端到端翻译,低时延与高质量的绝佳平衡

自然高质量,超精准翻译:提供高质量的精准翻译,语句流畅自然,翻译效果接近人类专业口译员

音色克隆,更多使用场景:支持基于音色克隆的语音翻译和字幕翻译,覆盖更多使用场景

丰富的应用场景:模型提供超低延时且自然高质量的实时翻译,支持跨语言同音色翻译,有效打破沟通中的语言壁垒;能够覆盖包括会议论坛、线上直播、跨境电商、产品出海发布等对翻译的实时性与准确性要求较高的场景


Doubao-音乐生成模型


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-music

Doubao-音乐生成模型是字节跳动推出的音乐创作大模型,能够通过文本描述或图片, 轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品,并支持10余种不同的风格和情绪的随心选,极大的降低音乐创作门槛,让每个人都能成为音乐创作大师。

高品质音乐生成

歌词更精准:基于豆包大模型能力,仅需简单的输入几个字,就能生成与旋律节奏匹配、与音乐风格高度契合的歌词,准确表达情感

旋律更多样:

支持10余种不同的音乐风格和情绪表现,尤其在民谣、国风和流行方向适合国内听众的审美听感

曲风:民谣、流行、摇滚、国风、古风、嘻哈、R&B、朋克、电子、爵士、雷鬼、DJ、迪斯科、国风电子…

心情:快乐、活力、EMO、鼓舞、怀旧、兴奋、思念、律动、伤感、放松、浪漫

演唱更真实:

根据歌曲风格匹配适合的音色演唱,真实呈现气口和真假音转换,并支持高质量音质听感

创作门槛低:

无论是偶尔闪现的灵感、心动的美图还是已经写好的歌词,从小白到高手都可以把用户的想法和图片变成音乐记录生活表达情感

图片成曲:

深度分析和理解图片中的内容,生成氛围匹配的高质量音乐。

灵感成曲:

仅需一句灵感即可创作文字和情绪匹配的音乐作品

写词成曲:

支持对已创作的歌词的音乐旋律和演唱创作,帮助用户实现情感共鸣。


Doubao-文生图模型-智能绘图


https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-t2i-drawing

豆包文生图模型智能绘图是基于字节跳动视觉大模型打造的新一代文生图模型,可对用户输入的文本进行精准理解,生成更符合语义、审美特性和创造力的不限风格的优质图像,以较低的创作成本帮助企业或创作者降低内容生产成本、激发创意。

最新升级2.0 S/2.0L 产品优势:


复杂图文匹配:新模型能够精确呈现真实世界与想象世界的复杂场景,包括:升级多数量、多属性、大小、高矮、胖瘦和运动6类难点现实场景,生成结果更符合物理世界规律;在概念组合、角色创造和虚拟空间塑造方面展现出更强的创造力,擅长生成奇幻小说和创意设计等想象场景。

中国文化理解:持续优化中国特色内容,升级对中国古代绘画艺术的理解和呈现,更好的表现不同技法如工笔画、写意画、兼工带写等,让文生图更能传达中国魅力。

画面效果更美:创作出画面构图与空间位置更加丰富多样的作品,尤其善于从光影明暗、氛围色彩和人物美感3个方向进行画面质感的提升。


应用场景


社交媒体内容:生成吸引人的图像内容,用于品牌的社交媒体平台,提升用户互动和关注度。

广告创意:快速生成创意广告图像,帮助市场营销团队探索和实验不同的广告设计。

教学辅助:为复杂的教学内容(如历史事件、科学概念)创造直观的图像,帮助学生更好地理解和记忆。

艺术创作:艺术家可以通过文生图技术探索新的艺术风格和表达形式,创作出独一无二的艺术作品。

电影和游戏设计:在电影或视频游戏的前期概念设计阶段,文生图技术可以快速生成场景草图或角色设计,帮助创意团队形成更具体的视觉概念。


模型列表


扫码关注更多AI资讯

我们一起学AI!





同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章