2024年9月24日,在深圳举办的2024火山引擎AI创新巡展上发布了豆包·视频生成模型,以及豆包·音乐模型、豆包·同声传译模型等多项更新。
豆包大模型的使用量持续上升,日均tokens使用量超过1.3万亿,四个月内增长十倍以上。
此外,豆包·文生图模型每日生成图片数量已达5000万张,语音处理时长也达到了每天85万小时。
在本次巡展上,火山引擎展示了豆包·视频生成模型的多项关键技术突破。
该模型能够根据复杂的提示信息生成具有多动作、多主体交互能力的视频内容。
提示词:一对长头发的外国男子和女子在骑马驰骋
这使得视频能够按照用户提供的时序性多步骤指令执行,并支持多个主体之间的互动。
视频生成模型还具备强大的动态展示能力和酷炫的镜头运用技巧。
提示词:一名亚洲男子带着护目镜游泳,身后是另一名穿潜水服的男子
以及变焦、环绕、平移、缩放以及目标跟踪等功能,从而创造出更具真实感的视觉体验。
豆包·视频生成模型还解决了多镜头切换时的一致性难题,可以在单一提示下实现多个镜头的切换,同时保持主体、风格和氛围的一致性。
这使得在短短10秒钟内就能讲述一个完整的故事情节成为可能。
该模型支持多种风格,包括黑白、3D动画、2D动画、国画等。
提示词:梦幻场景,一只白色的绵羊,带着弯弯的角
并提供多种画面比例选项,适应不同的显示设备和应用场景。
字节跳动在视频大模型技术上的研发成果显著,包括高效的DiT融合计算单元,用于更好地压缩编码视频和文本;全新设计的扩散模型训练方法;以及经过深度优化的Transformer结构,这些都极大地提升了视频生成模型的泛化能力。
豆包·视频生成模型已经在电商营销领域得到了应用。
它可以将商品转化为3D动态多角度展示,并根据节日更换背景风格,生成适合快速上架的不同尺寸视频。
在动画教育领域,该模型有助于降低动画制作成本,使童话故事更加生动有趣。
此外,在城市文化旅游推广、音乐MV制作、微电影及短剧等领域,豆包·视频生成模型同样展现出其降低成本、提高效率并确保内容创意合规的能力。
与此同时,豆包大模型家族还增加了豆包·音乐模型,它能够根据少量文字生成情感表达准确的歌词,并提供超过十种不同的音乐风格和情绪表达,支持图片、灵感或歌词转化为歌曲,且其演唱效果可媲美真人。
另一款新成员豆包·同声传译模型则实现了超低延迟的实时翻译功能,在办公、法律和教育等多个场景中提供了接近甚至超越人类水平的翻译质量,并支持跨语言的音色克隆,以增强语言交流的表现力。
随着豆包大模型的持续升级,火山引擎致力于推动人工智能技术在更多领域中的实际应用,助力企业在云计算环境中实现智能化转型。
目前视频、图片需要提交申请体验,每周可免费使用10次。
直达链接:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】