豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

科技 2024-12-18 16:22 重庆

豆包·视觉理解模型于 12 月 18 日在火山引擎 Force 原动力大会首次亮相。该模型具备非常强的内容识别能力，同时，拥有出色的理解推理和细腻的视觉描述表现。

一同亮相的，还有升级版豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型等。本文将从技术视角介绍此次发布的重点。

现在，豆包大模型可以“看懂”世界了。

今天，在火山引擎 Force 原动力大会现场，豆包大模型家族公布新成员“豆包·视觉理解模型”。它不仅具备强大的视觉感知能力，还能融合视觉与语言输入，进行综合的深度思考和创作。

根据图像信息，豆包·视觉理解模型可以完成诸多复杂的逻辑计算任务，包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。

点击下方视频，直观了解豆包·视觉理解模型的强大能力：

除豆包·视觉理解模型外，本次还官宣了豆包主力通用模型、豆包·音乐生成模型、豆包·文生图模型升级，3D 模型也一并发布。

1. 视觉理解模型不仅能“看”，还能“思考”

视觉，是人类理解这个世界最重要的手段。对大模型而言也是如此，掌握完备的视觉理解能力，才能处理好真实世界的信息，辅助人类完成一系列复杂工作。

通过豆包·视觉理解模型，用户可以同时输入文本和图像相关的问题，模型经综合理解，可给出准确的回答。这将极大地简化开发流程，解锁更多的大模型价值场景。

为了支持上述需求，豆包·视觉理解模型提供三大能力：

更强的内容识别能力

豆包·视觉理解模型有非常强的内容识别能力，不仅可以识别出图像中的物体类别、形状、纹理等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义，甚至背后的文化知识。

具体来说，视觉理解模型不仅可以识别现实中的物品，还能根据光影、轮廓、位置等特征，一眼识别出小动物的影子，并“认出”这是一只猫。

当你在清晨跑步，看到光线从树林间洒出来，可以随手拍张照，问问豆包大模型这是什么科学现象，它能识别这是丁达尔效应并科普原理。

更强的理解推理能力

豆包·视觉理解模型也具备出色的理解和推理能力。模型不仅能识别图文信息，还能进行复杂的逻辑计算。拍下一道需要进行微积分运算的数学题，豆包·视觉理解模型能很好地理解图片问题，并根据提示词进行对应的推理计算，给出答题思路。

学术论文同样也能读懂。

对于下面这篇论文《How Far is Video Generation from World Model: A Physical Law Perspective》中的图表，模型可以做到准确理解并解析图表呈现出的趋势与结论。

“看”代码同样不在话下，模型能识别真实代码的用途，并介绍每行代码分别在实现什么操作。

更细腻的视觉描述能力

除却识别与理解推理能力，豆包·视觉理解模型还有着非常细腻的视觉描述和创作能力。

当你想设计一款文创产品赠送客户，模型可基于产品的造型或寓意写一段真挚走心的祝福语。

一张小孩的涂鸦画，足够让豆包·视觉理解模型创作一个奇幻的故事。

至于应用方面，豆包·视觉理解模型可落地图片问答、医疗健康、教育科研、电商购物、生活助手等诸多场景。

2. 通用模型能力全面对齐 GPT-4o，视频生成模型即将开放企业服务

主力通用模型升级，全面对齐 GPT-4o

视觉理解模型之外，大会现场还官宣了豆包语言大模型的升级。

相比 5 月版本，豆包最强模型 Doubao-pro 能力大幅提升。面向 MMLU_pro 评测集，模型综合能力提升 32%，和 GPT-4o 持平，使用价格仅为 GPT-4o 的八分之一。

Doubao-pro 指令遵循能力提升 9%，代码能力提升 58%，GPQA 专业知识方面能力提升 54%，数学能力提升 43%，推理能力提升 13%，全面对齐 GPT-4o 水平。

豆包·视频生成模型即将面向企业开放服务

9 月 24 日，豆包·视频生成模型发布，此后，该模型通过即梦 APP 和网页端已对 C 端用户开放使用，经由创作者之手，诞生出很多精美视频。

面向企业客户和开发者，豆包·视频生成模型将于 1 月依托火山引擎正式对外开放服务。

音乐模型、文生图模型升级

豆包·音乐模型，首次发布于 2024 年 9 月，时隔 3 个月后，已能支持 3 分钟的完整音乐作品生成，实现包括前奏、主歌、副歌、间奏、过渡段等复杂结构的作品创作。

此外，全新版本模型可合理运用旋律、节奏、和声等信息，使全曲保持在风格、情感等音乐元素上的连贯性。如对生成歌词不满意，还可进行局部修改，给原调赋新词，让音乐创作更自由灵活。

文生图模型新增“一键 P 图，一键海报”技能。

基于豆包大模型团队成果 SeedEdit，豆包文生图模型 2.1 版支持通过自然语言对图像进行“一键 P 图”，包括换装、美化、涂抹、风格转化等任意编辑指令。

同时，豆包文生图模型还支持“一键海报”，可实现精准控制的文字图案生成。通过打通 LLM 和 DiT 构架，豆包文生图模型构建了高质量文字渲染能力，可大幅提升文字生成准确率。这种原生的文字渲染能力，让文字与整体画面的融合更为自然和实用。

豆包 3D 模型发布

面向 3D 仿真领域，豆包大模型家族新增 3D 生成模型，该模型采用 3D-DiT 架构，可生成高质量 3D 模块。该模型与火山引擎数字孪生平台 veOmniverse 结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

举例来说，用户只需输入文本，即可实时生成并搭建起一个工厂车间场景。通过快速批量生成并上传至云空间，布局师可实时调用并完成场景设计，提升创作效率和协作体验。

3. 写在最后

自 2024 年 5月豆包大模型家族正式发布，到 12 月冬季原动力大会，短短 7 个月时间，豆包大模型团队发布了 Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果，在语言能力、多模态理解与生成、模型推理、代码生成等方面不断提升。

不少前沿技术已应用于豆包 APP、即梦等 C 端产品，并通过火山引擎服务众多行业的企业客户。目前，豆包大模型日均 tokens 调用量突破 4 万亿，7 个月增长幅度达 33 倍。尤其在汽车、手机、智能终端等新兴行业，豆包大模型调用量增长了 50 倍以上。

未来，豆包大模型团队将持续加大投入，着眼研发真正关键、有价值的大模型技术，并不断降低大模型训练推理成本，促进 AI 应用繁荣。

如果你也对豆包大模型团队的工作感兴趣，欢迎关注「豆包大模型团队」微信公众号，或点击阅读原文前往官网，了解更多研究进展。

点击“阅读原文”，了解更多团队研究进展！

字节跳动技术团队

字节跳动的技术实践分享

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

视频生成模型能否“理解”物理规律？豆包大模型团队公布系统性实验结论

抖音集团也在用的数仓「降本」利器

BlockFramework —— 客户端模块化业务开发框架

超低延迟多路径传输：技术演进与大规模业务实践

最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

AI 代码编程助手真的有用吗

万圣节，一起 Cozeplay ！ iPhone 16 Pro Max、Switch、扣子周边等500份“糖果”掉落！

单元化架构在字节跳动的落地实践

技术专题27期 | 后端Java技术创意冠军角逐赛

【万字干货】保姆级AI编程基础入门，看这篇就够了！

豆包MarsCode Agent 登顶 SWE-bench Lite 评测集

1024 码上奇妙夜｜开发者专属，万元“豪”礼，宠爱满满！

揭秘云数仓ByteHouse四大「降本」硬招

1024限时加码｜豆包MarCode小助手给合伙人送礼啦！

扣子上新！文生播客、客服、陪伴、教育…官方带你抄作业！

一文教会你轻松上手豆包MarsCode 编程助手！（文末送AirPods 4啦）

1024，火山引擎开发者社区给你精彩！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉