豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

科技 2024-12-20 17:34 辽宁

作者 | 褚杏娟

在 12 月 18 日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包视觉理解模型，不仅在数学、物理、图表、代码等更方面加强推理能力，而且千 tokens 输入价格仅为 3 厘，一元就可处理 284 张 720P 的图片，比行业价格便宜 85％。

豆包大模型全面升级

豆包视觉理解模型发布

研究显示，人类接受的信息超过 80% 来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

据火山引擎总裁谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

此前，豆包视觉理解模型已经接入豆包 App 和 PC 端产品。豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。为此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

豆包 3D 生成模型首次亮相

会上，豆包 3D 生成模型也首次亮相。豆包 3D 模型采用 3D-DiT 等算法技术生成高质量的 3D 模型。

veOmniverse 是火山和英伟达一起合作的数字孪生平台，该平台与豆包 3D 模型结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

下面是字节展示的 Demo，通过 veOmniverse 编辑器和文生 3D 快速搭建工厂车间场景。用户只需输入文本，即可实时生成 3D 场景和模型，满足仿真训练的多样化需求。

字节方面表示，通过豆包 3D 模型与 veOmniverse 的结合方案，团队可以高效完成智能训练、数据合成和数字资产制作，加速虚拟与现实的深度融合。

此外，其他豆包大模型多款产品也迎来重要更新。

豆包通用模型 pro 已全面对齐 GPT-4o，使用价格仅为后者的 1/8。谭待介绍，在专业知识领域，豆包 pro 相比五月版本提升了 54%，这一效果略微领先于 GPT-4o；在综合任务处理能力上提升 32%，和 GPT-4o 持平；指令遵循提升 9%、推理能力提升 13%，在数学方面提升 43%。“可以看到，豆包 pro 已经全面对齐 GPT-4o 能力，甚至在部分复杂任务中表现更好，而且使用价格只有 GPT-4o 的八分之一。”

豆包音乐模型从原来生成 60 秒的简单结构，升级到生成 3 分钟的完整作品。新的模型能够合理运用旋律、节奏、和声等信息，使全曲保持连贯性。如果对生成的歌词不满意，还能开启局部修改模式。

文生图模型升级到 2.1 版本，该的新技能总结成一句话就是“一键 P 图，一键海报”，实现精准生成汉字和一句话 P 图的产品化能力，该模型已接入即梦 AI 和豆包 App。据介绍，豆包文生图 2.1 模型打通了 LLM 和 DIT 架构，构建了高质量文字渲染能力，可以让文字与整体画面的融合更为自然和实用。

大会还宣告，2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。谭待表示，豆包大模型虽然发布较晚，但一直在快速迭代进化，目前已成为国内最全面、技术最领先的大模型之一。

即梦 Dreamina 张楠认为，生成式 AI 技术可以把每个人脑子里的奇思妙想快速视觉化，“像做梦一样”。即梦希望成为“想象力世界”的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

豆包日均 tokens

使用量 7 个月增长 33 倍

数据显示，截至 12 月中旬，豆包通用模型的日均 tokens 使用量已超过 4 万亿，较七个月前首次发布时增长了 33 倍。大模型应用正在向各行各业加速渗透。

据悉，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC 等智能终端，覆盖终端设备约 3 亿台，来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。

与企业生产力相关的场景，豆包大模型也获得了众多企业客户青睐：最近 3 个月，豆包大模型在信息处理场景的调用量增长了 39 倍，客服与销售场景增长 16 倍，硬件终端场景增长 13 倍，AI 工具场景增长 9 倍，学习教育等场景也有大幅增长。

谭待认为，豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念，让 AI 成为每一家企业都能用得起、用得好的普惠科技。

在公布豆包视觉理解模型超低定价的同时，火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品，帮助企业构建好自身的 AI 能力中心，高效开发 AI 应用。其中，火山方舟发布了大模型记忆方案，并推出 prefix cache 和 session cache API，降低延迟和成本。火山方舟还带来全域 AI 搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

云原生是过去十年最重要的计算范式，大模型时代则推动着云计算的变革。火山引擎认为，下一个十年，计算范式应该从云原生进入到 AI 云原生的新时代。

基于 AI 云原生的理念，火山引擎推出了新一代计算、网络、存储和和安全产品。在计算层面，火山引擎 GPU 实例，通过 vRDMA 网络，支持大规模并行计算和 P/D 分离推理架构，显著提升训练和推理效率，降低成本；存储上，新推出的 EIC 弹性极速缓存，能够实现 GPU 直连，使大模型推理时延降低至 1/50、成本降低 20%；在安全层面，火山将推出 PCC 私密云服务，构建大模型的可信应用体系。基于 PCC，企业能够实现用户数据在云上推理的端到端加密，而且性能很好，推理时延比明文模式的差异在 5% 以内。

谭待说：“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族，火山引擎希望帮助企业做好 AI 创新，驶向更美好的未来。”

首款开发鸿蒙原生应用的 AI 辅助编程工具正式上线了

阿里内部观点：智能化研发一年复盘，我们离真正的 AI 开发还有多远？

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

AI 驱动的智能化单元测试生成：字节跳动的实践与创新

作业帮基于 Apache DolphinScheduler 3_0_0 的缺陷修复与优化

豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

在 Lyft 创建 iOS 应用扩展的挑战

OpenAI“双喜临门”：ChatGPT 热线上线，员工“年终奖”最高可达1000万美元

人工智能赋能业务发展研讨：多行业探索 AI 如何驱动行业变革

学好 Prompt，和大模型双向奔赴！| 极客时间

从 CephFS 到 JuiceFS：同程旅行亿级文件存储平台构建之路

智谱完成新一轮三十亿元融资，2024 年商业化收入增长超过 100%

首款开发鸿蒙原生应用的 AI 辅助编程工具正式上线了

后开源时代：开源作者不再是乞求者，而是受益者

新旧交替：AI 时代架构师的进阶之路 |《架构师》电子书下载

首个科学计算基座大模型BBT-Neutron开源，助力突破大科学装置数据分析瓶颈

使用 Rust 重新实现 SQLite 以实现异步 I/O

阿里内部观点：智能化研发一年复盘，我们离真正的 AI 开发还有多远？

AI 重塑技术流程：下半场的破局之道

考虑了很久，还是决定转Go了！| 极客时间

刚刚，ChatGPT Search 向所有用户免费开放！三大升级加剧 AI 搜索竞争，网友：谷歌正式倒闭

Ruby on Rails 8.0 发布，引入 Kamal 2 以改进部署

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

Ilya Sutskever 在 NeurIPS 2024 的演讲：预训练时代已经结束了

ChatGPT 按提示词数秒完成游戏开发，程序员们该慌了

大型开发者调查结果：哪些 AI 助手最受欢迎？使用 VR 头显编程开始成为趋势

Cloudflare 在 11月发生重大故障，导致日志丢失

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

春节假期各大厂卷起来了？腾讯9天垫底；字节跳动在厕所推广“反黑话”运动！OpenAI吹哨人被证实死亡！年仅26岁｜Q资讯

OpenAI 重磅推出 ChatGPT Projects 功能，让 ChatGPT 更容易管理！网友：这是几日来最有用的发布

Java新闻综述：JDK24 进入Rampdown阶段、JDK 25专家组、Jakarta EE 11 Core Profile

700 多亿打水漂后，这家巨头突然舍弃了无人驾驶出租车业务！新老员工炸锅：刚还在加班、“一群傻瓜”

我们如何在十个月内将 ARR 从 0 增长到 1000 万美元以上？

出海这么多年，AI Infra层到底有哪些新机遇？| 直播预告

OpenAI 版 Her 登场，GPT 能实时视频通话了！德扑 AI 之父：比 o1“更受宠”的模式降临

Kotlin 2.1.0 发布，带来新的语言特性和编译器更新

掀翻牌桌：定义面向未来的开发新范式

ABCoder 在大模型编程领域的探索

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI，还让开发者免费试用！Agent时代最强模型登场了？

Oracle 推出 GraalVM Java JIT 编译器，但仅限于自己的 JDK

1620 天后，Redis 之父强势归来：开始着手修复社区裂痕，并布局下一代向量数据库

走近邱玉辉教授：创办《电脑报》的中国人工智能先驱

如何做到国内 AI+PPT 工具赛道的 top 1？| AICon

OpenAI发布季第四天：Canvas全量开放，集成Python、支持在线改代码

React 19 稳定版发布：新特性介绍和升级方法

技术风头渐弱，靠 AI 赚钱还现实吗？

软考一把就过，分享我的心得 | 极客时间

Sora 刚正式登场就把OpenAI系统干废了！Altman紧急暂停新用户注册

Amazon 发布内部初始设计文件，纪念 AWS Lambda 推出 10 周年

硅谷 1/10 程序员在摸鱼？拿20-30万美元年薪却几乎不干活

百度智能云忻舟：多轮迭代优化助力人工智能嵌入更多场景

Java 面试中真正的加分项，这套笔记说全了 | 极客时间

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉