首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

文摘 2024-12-18 17:38 上海

今日发布

字节跳动发布豆包视觉推理模型

更强的内容识别能力

更强的理解和推理能力

更细腻的视觉描述能力

跨多个模态协同创作能力

视觉理解模型正式走进厘时代

把多模态大模型昂贵的价格打下来，比同行便宜85%，每家企业都用得起

视觉推理模型

今天字节跳动正式发布豆包视觉理解模型。

模型可以识别和理解图像中的丰富信息，包括图像知识、动作情绪、位置状态、文化背景和文字信息。

例如，当你拍摄一幅古代名画，豆包不仅能够识别出画中的物体，还能够深刻理解这幅画的历史、创作的历史背景，甚至告诉你这幅画的创作者是谁。

至此...

豆包模型已经具备了自然语言交互、实时语音交互、图像生成和编辑、音乐生成、视频生成、视觉理解等多种能力。

成为国内领先的具有全知全能全模态能力的模型家族！

那么豆包视觉理解模型的能力如何呢？与其他模型有什么不同？

小互我第一时间做了深度的评测，给大家展示看看...

更强的内容识别能力

以这张清明上河图为例，图像还是比较模糊的

询问豆包这幅画是什么

很好的识别了出来，，而且你还可以询问它更多关于这幅画的更多历史背景知识以及作者情况这些都太小儿科，我们就不测试了。

我们继续询问一个比较刁钻的问题

看看能否答对

指出了骆驼的具体位置

继续追问

回答正确

位置人物情感识别能力

豆包视觉理解模型不仅能够识别图像中的物体、人物、景物

以及它们之间的关系

模型还可以通过对图片的分析

识别出图片中具体物体、动作、情绪、背景等信息

测试图像，一张模糊的老友记截图

很好的通过了测试

模型能够判断图像中的人物动作以及人物的情绪状态

继续加大下难度

我们看到模型可以根据图像内容精确的识别图像中的物品对象信息

而且还能理解物体在空间中的位置、状态

并且能很详细地描述出来，这对视力障碍的人来说非常有帮助

同样的能够识别人物的动作分析其情绪状态

能识别人物分别是谁，以及他们的介绍

文字符号（OCR）识别逻辑推理能力

豆包视觉理解模型模型具备强大的OCR能力

可以识别图像中的文字信息，进行翻译或内容分析

模型不仅限于对物理世界的视觉理解

还能够理解图像中涉及的代码内容

进行推理和分析，支持编程、数据分析等工作

同时还能够理解图像中的数学公式或图表信息

并提供相关的推理和解答。

这对于教育、学术研究以及一些复杂的行业应用，具有重要意义

图表推理能力展示

知识推理能力展示

物理推理能力展示

跨模态能力展示

豆包视觉理解模型不仅仅是单一的视觉识别技术

它与豆包大模型家族中的其他模型（如大语言模型、语音交互、图像生成和编辑、音乐生成、视频生成等）深度集成

可以实现多模态的整合和跨模态的任务

比如你可通过识别一张图像，让豆包生成对这个图像的描述，然后让它给你写一个提示词，再通过豆包的图像生成模型再生成一个类似的图像，可以规避版权或者其他问题。

同时还可以让它根据图像内容创作诗词歌曲

然后再使用音乐模型来生成一段音乐

先生成歌词

然后创作一首歌曲

多模态之间协同创作

大幅提高你的和AI的协作创作能力

现在豆包能真的与你一起协作办公、创作，解决问题

甚至能作为生活陪伴

视觉描述创作能力

可以基于图像信息，更细腻地描述图像呈现的内容

还能进行多种文体的创作。

模型价格令人发指

视觉理解模型正式走进厘时代

豆包•视觉理解模型的输入价格为每千tokens 0.003元，比行业平均价格降低85%，相当于一块钱可以处理284张720P的图片

这意味着开发者可以以更低的成本

开发基于豆包•视觉理解模型开发出各种行业应用

推动AI应用领域的产品的发展

个人免费可用

从今天开始

下载打开豆包APP

即可免费体验豆包视觉推理模型

发布会彩蛋

豆包的视觉推理模型

视频版似乎已经在内测

发布会开场是火山引擎CEO

使用豆包进行了一系列视频视觉能力展示

展示↓

评价

距离 OpenAI 差距越来越很小

看完记得点赞转发关注三连

加入XiaoHu.ai 日报社群每天获取最新的AI信息

结束...

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

特斯拉展示 Optimus 机器人最新进展多机器人能够共享数据、自主导航、自行充电、爬楼梯、能真的干活了...

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉