字节跳动发布豆包视觉推理模型
更强的内容识别能力
询问豆包这幅画是什么
我们继续询问一个比较刁钻的问题
看看能否答对
指出了骆驼的具体位置
回答正确
位置人物情感识别能力
很好的通过了测试
文字符号(OCR)识别逻辑推理能力
模型不仅限于对物理世界的视觉理解
还能够理解图像中涉及的代码内容
进行推理和分析,支持编程、数据分析等工作
知识推理能力展示
比如你可通过识别一张图像,让豆包生成对这个图像的描述,然后让它给你写一个提示词,再通过豆包的图像生成模型再生成一个类似的图像,可以规避版权或者其他问题。
同时还可以让它根据图像内容创作诗词歌曲
然后再使用音乐模型来生成一段音乐
先生成歌词
视觉描述创作能力
视觉理解模型正式走进厘时代
豆包•视觉理解模型的输入价格为每千tokens 0.003元,比行业平均价格降低85%,相当于一块钱可以处理284张720P的图片
这意味着开发者可以以更低的成本
开发基于豆包•视觉理解模型开发出各种行业应用
距离 OpenAI 差距越来越很小