它还能处理复杂的数学公式,展现出强大的数学运算能力。
通过识别食物图片,它能生成详细的菜谱建议。
Ovis的技术亮点
这是阿里首次在模型中引入的创新,通过将视觉特征转化为视觉 token,能更好地在图像和语言之间建立桥梁,解决了大部分多模态模型无法处理高精度图像的问题。
支持极端长宽比和高分辨率图像处理,在自动驾驶、医疗影像等领域尤其有用。比如在自动驾驶中,摄像头采集的图像不规则,Ovis 可以应对这种复杂场景。
从 Caption 到 VQA(视觉问答),再到 OCR(光学字符识别)、表格和图表分析,Ovis 的能力覆盖了各种复杂的数据处理方向。在识别手写公式时,Ovis 能快速精确地提取内容并进行运算或解释。
它能够结合摄像头、雷达等多模态数据,实现更精确的环境感知和决策,提升自动驾驶的安全性。
Ovis 能通过医学影像与文本报告的结合,帮助医生做出更精准的诊断建议。
Ovis 还可以为短视频、电影等内容生成自动字幕、情景分析等功能,让内容创作和分析更加高效。
设想一下,你的智能家电看到冰箱里的食材,就能自动生成一份健康菜谱,这背后就是Ovis在发挥作用。
开源:阿里给开发者的福音