首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里国际重磅推出Ovis：免费开源，多模态能力再升级

文摘 2024-09-20 10:52 云南

阿里国际团队最近发布的多模态大模型 Ovis引起了科技圈的广泛关注。

说得简单点，Ovis不只是懂得文字，它还能看图、理解图片、做数学推理，甚至处理手写公式。这种“多才多艺”让它不仅在学术领域风头正劲，还在实际应用场景中迅速崭露头角。

Ovis已经在多模态技术评测平台OpenCompass上拿到了综合排名第一的成绩。这个评测平台堪称多模态模型界的“奥斯卡”，Ovis能够拔得头筹，意味着它在图像理解、文本生成、数学推理等多项任务中都达到了顶尖水平，甩开了其他同类模型好几条街。

什么是 Ovis？

Ovis 是一种多模态大模型，这意味着它可以同时理解和处理来自多种不同形式的数据输入，比如图片、文字、数学公式等。

而市面上比较常见的大语言模型（LLM），像ChatGPT、GPT-4，擅长的是处理和生成文本数据，特别是文字生成，但在处理图片和非文本信息上并没有太大优势。

Ovis则不同，它不仅能处理文字，还可以解析图像、识别手写体、理解复杂的数学公式，甚至能自动生成菜谱或分析财务报告。简单来说，Ovis就像一个能同时处理视觉、语言和复杂任务的全能AI，不再局限于某一领域，而是真正能做到跨模态的理解和应用。

阿里这款 Ovis 多模态大模型的发布带来了多项技术突破，特别是在视觉和文本的结合上。

举个例子，Ovis 能识别手写文案并进行精准的翻译，无论字体如何复杂。

它还能处理复杂的数学公式，展现出强大的数学运算能力。

通过识别食物图片，它能生成详细的菜谱建议。

Ovis的技术亮点

01

可学习的视觉嵌入词表

这是阿里首次在模型中引入的创新，通过将视觉特征转化为视觉 token，能更好地在图像和语言之间建立桥梁，解决了大部分多模态模型无法处理高精度图像的问题。

02

动态子图处理方案

支持极端长宽比和高分辨率图像处理，在自动驾驶、医疗影像等领域尤其有用。比如在自动驾驶中，摄像头采集的图像不规则，Ovis 可以应对这种复杂场景。

03

全面数据优化

从 Caption 到 VQA（视觉问答），再到 OCR（光学字符识别）、表格和图表分析，Ovis 的能力覆盖了各种复杂的数据处理方向。在识别手写公式时，Ovis 能快速精确地提取内容并进行运算或解释。

这对我们意味着什么？

对于普通人来说，Ovis可能听起来有些“技术腔”，但别着急，这种技术背后有着非常实际的应用。比如：

自动驾驶

它能够结合摄像头、雷达等多模态数据，实现更精确的环境感知和决策，提升自动驾驶的安全性。

医疗诊断

Ovis 能通过医学影像与文本报告的结合，帮助医生做出更精准的诊断建议。

视频内容理解

Ovis 还可以为短视频、电影等内容生成自动字幕、情景分析等功能，让内容创作和分析更加高效。

智能家居

设想一下，你的智能家电看到冰箱里的食材，就能自动生成一份健康菜谱，这背后就是Ovis在发挥作用。

开源：阿里给开发者的福音

Ovis 不仅性能出众，最重要的是开源！这意味着全球的开发者和研究人员可以自由使用和改进 Ovis 的代码、模型和训练数据，从而推动 AI 技术的普及和进步。

阿里在 Ovis 发布时，甚至强调了这一点：

Ovis 不仅仅是阿里巴巴的创新成果，它更是为全球开发者社区贡献的公共资源。

未来，Ovis不仅会在更多行业里大展拳脚，还可能成为个人生活中的助手。想象一下，你家里的AI助手不仅能跟你聊天，还能分析你一天的状态，提出锻炼和饮食建议。或者，你只需要告诉它几句提示语，它就能为你生成一段有趣的视频。这种技术正在迅速从概念变为现实，而Ovis正是其中的领跑者之一。

http://mp.weixin.qq.com/s?__biz=MzkzNjIzNjk1Mg==&mid=2247489826&idx=1&sn=0b0489bd0144ae402ad082b6d76620b0

一起探索AGI世界，解锁AI实用技能，伴您步入智能生活！

最新文章

阿里国际重磅推出Ovis：免费开源，多模态能力再升级

MiniMax视频模型超越期待，效果媲美可灵与即梦！

OpenAI重磅推出o1模型：从“秒答”到“深思熟虑”！

Pixtral 12B 发布！Mistral AI 进军多模态领域，120 亿参数震撼上线！

LivePortrait：一键制作动态肖像视频，趣味视频轻松搞定！

轻松上手！零一万物Yi-Coder开源，支持52种编程语言，程序员福音来了！

OpenAI重磅消息：GPT Next即将问世，人工智能迎来大变革！

文小言横空出世！超拟真人互动，百度这次真的“上道”了！

“黑科技反击战”：中科院女工程师张欣怡开源AI模型助力全球抗击Deepfake犯罪

微软发布AutoGen Studio：无需写代码也能搞定多代理系统！

AI独角兽Runway删库，这次是真的Run Away了！

韩国Deep Fake事件：当AI技术成为犯罪的工具

Zyphra推出Zamba2-mini：以高效性能重新定义设备端AI的小语言模型

英伟达推出NIM Agent Blueprints服务，加速企业AI应用开发

AI下棋机器人，家庭教育的神助攻还是新潮流？

用AI也能写小说？田渊栋用科幻解读未来

高仿真、情感互动，数字华夏的“夏澜”机器人有点牛！

麦当劳的AI美少女薯条秀：科技与快餐的奇妙邂逅

大圣归来：《黑神话：悟空》凭啥这么火？

马斯克的未来之梦：人类或将实现数字永生

SkyReels：开启 AI 短剧创作新时代

如何快速上手 Midjourney AI：保姆级操作指南

谷歌 Pixel 9 手机系列，AI功能超出预期

SB 1047：加州出台人工智能管理法案 —防范AI灾难还是引发硅谷危机？

销售人员 70% 的时间都花在非销售任务上，AI 可以提供帮助

微软与Palantir强强联合：推进美国国防和情报领域AI

欧洲高校利用AI预测和诊断“阿尔茨海默病”

AI时代，哲学至关重要

OpenAI支持结构化输出和macOS 桌面应用

AI芯片初创公司 Groq 获 6.4 亿美元融资，估值28亿，挑战 Nvidia

微软深度整合Azure AI与GitHub：大幅简化AI应用开发流程

Google推出的Gemma 2 2B模型可以在手机、笔记本电脑和台式机等边缘设备上运行

Grok 的新数据收集设置激怒了 X 用户，可能违反欧盟隐私法规

GPT-4o语音模式灰度测试，同时Long Output支持64K超长输出

NLP 核心技能：注意力机制和Transformer架构全面剖析

市值260亿美元的Canva，收购Leonardo.ai，增强生成式AI的能力

AI的双刃剑：全球治理刻不容缓

大模型价格战，背后的逻辑

OpenAI 推出AI搜索 SearchGPT：挑战谷歌搜索霸主地位

City不City，拥有类人脑的新AI机器人震惊世界！

Meta开源：Llama3.1 405B模型发布

Mem0：增强LLM的记忆功能，实现跨应用的个性化AI体验

OpenAI 发布 GPT-4o Mini：成本优势明显，性能优于 GPT-3.5 Turbo

Agent获客新时代，你的企业上车了吗？

人机共生：大模型时代的工作与生活

传统AI与生成式AI的深度对比

OpenAI的Q计划：“Strawberry"新模型，可自主浏览互联网并自主推理

AI技术与企业数据的深度融合，开辟商业增长新蓝海

未来出行：无人驾驶能否取代网约车司机？

AI Agent：大模型演进的下一站

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉