微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署

科技 2024-11-06 10:10 中国香港

项目概述

OmniParser 是微软研究院开发的一个创新项目，旨在增强大型视觉语言模型(如 GPT-4V)在操作图形用户界面(GUI)时的能力。

该项目由微软研究院和微软通用 AI 团队共同开发。

https://microsoft.github.io/OmniParser/

核心问题与解决方案

传统视觉语言模型在处理 GUI 操作时面临两个主要挑战：

难以可靠识别界面中的可交互图标
难以准确理解截图中各元素的语义并将预期操作与屏幕区域关联

OmniParser 通过以下方式解决这些问题：

开发了专门的交互式图标检测数据集
设计了针对性的模型微调方案
提供了结构化的界面元素解析方法

OmniParser 项目包含两个重要的数据集：

可交互图标检测数据集：

包含 67,000 个独特的截图样本
基于 DOM 树标注的边界框标签
来源于 clueweb 数据集中的 100,000 个流行网页 URL

图标描述数据集：

包含 7,000 对图标-描述配对数据
用于微调说明模型

性能优势

OmniParser 在多个基准测试中都展现出优秀表现：

SeeClick 基准测试
Mind2Web 基准测试
AITW 基准测试

特别值得注意的是，仅使用截图输入的 OmniParser 性能超过了需要额外信息的 GPT-4V 基线模型。

OmniParser 可以作为插件与多个视觉语言模型配合使用：

GPT-4V
Phi-3.5-V
Llama-3.2-V

工作流程

OmniParser 的处理流程包括：

输入：

用户任务描述
UI 截图

输出：

解析后的截图（包含边界框和数字 ID 标注）
局部语义信息（包含提取的文本和图标描述）

安装、运行

安装

conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

模型下载:

地址：https://huggingface.co/microsoft/OmniParser

把文件放在weights/目录下

目录结构: weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2.

模型转换：

python weights/convert_safetensor_to_pt.py

运行程序：

python gradio_demo.py

模型篇P1:机器学习基本概念

迄今最好的AI代码编辑器，编程只需狂按Tab

【大模型实战，完整代码】AI 数据分析、可视化项目

108页PDF小册子：搭建机器学习开发环境及Python基础

116页PDF小册子：机器学习中的概率论、统计学、线性代数

全网最全 Python、机器学习、AI、LLM 速查表（100 余张）

Obsidian AI写作神器：一键配置DeepSeek，写作效率飙升1000%！

基于 QAnything 的知识库问答系统：技术解析与应用实践【附代码】

⬆️关注：领取Python、机器学习资料包⬆️

http://mp.weixin.qq.com/s?__biz=MzA4MjYwMTc5Nw==&mid=2648992258&idx=2&sn=fe1ce265b1bb16f2e2a4192d6a86cfe5

机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

最新文章

值得开发者好好看一看的AI大模型入门教程（内含300道AI面试真题）

50K*16薪，进字节了！

教授何恺明在MIT的第二门课——《深度生成模型》，PPT陆续已出

机器学习进阶必备-10 个高效 Python 工具包完全指南

再见 EasyExcel ！

【赠】出书了，《破解深度学习》来了！

大模型发展方向，你绝对想不到！

机器学习数据预处理中的数据泄露问题！

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

涨点神器！100个即插即用缝合模块【合集下载】

手搓AI大模型应用获25万用户，辞职创业，收入不如摆摊，网友建议：重新进厂打工

腾讯活菩萨？最强大模型开源，免费商用。

面了一个字节50k大佬，见识到了基础天花板！

微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署

面了一个字节50k大佬，见识到了基础天花板！

微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署

15岁山东初中生做CTO，开源项目被100万收购

继续折腾 Obsidian，本地部署one-api，畅通免费大模型

100+深度学习各方向数据集资源大盘点

深度学习面试题合集（PDF下载）

AI 证件照制作工具

神经网络首看书《神经网络与机器学习》，中英文版本PDF下载

被李宏毅大神点赞，深度学习详解，开源了

Anthropic官方深入探讨prompt工程 | 全文脱水中文版

算法入门，《算法图解（第2版）》终于来了！

分享 7 个用 Python 开发成的数据库

“院士之乡”：一共走出26位院士，百位高校校长，一万名教授

黄仁勋预言成真了！！

黑神话火后，印度人想偷走“孙悟空”！疯狂篡改维基百科？

一文读懂模型的可解释性（附代码）

华为牛逼！用 AI 操作手机，做出来了

现在入局 AI 真不晚！

纯血版鸿蒙，扬名海外！国产操作系统的新时代，就要来了。

一个超强的构建Agent的大模型框架

Numpy中数组和矩阵操作的数学函数

RAG入门与实战

10 分钟掌握 Pandas 核心操作：从零开始的数据分析实战

统计学神书，中文版，来了

一网打尽！欧式、曼哈顿、切比雪夫距、闵可夫斯基、汉明、杰拉德、相关距离......原理与可视化解析，附Python代码

【免费PDF下载】数学推导，7万字学会支持向量机

AI 觉醒，学会模仿人类用电脑！编程吊打OpenAI o1

斯坦福NLP实验室重磅开源：DSPy，让大模型开发更简单，附代码

香港大学最新成果——LightRAG大，幅降低大模型问答成本

【PDF下载】无监督机器学习：200页的练习册

被导师放养，后果可能很严重。。。

从A到Z，一文通览Python所有内置函数：编程效率提升 100%

大模型 + 推荐系统，代码实战

【PDF免费下载】一本概率论入门教程，本科生难度

Python字符串操作：常用方法和高级技巧

清华大学开源了！深度学习编译器MagPy

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉