3K star!微软开源的AI屏幕解析工具,基于纯视觉识别UI

文摘   科技   2024-10-30 12:32   北京  

开源的3D互动数字人聊天,你的二次元AI助理吗点击上方蓝字关注我们

IT 咖啡馆,探索无限可能!

恭喜你发现了这个宝藏,这里你会发现优质的开源项目、IT知识和有趣的内容。

 

最近AI领域掀起了一波UI自动化的风潮,先是Claude发布的自动操作电脑的预告,后来智普等公司也发布了基于视觉的自动化操作AI。

今天我们分享的开源项目,就是一个微软开源的幕解析工具,可以帮助你快速解析屏幕再配合大模型的能力,成为对界面进行操作能力的基础,它就是:OmniParser




OmniParser 是什么



OmniParser是一种将用户界面截图解析为结构化、易于理解的元素的综合方法,它显著增强了 GPT-4V 生成能够准确地基于界面相应区域的操作的能力。

大型视觉语言模型最近的成功显示了驱动在用户界面上运行的代理系统的巨大潜力。然而,我们认为,像 GPT-4V 这样作为跨不同应用程序的多个操作系统上的总代理的强大多模态模型在很大程度上被低估了,因为缺乏强大的屏幕解析技术,该技术能够:

1)可靠地识别用户界面中的可交互图标,

2)理解屏幕截图中各种元素的语义,并准确地将预期动作与屏幕上的相应区域关联起来。为了填补这些空白,我们引入了 OmniParser,一种将用户界面屏幕截图解析为结构化元素的综合方法,它显著增强了 GPT-4V 生成可以准确地扎根于界面相应区域的动作的能力。

OmniParser的技术原理 

  • 数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集。

  • 模型微调:

    • 检测模型:用YOLOv8模型在可交互图标检测数据集上进行微调,识别和定位UI中的可交互区域。

    • 描述模型:用BLIP-v2模型在图标描述数据集上进行微调. 生成图标的功能描述。

  • OCR模块: 集成光学字符识别(OCR)模块提取屏幕上的文本、与图标检测结果合并,去除高重叠的边界框。

  • 结构化表示:将检测到的元素和生成的描述整合,形成结构化的DOM(文档对象模型)表示,在潜在可交互元素上叠加边界框的截图。

  • 行动预测:结合结构化元素和功能语义,减轻大型语言模型在行动预测时的负担,更准确地将预测的行动转换为屏 幕上的实际行动。





OmniParser使用场景


 


  • OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表,包括可交互区域的位置和有关其潜在功能的图标标题。

  • OmniParser 用于用户已接受过负责任的分析方法培训并需要批判性推理的场合。OmniParser 能够从屏幕截图中提供提取的信息,但 OmniParser 的输出需要人工判断。

  • OmniParser 用于各种屏幕截图,包括 PC 和手机,以及各种应用程序。





效果演示



1.OmniParser解析后的截图图像和本地语义示例。OmniParser的输入包括用户任务和UI截图,输出为:

1)包含覆盖有边界框和编号的解析后截图图像

2)包含提取的文本和图标描述的本地语义信息

2.可交互区域检测数据集示例。边界框基于从网页的DOM树中提取的可交互区域。


安装OmniParser



首先安装相关的依赖环境,可以参考一下代码:

conda create -n "omni" python==3.12conda activate omnipip install -r requirements.txt

然后从OmniParser的huggingface仓库下载模型 ckpts 文件,并将其放在 weights/ 下,默认文件夹结构为:weights/icon_detect、weights/icon_caption_florence、weights/icon_caption_blip2。

最后,将safetensor转换为.pt文件。

python weights/convert_safetensor_to_pt.py

最后可以运行用gradio做Demo程序:

python gradio_demo.py

 





Benchmark



通过解析结果,GPT-4V 在 ScreenSpot 基准测试中的表现得到了极大提升。在 Mind2Web 上,OmniParser +GPT-4V 的性能优于使用从 HTML 中提取的额外信息的 GPT-4V 代理。而在 AITW 基准测试中,OmniParser 的表现优于使用经过视图层次结构训练的专用 Android 图标检测模型增强的 GPT-4V。

为了进一步证明 OmniParser 是现成视觉语言模型的插件选择,我们展示了 OmniParser 与最近发布的视觉语言模型 Phi-3.5-V 和 Llama-3.2-V 相结合的 ScreenSpot 基准性能。我们希望 OmniParser 可以作为一种通用且易于使用的工具,能够在 PC 和移动平台上解析一般用户屏幕,而无需依赖 Android 中的 HTML 和视图层次结构等额外信息。





总结



现在AI能力开始从大模型逐渐向各个垂直领域深入,对于这类基于视觉的方案,未来是有很多想象空间的,所以如果能够有更好的发展,可能会衍生出很多意想不到的好东西。

   




项目信息


    • 项目名称:OmniParser

    • GitHub 链接:https://github.com/microsoft/OmniParser

    • Star 数:3K



往期推荐

31K Star!快速构建应用,几分钟就能开发网站的低代码工具

12K star!开源OCR工具包,效果不错

「Github一周热点46期」大模型OCR、IPTV直播源、工作流程自动化、下一代信息浏览器和下载金融数据工具

  




识别二维码关注我们
微信号- it-coffee
B站 - IT-咖啡馆
头条号- IT咖啡馆

IT咖啡馆
开源项目、IT技能和有趣的事情
 最新文章