首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

科技 2024-10-28 19:42 山东

前几天智谱AI发布了AutoGLM，让很多人直呼“王炸”、“头皮发麻”。

AutoGLM实际上是AI在手机上通过指令帮我们完成一系列操作，比如点外卖、订酒店、订机票等等。

最牛的其实不是完成了任务，因为这不是通过软件之间的接口对接实现的，而是直接模拟人点击操作了手机。

但这种操作，依我来看，也仅限于安卓。苹果是不可能给软件开这么高的权限，顶多是开个接口，会让用户实现这部分有接口的功能，但是朋友圈点赞评论暂时是想都别想了。

微软这几天开源的OmniParser有点意思，基于纯视觉的 GUI 代理的屏幕解析工具。

简单来说就是让AI分析屏幕，理解每一个按钮是操作什么功能的。

OmniParser是GUI中非常关键的一部分，只是理解了页面，如果再加上自动化，才是真正的实现GUI。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

OmniParser是一种全新的视觉解析工具，专为提升跨多个操作系统和应用程序的界面操作自动化而设计。该项目通过结构化解析用户界面截图，极大地增强了大型视觉语言模型GPT-4V的性能，使其能够更准确地在用户界面上定位和执行操作。

OmniParser整合了多个细化的模型，包括交互图标检测和图标功能描述，有效地识别和理解界面中的可交互元素。在没有额外输入信息的情况下，仅凭截图输入就显著超越了传统基线模型。

主要功能

1.可靠地识别用户界面内的可交互图标：

OMNIPARSER利用先进的视觉检测模型，从用户界面的截图中精确定位可交互元素（如按钮、图标、输入框等）。它能够自动识别并标注这些元素的位置和边界，确保系统可以准确了解哪些区域是可以进行操作的，从而为后续的自动化交互提供基础。

2.理解屏幕截图中各种元素的语义，并准确地将预期操作与屏幕上的相应区域关联起来：

OMNIPARSER不仅识别元素的视觉信息，还通过语义解析模型理解每个元素的功能和用途。它将这些语义信息与视觉检测结果相结合，准确关联预期操作和屏幕中的具体区域，从而提升自动化系统在执行任务时的准确性和有效性。

DEMO

1.OmniParser解析后的截图图像和本地语义示例。OmniParser的输入包括用户任务和UI截图，输出为：1）包含覆盖有边界框和编号的解析后截图图像，2）包含提取的文本和图标描述的本地语义信息。

2.可交互区域检测数据集示例。边界框基于从网页的DOM树中提取的可交互区域。

用途

简单了想了下，用途还真的挺多的。跨平台的自动化操作、智能辅助工具、无障碍辅助技术、自动化软件测试、企业工作流自动化、网页数据采集和个性化用户体验优化。

当然，开发者们的智慧肯定不止于此。再结合起来实际的一些需求，只讲一个实用案例，其他的你们可以在评论区聊聊。

“网络水军越来越智能，价格还被打下来了”。

项目链接

https://www.dongaigc.com/p/microsoft/OmniParser?a=omniparser

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

最新文章

11.6k星星！Facebook开源的儿童手绘AI转动画项目，输出稳定，儿童艺术创作赛道可落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

爆火开源推荐！基于Next.js的开源AI聊天机器人模板，一键定制部署AI对话软件。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

英伟达最新提出ComfyGen，利用大模型自动生成Comfyui工作流，Comfyui再无难度

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉