比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

科技 2024-11-06 22:31 山西

大数据文摘受权转载自夕小瑶科技说
作者 | 小鹿

家人们，苹果一直在悄悄进步！

近期，据小鹿观察，各大科技巨头不仅在提升模型解决复杂问题的能力上竞争激烈，而且还在大语言模型应用于用户界面（UI）交互方面上暗暗发力！

最近，Anthropic对其Claude3.5 Sonnet的UI交互功能进行了升级，而微软则推出了开源工具OmniParser，旨在将屏幕内容转换为结构化数据，以便更有效地利用。

能不能一键丝滑地集成这些大语言模型到系统级应用中应该是各大巨头的下一个赛点了！

苹果公司在产品交互上一直都坚持进步，今天小鹿发现苹果做了一个专门理解和与移动用户界面交互的模型Ferret-UI 2，这个模型不仅能“看懂”屏幕上的内容，还能理解用户的指令和问题，从而执行任务或提供信息。

意思是，这个模型用起来后能时刻观察你在手机屏幕上的一举一动，并时刻准备听你召唤提供帮助，执行任务。

根据官方论文的实验结果，在交互页面上的元素识别、意图识别，其测试得分达到了89.73，显著领先于GPT-4o的77.73分！

创新点

Ferret-UI 2 实现了更准确地识别和理解不同设备和操作系统上的UI元素，从而执行复杂的用户中心交互任务。

主要优势有：

多平台、跨设备支持：早期的 Ferret-UI 主要支持移动设备（如 iPhone 和 Android 手机）的UI理解，而 Ferret-UI 2 扩展到了平板（如 iPad）、网页和智能电视（如 Apple TV）等多种平台。其中，在iPhone端基本可以运行流畅，iPad端准确率达68%，安卓设备上的成功率达到71%。

高分辨率自适应：Ferret-UI 2可以适应不同分辨率的屏幕，可以在高清大屏或手机小屏上都保持准确的UI识别效果。无论屏幕大小或清晰度如何，它都能精准识别屏幕上的按钮、图标和文本等元素。
支持更复杂的用户交互任务：Ferret-UI 2 不仅能执行基础点击和操作指令，还能理解更复杂的用户意图。模型能够根据用户的模糊指令做出准确响应。

实现方法

不同于传统的基于坐标点击的操作方式，Ferret-UI 2能够根据用户的自然语言指令自动定位并执行相应的操作。

研究团队利用了GPT-4V生成训练数据，使得模型不仅能够识别UI元素，还能执行特定的操作，如滑动页面、填写表单和选择选项，提高了系统对界面元素之间空间关系的理解。

论文标题：《Multi-modal｜UI Understanding, Multi-round Reasoning SegmentationFerret-UI 2: Mastering Universal User Interface Understanding Across Platforms》

论文链接：http://arxiv.org/abs/2410.18967v1

模型地址：https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

构建数据

为了训练一个强大的多平台UI理解模型，研究团队构建了自己的数据集，完整的数据集生成流程图如图2所示。

原始注释收集。

用于训练Ferret-UI 2的数据来自不同平台类型的数据的组合，包括iPhone、Android、iPad、网页和AppleTV等。

研究团队在多种使用场景下收集的iPhone、iPad和AppleTV数据，并人工标注小部件边界框坐标和标签。为了节省标注成本，不收集文本注释，文本边界框被替换为使用OCR置信度阈值为0.5的屏幕范围内OCR检测到的文本和边界框。
网页数据来源于WebUI数据集（Wu等，2023）。所有类型的UI小部件的边界框和非图片小部件的文本注释直接从源HTML视图层次结构树解析，提供高质量的注释。
Android数据的截图、边界框和文本注释是从RICO数据集转换而来的。

研究团队对所有收集的数据进行了筛选处理：

筛除或调整超出预设边界的边界框，并在筛选后移除那些不再包含任何边界框的空白截图
删除文本注释中含有超过5%非ASCII字符的截图

尽管数据来自不同的源头，其标签的类型也各不相同，但研究团队剔除了与研究关系不大的标签（如UI类型），并将剩余的标签统一归类到一个共有13个类别的标签体系中，包括：‘复选框’、‘按钮’、‘容器’、‘对话框’、‘图标’、‘页面控制’、‘图片’、‘分段控制’、‘滑块’、‘标签栏’、‘文本’、‘文本字段’和‘切换’，从而得到了一个包含原始UI小部件注释的跨平台统一数据集。

在此方法中，每个UI组件都被标记了角落式边界框和独特的数字标签，以便于识别。

此外，为了更好地区分空间接近或嵌套的组件，同一类的UI组件被标记以相同的颜色，从而增强了视觉提示的效果，帮助模型更有效地识别组件边界。

Ferret-UI2区分了基本和高级任务。

对于基本任务，Ferret-UI2将简单的引用和定位数据转换为对话形式，使模型能够对各种UI屏幕建立基本理解。

对于更侧重于用户体验的高级任务，Ferret-UI2采用了基于GPT-4o的“标记集视觉提示”技术来生成训练数据，并用单步用户中心交互取代了之前方法中简单的点击指令。在生成多轮感知和交互问答的训练样本时，他们采用了Set-of-Mark（SoM）视觉提示，如图3所示。

模型架构

Ferret-UI 2 采用了创新的模型架构,如图4所示。

Ferret-UI 2结合了 Any-Resolution(AnyRes)方法,增强了对指代和定位的处理能力,使编码器能够捕捉不同分辨率下的图像信息。该架构采用了自适应 N 网格机制,基于算法动态确定最优网格大小,以最小的分辨率失真和像素变化对屏幕截图的每个区域进行编码。

动态高分辨率图像编码模块利用 CLIP 图像编码器提取全局和局部特征,将这些特征送入大型语言模型(LLM),实现对高分辨率图像的编码。视觉采样器能够根据用户指令识别和选择相关的 UI 区域,输出对 UI 元素的感知或交互描述。

在生成训练数据时,Ferret-UI 2 使用 Set-of-Marks(SoM)视觉提示,增强了模型对 UI 元素空间关系的理解能力。型通过端到端的训练过程,直接从原始数据注释中学习,生成高质量的训练数据,并优化模型性能。

实验结果

为了评估Ferret-UI2的性能，研究团队构建了涵盖五个平台的45个基准测试，包括每个平台的6个基本任务和3个高级任务。结果表明，Ferret-UI 2在各类任务中的表现均优于Ferret-UI和GPT-4o，尤其是在用户指向和定位任务中，其准确率显著提高，远远超过了GPT-4o。

结语

Ferret-UI 2改善了跨不同平台的用户界面（UI）理解和交互，支持多平台，具有高分辨率图像编码和自适应网格化功能，并且改进了数据生成。

大语言模型在人机交互中的体验优化确实是非常重要的！

随着技术的不断进步,人工智能系统正在朝着更加智能、自然和无缝的交互方向发展。现代应用程序已经扩展到多模态交互,包括视觉和语音识别,使用户界面能够更全面地理解用户的多维度需求。而像Ferret-UI这样的工作，就是在多模态交互的基础上，将大语言模型与设备无缝缝合，为自然语言、人类语音等原始交互信号无障碍驱动设备提供技术基础～

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

大数据文摘

普及数据思维，传播数据文化

最新文章

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

GitHub 造假浪潮爆发！已有450万虚假星标，实锤造假将导致仓库限流

惊呆网友！微软论文意外“泄密”OpenAI模型参数引热议，GPT-4o mini仅8B？

现在的搜索引擎，快被AI垃圾淹成赛博粪坑了。

Sam Altman 剧透2025年OpenAI的大计划

强化学习之父 Rich Sutton 最新演讲：用「去中心化神经网络」应对深度学习局限性

OpenAI 突发公司剧变，将分裂为两家组织:一块营利，一块非营利

某机构：JSON 输出会让 AI 变笨！大佬：是你们太菜了

中国首次！高文院士获得 IEEE 社会基础设施创新奖

AI美女图成了过去式，“巨物宝可梦”才是新的流量密码。

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍。

尤瓦尔·赫拉利对话李开复：AI终将比我们更聪明，但它们不会有人性……

黄仁勋：扫过最多厕所的CEO

锤爆Sora，尺度最大，谷歌发布最强视频模型Veo2，叫板海螺可灵

中国科学家李春来、徐沪济上榜！2024《自然》十大科学人物揭晓

愤怒！AI 顶级会议 NeurIPS 现场，MIT演讲者现场歧视中国人

OpenAI长文爆料反击马斯克诉讼：“你不能通过诉讼获得AGI”

谷歌发布Gemini2.0，开启Agent新时代

体操运动，是所有AI视频最残酷的图灵测试。

刚刚，OpenAI Sora来啦！AI视频新纪元已开启

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

清华赵明国专访：坚守人形机器人二十载，从孤军奋战到百家争鸣

o1满血版上线，还有卖200美刀的Pro会员｜OpenAI直播第1天。

一张图，生成一个世界！李飞飞首个空间智能项目发布

新瓜不断！2024NeurIPS最佳论文，花落字节起诉的实习生

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

破例两篇！NeurIPS时间检验奖颁给了Ian的GAN、Ilya的Seq2Seq，实至名归

从Neuralink开始美国脑机接口研究迎来春天

AI又一突破！“眼神打字”更快更省力，研究登上Nature子刊

Sora被泄漏！艺术家联盟上书，奥特曼怒拔网线！

一手体验Kimi版“o1”模型，这就是最通人性的数学AI。

DeepSeek版o1与OpenAI的o1大PK，到底谁真的炸场了？

Science重磅：AI完成定向蛋白质进化，特性提升100倍

具身大模型，国内最大融资诞生

3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

微信公众号悄悄上线AI音色克隆，微信的一小步，却是AI的一大步。

吴恩达最新观点：LLM的下一个新兴方向是Agentic AI

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

Ilya承认Scaling Law到头了，Meta和谷歌寻找替代o1的方法

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

著名AI学者、天工智能首席科学家颜水成离开昆仑万维

马斯克和特朗普这对CP组合赢了后，科技界会变天吗？

人工智能专家获诺奖，是希望之光，还是灾难前奏？

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

你愿意和AI恋人共度一生吗？

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉