苹果 AI 新突破:Ferret-UI 2 跨平台 UI 理解

文摘   科技   2024-10-27 08:14   上海  



在数字化时代,用户界面(UI)是我们与数字系统互动的桥梁。苹果公司最新推出的Ferret-UI 2,一个多模态大语言模型(MLLM),在跨平台UI理解方面取得了重大进展,支持iPhone、Android、iPad、Webpage和AppleTV等多个平台。

随着设备的多样化,如何让计算机系统理解和响应不同平台上的用户意图成为了一个挑战。Ferret-UI 2通过支持多平台、高分辨率感知和先进的任务训练数据生成,解决了这一难题。


Ferret-UI 2的创新之处

多平台支持:能够无缝地在各种设备上工作。

高分辨率感知:通过自适应网格方法,保持对UI截图原始分辨率(Resolution)的感知能力,提高视觉元素识别的准确性。

高质量训练数据:利用GPT-4o和视觉提示技术,生成更高质量的训练数据,提升模型性能和泛化能力。

图 5:使用 GPT-4o 为多轮感知 QA 和多轮交互 QA 生成任务数据的视觉提示示例。每个 UI 小组件都用角样式边界框进行注释,其中只有小组件的角由小线突出显示,而框的其余部分则保持打开状态。这种简约的边界样式伴随着一个放置在其中一个角附近的唯一数字标签,使其易于识别和引用特定的 UI 小部件,以便进一步交互或感知分析。

实验结果显示,Ferret-UI 2在多个基准测试中显著优于前代模型,并展现了强大的跨平台迁移能力,为构建通用的多模态代理奠定了基础。


结语

Ferret-UI 2的研究不仅展示了苹果公司在AI领域的技术实力,也为未来的人机交互提供了新的可能性,预示着更智能、无缝的跨平台用户体验即将到来。


感谢阅读!欢迎留言、点赞、转发。


相关报道

苹果在深圳开设最大海外研发中心,强化本地合作与创新
方形屏幕:苹果公司或将推出新型家庭设备,可能会命名为 HomeHub
苹果智能与 ChatGPT 联手:2亿用户只是开始!
9月9:苹果会给我们带来什么?
苹果机器人:富士康助力,打造智能家居新纪元
蒂姆·库克:苹果的隐形外交官与首席说客——揭秘苹果CEO如何用非传统手段影响全球政策
苹果深圳超级实验室即将震撼登场
经典游戏新时代:Delta 模拟器 v1.6 版本革新体验,打造终极复古游戏盛宴
都有哪些:网传的苹果2024秋季新品
最新支持的车型列表来了:你的iPhone,也是你的车钥匙
放心使用:苹果电脑版 ChatGPT 已修复安全问题




图文收集自网络,非本号观点;如有侵权,请联系删除

更多AI热点资讯,请每日关注AI今说~

AI今说
每天发布AI相关资讯,让您了解AI世界的最新发展。同时,周一至周五关注AI在社会各领域的应用与发展(论文解读)。
 最新文章