【最新开源】Aria-UI:面向GUI智能交互的多模态模型,超越Claude 3.5

文摘   2025-01-09 16:04   广东  

近日,香港大学与 Rhymes AI 联合推出的 Aria-UI,一款采用纯视觉理解的多模态模型(LMM),凭借其令人瞩目的性能表现,迅速成为AI技术圈中的焦点,甚至超越了Claude 3.5。


Aria-UI
  • 项目主页:https://ariaui.github.io

  • Hugging Face在线demo:https://huggingface.co/spaces/Aria-UI/Aria-UI

  • GitHub仓库:https://github.com/AriaUI/Aria-UI

  • 论文链接:https://arxiv.org/abs/2412.1702

Aria-UI 是一个轻量级且快速的混合专家(MoE)模型,每个token激活 3.9B 参数,支持超高分辨率,能够高效编码不同大小和纵横比的 GUI 输入。

Aria-UI 是一个专注于图形用户界面(GUI)指令的可视化定位项目。它能够处理多样化的定位指令,适应动态场景,并与多种规划 Agent 配合使用。该项目通过利用历史输入(包括纯文本或文本-图像交错格式)来提高定位准确性。

Aria-UI 通过开创性的「纯视觉理解」方案彻底改变了这一现状,无需任何后台数据支持,仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。这种新的设计不仅简化了部署流程,更为跨平台自动化开辟了全新范式。

在当前的技术评测中,Aria-UI 展现出令业内瞩目的能力。

在评估AI自动化操作能力的权威基准测试中,Aria-UI 配合 GPT-4o 展现出卓越表现:AndroidWorld 榜单排名第一(44.8%),OSWorld 榜单排名第三(15.2%)!

在 ScreenSpot 基准测试中,Aria-UI 实现了 82.4% 的最优平均准确率,特别是在文本元素定位任务上表现尤为突出。

此外,在移动端和网页端的多种复杂场景下,Aria-UI 同样展现了其强大的适应性和泛化能力。通过连续的性能测试,Aria-UI 不仅超越了 Claude 3.5 等传统方案,更通过其纯视觉输入展示了智能助手的未来发展潜力。


参考:
https://ariaui.github.io

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章