首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

【最新开源】Aria-UI：面向GUI智能交互的多模态模型，超越Claude 3.5

文摘 2025-01-09 16:04 广东

近日，香港大学与 Rhymes AI 联合推出的 Aria-UI，一款采用纯视觉理解的多模态模型（LMM），凭借其令人瞩目的性能表现，迅速成为AI技术圈中的焦点，甚至超越了Claude 3.5。

Aria-UI

项目主页：https://ariaui.github.io
Hugging Face在线demo：https://huggingface.co/spaces/Aria-UI/Aria-UI
GitHub仓库：https://github.com/AriaUI/Aria-UI
论文链接：https://arxiv.org/abs/2412.1702

Aria-UI 是一个轻量级且快速的混合专家(MoE)模型，每个token激活 3.9B 参数，支持超高分辨率，能够高效编码不同大小和纵横比的 GUI 输入。

Aria-UI 是一个专注于图形用户界面（GUI）指令的可视化定位项目。它能够处理多样化的定位指令，适应动态场景，并与多种规划 Agent 配合使用。该项目通过利用历史输入（包括纯文本或文本-图像交错格式）来提高定位准确性。

Aria-UI 通过开创性的「纯视觉理解」方案彻底改变了这一现状，无需任何后台数据支持，仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。这种新的设计不仅简化了部署流程，更为跨平台自动化开辟了全新范式。

在当前的技术评测中，Aria-UI 展现出令业内瞩目的能力。

在评估AI自动化操作能力的权威基准测试中，Aria-UI 配合 GPT-4o 展现出卓越表现：AndroidWorld 榜单排名第一（44.8%），OSWorld 榜单排名第三（15.2%）！

在 ScreenSpot 基准测试中，Aria-UI 实现了 82.4% 的最优平均准确率，特别是在文本元素定位任务上表现尤为突出。

此外，在移动端和网页端的多种复杂场景下，Aria-UI 同样展现了其强大的适应性和泛化能力。通过连续的性能测试，Aria-UI 不仅超越了 Claude 3.5 等传统方案，更通过其纯视觉输入展示了智能助手的未来发展潜力。

参考：
https://ariaui.github.io

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

最新开源：Dispider 实现视频LLMs的主动实时交互！又一个媲美 o1 的“开源推理模型”来了！

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】Aria-UI：面向GUI智能交互的多模态模型，超越Claude 3.5

【最新开源】英伟达推出 Cosmos 世界基础模型平台，支持物理 AI 系统开发

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

最新开源：全球首个半导体专用大模型SemiKong 70B发布！全球首个中文安全领域事实性基准评测集！

最新开源：国产大模型DeepSeek-V3来了！阿里云开源首个多模态推理模型QVQ！腾讯推出新型翻译模型 DRT-o1

端侧AI | 小模型 | SLM（11月-12月）

最新大模型：香港多所高校推出多模态大模型Lyra！IBM发布Granite3.1模型！

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

最新端侧AI ：阿联酋TII发布Falcon3！AI Safeguard联合CMU开发Ivy-VL！微软发布超强小模型Phi-4

最新开源：书生·万象多模态大模型InternVL 2.5开源！多模态大模型Maya，指令微调扩展至支持8种语言！

【最新大模型论文】清华刘知远团队提出大模型“密度定律”！MatchVision：足球领域的第一个视觉语言基础模型！...

最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言模型PaliGemma 2！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

最新开源：腾讯上线迄今最大视频生成开源大模型！全球首个去中心化训练的10B级模型已正式开源！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

最新开源：阿里开源QwQ-32B-Preview推理大模型！月之暗面Kimi开源大模型推理架构 Mooncake！

最新开源：「天工大模型4.0」o1版来了！科研神器 OpenScholar 来了！

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

最新开源：阿里巴巴开源推理模型 Marco-o1！智子引擎开源多模态MoE大模型 Awaker2.5-VL!

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

最新开源：边缘设备优化的多模态模型Omnivision！通义灵码团队开源Lingma SWE-GPT！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

最新开源：腾讯再开源两款最新大模型！SAM2Long来了，无需训练大幅提升SAM 2!

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

最新开源：Meta和HuggingFace双双开源「小模型」！超快速、超高性能...

刚刚，ChatGPT变身”AI搜索”，免费用！

最新大模型论文 | 智源提出全新扩散架构OmniGen！目标检测最新SOTA模型D-FINE！

最新开源：智谱发布GLM-4-Voice情感语音模型！Mono-InternVL模型让多模态AI逆袭！

最新开源：Genmo 开源最大视频生成模型 Mochi 1！Stable Diffusion 3.5 全家桶来了！

最新开源：DeepSeek发布Janus，统一多模态理解！复旦、百度联手打造全新AI模型Hallo2！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

最新开源：智源BGE登顶Hugging Face月度榜！北大&快手开源Pyramid Flow！Rhymes AI开源Aria！

最新开源：开源软件 Gradio 上新5大功能！字节跳动发布 GR-2 机器人大模型！全新三维生成模型3DTopia-XL！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉