移动设备自动化新进展：科学家设计AI自动化框架，提升用户使用智能设备的便利性和效率

科技 2024-11-08 14:52 北京

你是否经常在处理手机任务时感到力不从心，恨不得同时“分身”去处理各种事务？

比如，查看邮件、设置日程提醒、开车时回复信息、点外卖、更新朋友圈、为手机充话费、清空购物车、订机票……

最近，西安交通大学蔡忠闽教授、宋云鹏副教授团队提出一个名为 VisionTasker 的移动设备任务自动化框架，它能够准确理解用户指令，并代替用户操作手机，可在移动设备（例如手机、平板电脑、车载终端等）自动化执行日常任务。

也就是说，用户只需要“动动嘴”，移动设备的任务便能自动“搞定”。

该框架结合了计算机视觉技术和大模型（LLM，Large Language Model），仅通过自然语言就可实现对用户界面（UI，User Interface）的深入理解和操作。

实验结果显示，VisionTasker 在 UI 表示和多任务自动化方面表现出高准确性和实用性。在 147 个真实世界任务中，特别是在处理复杂任务时，表现出超越人类的任务完成能力。

视频丨VisionTasker 简介（来源：该团队）

VisionTasker 在简化和加速移动设备的操作的同时，为包括老年人和残障人士等需要额外帮助的用户群体，提供了一种新的自动化解决方案。

具体而言，它在以下方面具有应用潜力：

第一，用于特定群体日常任务的自动化与辅助。结合语音交互手段，提高用户使用智能设备的便利性和效率，包括老年人、残障人士以及在驾驶/烹饪等活动中双手被占用的人群。

第二，可用于移动信息系统开发中的自动化测试，减少人工投入。

第三，提供动态的 APP 教程引导，结合帮助文档和用户的具体疑问，自动化演示 APP 的使用步骤，帮助用户快速理解和掌握应用程序的功能。

该研究有望显著提升这些用户群体/场景下的数字生活质量，使智能设备更加普及和易于使用。VisionTasker 向实现更包容、更便捷的数字环境迈出了重要一步。

近日，相关论文以《VisionTasker: 使用基于视觉的用户界面理解和大模型任务规划的移动任务自动化》（VisionTasker: Mobile Task Automation Using Vision Based UI Understanding and LLM Task Planning）为题，在 2024 年美国计算机协会用户界面软件与技术研讨会（UIST，Symposium on User Interface Software and Technology）上发表[1]。

西安交通大学宋云鹏副教授是第一作者，蔡忠闽教授担任通讯作者，论文作者还包括博士生卞艺衡、硕士生汤永涛和马桂雨。

据悉，为了推动该领域的发展和鼓励更多创新，研究人员已将相关代码开源。

图丨相关论文（来源：UIST）

仅需“动动嘴”，复杂的移动设备任务也能自动“搞定”

移动设备任务自动化技术作为一种高效、便捷的工具，能够帮助移动设备用户智能、自动地执行复杂或重复性任务，大幅简化操作过程，比如苹果公司的 Siri、小米公司的小爱同学等。

随着技术的不断进步和市场的扩大，近期，工业界在智能助手和 AI 自动化执行方面取得一系列进展。

6 月，苹果公司在全球开发者大会上推出了全新 AI 功能——苹果智能（Apple Intelligence）。

这项功能整合了日常聊天、个人日程规划等多种功能，使用户能够更加便捷地管理日常任务。例如，安排孩子的行程、检查时间安排是否合理等。

9 月，谷歌宣布 Google Cloud 的新功能，支持电脑上的自动化操作。

10 月，荣耀在发布 MagicOS 9.0 时，将 YOYO 智能助手升级为 YOYO 智能体，其可实现“一句话点咖啡”的功能。

同月，国内 AI 初创公司智谱发布了自主智能体 AutoGLM，旨在实现移动设备上的自动化执行。

与目前这些闭源商用方案不同，VisionTasker 团队在今年 7 月开源了他们的整套框架和界面理解视觉模型，为该领域的后续研发提供了参考依据。

图｜VisionTasker 框架示意图（来源：UIST）

VisionTasker 采用基于视觉的界面理解方案，并结合了大模型，通过自然语言就可实现对用户界面的理解和操作。

传统的任务自动化方法如基于演示的编程（PBD，Programming By Demonstration），存在受限于预定义功能的问题，限制了自动化的灵活性和泛化能力。因此，在 APP 版本更新或不同分辨率屏幕上可能会出现适配问题。

例如，星巴克 APP 版本更新后，尤其对界面有较大优化时，需要用户重新教一次手机助手如何点咖啡。

在界面理解方面，传统方法所借助的视图层次结构（View Hierarchy）文件包含了许多冗余信息，且界面元素的命名方式因 APP 开发者而异。

图丨基于视觉的 UI 理解过程（来源：UIST）

随着大模型的火爆，该课题组以开发能够完成更复杂任务的智能助手为出发点，开启了这项研究，在 2023 年 12 月完成了 VisionTasker 的原型系统，并首次公开论文。

VisionTasker 是一种创新的移动设备任务自动化解决方案，它整合了视觉驱动的 UI 理解能力和 LLM 任务规划功能，实现任务的分步自动化执行。

该方法的核心优势在于，无需依赖视图层次来解析 UI，也不需要大规模数据集来训练模型。

首先，它通过视觉分析技术处理 UI 截图，识别图形元素并将其转换成自然语言描述，为任务规划提供上下文信息。

随后，LLM 根据这些描述和用户目标，规划出完成任务所需的具体步骤。

卞艺衡表示，该方案有效避免了使用视图层次结构可能引发的可访问性问题和信息缺失，从而提升了对 UI 元素的理解能力和任务规划的准确性。

审稿人对该研究评价称：“这篇论文中有许多有趣的技术，特别是在框架第一阶段。这个阶段使用的方法可能会有益于一般的用户界面理解研究，例如如何检测活动标签、如何将元素分组为块等。”

图｜实验中使用的常见 UI 布局（来源：UIST）

VisionTasker 的优势主要体现在以下几方面：

第一，无需预示范，提高了自动化的应用范围。VisionTasker 结合了 LLM 的规划能力，利用模型的通用知识，能够灵活地处理多样化任务。

第二，适应性强，不受 APP 版本更新和屏幕分辨率变化的影响。

VisionTasker 直接识别 UI 内容，并将其转化为自然语言描述，使 LLM 能够根据通用知识做出决策，从而更好地适应 APP 的版本变化和不同设备的屏幕分辨率，提高了自动化任务的稳定性和可靠性。

第三，将 PBD 作为补充机制，提高对复杂任务的适应性。

在 VisionTasker 中，PBD 作为补充机制，在不了解如何执行任务的情况下，通过界面理解提取用户操作的自然语言表示，并在需要时提供给 LLM。

这种在更抽象层面上理解操作的方法，提高了对 APP 版本更新和不同分辨率的适应性，提升了复杂任务的适应性和成功率。

第四，任务完成率更高，并在 UI 理解和操作决策方面错误率更低。

该团队对 VisionTasker 进行了真实世界任务验证，其包括 147 个不同任务、42 个常用的 APP、12 个大类的场景实验。

结果显示，VisionTasker 在简单任务的完成率为 82%，而中等难度任务的完成率则为 67%。

在处理复杂任务时，完成率高于人类的 26%，达到 47%，且引入 PBD 机制后，整体完成率从 76% 提升至 94%。

图丨三种 UI 理解方法的比较分析（来源：UIST）

研究人员对比了现有的多模态大模型，实验证明，VisionTasker 的界面理解能力优于当时的 GPT-4V。

卞艺衡解释说道：“VisionTasker 的人机交互设计模仿了人类的推理过程，从而提高了自动化任务的直观性和易理解性。”

AI 有望完成更复杂的专业性任务

在下一研究阶段，研究人员将进一步优化界面理解能力，包括使用现有的多模态大模型框架、优化视觉信息（如 UI 截图）和语言信息（如用户指令）的处理。

一方面，他们计划增加对更多复杂手势的识别和支持，如滑动等；提供用户与自动化流程交互的接口，允许用户在任务执行过程中随时介入和调整。

另一方面，研究人员将开发风险评估机制，自动识别并提示用户确认涉及隐私泄露或高风险操作的界面。

同时，在自动化执行方案中纳入隐私保护措施，特别是对银行卡号、支付密码和收货地址等敏感信息进行特别处理和保护。

此外，研究更智能的人类意图理解的机制，对于违背人类意图的风险操作，例如彻底删除文件或执行付款等，系统应更智能地同用户协商处理。

据研究人员预计，未来 VisionTasker 有望在操作速度、准确性、任务执行方案优化以及提供人性化信息反馈和引导等方面表现优异，并可能在大规模自动化测试中达到或超越人类的水平。

卞艺衡指出，“当前的 VisionTasker 版本中，我们没有针对特殊群体的信息呈现和提示方式做优化设计，将来会积极地与企业合作，希望可支持执行过程的智能回撤、优化执行结果的呈现和反馈模式等。”

图丨该论文主要作者，从左至右依次为：汤永涛、宋云鹏、卞艺衡、蔡忠闽和马桂雨（来源：该团队）

蔡忠闽、宋云鹏课题组的研究方向是混合增强智能和智能人机交互，旨在构建复杂任务下的人机合作框架，并探索人机之间的双向理解和任务协同。

自 2015 年起，该课题组深入研究人类和 AI 的交互、合作，参与了国家“新一代人工智能”重大专项项目，探索大电网调控中的混合增强智能。

此前，他们提出了一种基于鼠标和眼动联合分析的方法来理解用户意图，并开发了人机对话系统原型，可以进行人机合作的电网复杂计算。

其围绕人机行为开展研究，他们还研发了基于鼠标行为预测人格（如 E 人、I 人）的方法；以及根据手机触摸行为的年龄预测技术，可用于儿童电子内容保护。

与工业界合作方面，该实验室通过数据驱动的洞察，实现了车辆与用户之间更高效、更简洁的交互。

他们为国内某车企提供了基于人机混合智能的海量行车日志数据分析挖掘方法，实现了用户个性化行为模型自动化构建、意图识别和功能操作推荐。

研究人员希望在电力系统的调度控制等专业领域，也能通过人机合作简化专业性任务，使专业人士能够轻松指派 AI 完成复杂任务。

“未来，智能助手的发展有望重构人们与手机交互的范式，引领移动设备使用方式的革命性改变。”卞艺衡说。

参考资料：

1.Yunpeng Song, Yiheng Bian, Yongtao Tang, Guiyu Ma, and Zhongmin Cai. VisionTasker: Mobile Task Automation Using Vision Based UI Understanding and LLM Task Planning. In The 37th Annual ACM Symposium on User Interface Software and Technology (UIST'24), 2024. https://doi.org/10.1145/3654777.3676386

2.https://github.com/AkimotoAyako/VisionTasker

运营/排版：何晨龙、刘雅坤

01/ 科学家制备高性能水凝胶半导体，兼具高迁移率和高柔软度，能实现生物组织与机器间的信息传输

02/ 大卫贝克华人学生打造蛋白质新技术，摆脱对于天然配体的依赖，实现靶向性蛋白降解

03/ 科学家提出合成手性硫亚胺新方法，兼具化学选择性和对映选择性，为药物研发提供合成新路径

04/ 与人脑静息态信号相似度达93%，科学家研发数字孪生脑平台，实现对人脑结构和功能的模拟

05/ 水也能用来造芯片？科学家用液态水分子制备神经网络计算芯片，或为AI计算提供新方向

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759614&idx=1&sn=b24f25990b68c8e5e4722b844022d109

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉