深度 | AI 何时代替你操作OS?

文摘   2024-11-23 21:44   北京  

机和电脑作为我们日常生活中最常用的工具,其操作的便捷性和智能化程度备受关注。然而,传统的手动操作方式,现在我们嫌弃它效率低下且缺乏灵活性。


为了解决这一问题,各大科技公司纷纷发力,交出了很漂亮的答卷。Anthropic 发布了 Claude 3.5 Sonnet 升级版,带来了具有革命性功能的 Computer Use;智谱发布了 AutoGLM,它可模拟人类操作手机,完成订酒店、发微信,还是写点评等任务;华为小艺、vivo OriginOS 5、荣耀MagicOS9.0等,声势浩大,宣布“手机自动驾驶时代即将到来”。于是有人展臂高呼——漫威电影里的贾维斯成真了。


但,贾维斯真的来了吗?


Computer Use的实用性似乎并没有Demo里展示的那么震撼,AutoGLM的场景有限性和准确程度也影响了不少体验。


我们有理由相信,随着科技的不断进步,这些问题终将得到解决。那么,在这个过程中,我们又该如何看待和应对这些新技术呢?本文旨在探讨 AI 辅助操作 OS 的边界。






速览

操作系统辅助操作领域一直在演变,从早期的形态逐步发展出多种 AI 辅助操作 OS 方式。本文将沿着技术发展脉络,详细解读 RPA、VLM + Agent、“AI OS” + 第三方 Agent 等方式,介绍它们产生的背景、原理、应用场景、面临的问题以及行业发展情况。


下面按技术发展顺序,来具体了解几种重要的 AI 辅助操作方式。


RPA

机器人流程自动化


RPA 全称 “Robotic Process Automation”,通过软件自动化模拟人工进行计算机终端操作。它依靠图像识别OCR、自然语言处理NLP、屏幕抓取等技术,能完成像打开应用程序、输入数据、点击按钮、复制粘贴、数据提取等操作,实现对重复性、基于规则任务的自动化处理。


以往在办公及各类业务场景里,有大量重复性、规则性很强的计算机操作任务,人工去做不仅效率低,还容易出错。为解决这个问题,RPA 应运而生,它旨在用软件自动化的方式,帮人们处理这些繁琐任务,提高效率。


RPA代表产品|图源:产业智能

广为人知的“按键精灵”|图源:产业智能官


只要工具具备脚本生成、编辑和执行能力,在 RPA 里就能当作 “机器人” 来替代人工工作。

Mr.

RPA就是虚拟点击吗?

不是。

RPA(Robotic Process Automation,机器人流程自动化)并不仅仅是“虚拟点击”,但虚拟点击是它的一部分。RPA的核心目标是通过模拟人类在计算机上的操作,自动执行重复性、规则性强的任务,以提高效率、减少错误。

Mr.

举个例子看看。

以传统工作中高频出现的财务报销场景为例。

为了实现财务报销流程自动化,RPA 作为整体的业务流程自动化技术,负责协调和执行从数据提取、系统登录、数据录入到提交审核等一系列的操作,以实现整个报销流程的自动化。

而虚拟点击则是 RPA 在与财务系统界面进行交互过程中,针对诸如点击菜单选项、选择下拉菜单中的值、按下提交按钮等需要进行点击操作的特定环节所采用的一种具体操作方式,是 RPA 实现其自动化功能、完成业务流程自动化的重要手段之一。



⬆️ 点击问题,查看AI给你的答案


不过,RPA 在面对高度智能化、需要灵活应变的复杂任务时就有局限了,它更适合处理标准化、逻辑清晰的常规任务。



VLM 

+ Agent


随着业务场景变得复杂,人们对计算机操作智能化的要求不再局限于简单的重复任务自动化,传统 RPA 难以满足更复杂、多变的需求了。于是,VLM + Agent方案应运而生,它能在更复杂的视觉和语言交互环境中实现自主操作,应对更多样的任务情况。


VLM

视觉语言模型(Visual Language Models,VLM),不仅依赖于HTML或OCR结果等纯文本输入,还可以直接感知视觉GUI信号。


VLM + Agent方案里,Agent是核心部分,虚拟点击给了它“手脚”。VLM Agent集成了视觉理解、语言处理和智能决策能力,是能在视觉和语言多模态环境中自主执行任务、与外界交互且不断学习进步的智能实体。通过用轨迹数据训练,它成为了GUI智能体,再结合操作封装在Tools里以及虚拟点击能力,Agent具备了较强的自主操作能力。


智谱AutoGLM可以看作是VLM Agent方案的一个典型例子。它利用安卓系统无障碍服务权限获取手机屏幕信息,然后分析、规划任务,实现对手机常用操作的模拟执行,让手机操作更智能。


点我展开智谱AutoGLM

能力范围:

目前支持的场景见下图。

图源:智谱AutoGLM内测文档


AutoGLM在部分应用的简单任务成功率如下。

图源:智谱官网


突破:

AutoGLM基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」,在Phone Use和Web Browser Use上都取得了大幅的性能提升。例如,在 AndroidLab评测基准上,AutoGLM显著超越了GPT-4o和Claude-3.5-Sonnet的表现。


图源:智谱官网


涉及到的这两个技术解决了大模型作为智能体时的两个关键挑战:


挑战一:“动作执行”不够精确


训练大模型智能体的一大难题,在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练“动作执行”和“任务规划”能力,受制于轨迹数据获取成本高昂,数据总量严重不足,导致需要高精度的动作执行能力训练不充分。


为了解决这一问题,AutoGLM引入了「基础智能体解耦合中间界面」设计,将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。例如,在手机上点外卖,需要点击“提交订单”按钮时,对比传统和“中间界面”方案如下:

图源:智谱官网


挑战二:“任务规划”不够灵活


另一个主要挑战在于,GUI智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时,智能体需要具备灵活的即时规划和纠正能力。智谱以Web浏览器作为实验环境,研发了一种「自进化在线课程强化学习框架」以在真实在线环境中,从头开始学习和提升大模型智能体在Web和Phone环境中的能力。


通过引入自进化学习策略,模型不断自我考察、鞭策、提升。基于该方法训练的开源版 GLM-4-9B,就可以在WebArena-Lite评测基准中相对 GPT-4o 提升超过 160%,达到总体 43% 的任务成功率


项目地址丨https://xiao9905.github.io/AutoGLM



“AI OS” 

+ 第三方 Agent


这是一个更具不确定性但理论可实行性较高的方案,我们以实现手机购物退款的需求为例。


首先“贾维斯”们单独向第三方争取更多的权限难度较大。当辅助用户时,“贾维斯”们需要打开购物App,进行更多操作,这一步需要向争取购物App请求的操作权限,考虑到数据隐私等因素,各个应用愿意开放的API数量有限。在“贾维斯”们向购物App发送代码指令时,应用的内部对于“贾维斯”们是黑盒,他们不知道朝哪里发送什么样的指令,会得到什么样的结果。各个应用的格式形式都不一样,哪怕获得了发送权限,为每个应用去单独设计代码指令的工作量也比较大。


手机助手连接第三方应用的Agent可操作性更强。在手机/硬件助手获取要退款的指令后,可以打开购物App的Agent,让其接手处理退款任务。但目前智能体生态建设处于较早阶段。手机厂商如vivo、荣耀还在进行不断丰富意图识别等手机智能化的基建工作。近期,手机厂商的智能体生态共建还处于讨论行业的接入标准和鼓励大家加入生态阶段。


vivo副总裁、OS 产品副总裁、vivo AI全球研究院院长周围近期表示:“我们今年发布了vivo关于智能体的白皮书。但我们不是要独自构建生态,而是要共建。下个月,我们会讨论各家方案,确定手机行业标准,然后与互联网厂商对接,最后上升到工信部、信通院等行业标准。”



补充

Claude Computer Use


最后提这个,是因为觉得Anthropic给我们带来一个使用Prompt、Tool Use非常漂亮的案例。


‌Claude的Computer Use包括以下功能‌:

  1. 自动化操作电脑‌:Claude可以通过Computer Use功能像人一样控制电脑,执行各种任务,包括填写表格、搜索资料、编写代码、修改bug、发布网站等‌。

  2. 自动化编程‌:Claude可以在网页上生成代码,并在网页上运行效果。用户还可以要求Claude将代码下载到本地,通过VS Code运行,Claude会自动处理未安装的软件等问题‌。

  3. 自动化任务执行‌:Claude可以执行复杂的任务,如规划出行路线、查找信息等,无需人工干预。‌


简而言之就是,可以让Claude像人一样,控制你的电脑。


Computer Use原理是在System Prompt里加入Tools Section,方便随时Tool Call。这里的Computer Use是特殊的Tool Use形式,工具以及被预设好,不由用户自定义。Claude 3.5 Sonnet模型虽不直接控制计算机,但能理解屏幕内容。比如指示Claude打开网站并执行操作,它会为可用工具生成指令,借助Unix shell工具和xdotool库模拟键盘、鼠标动作来完成操作。


图源:Claude官方文档


但Tool Use存在可靠性问题。在生产环境中识别何时使用何种Tool的准确性还是不够高(受制于参数量和Transformer架构的问题)即使后面堆砌数据量,也很难做到100%准确。


但偏偏这个问题影响的是结果的Reliable,是我们在使用Computer Use时的关键卡点。此外,关于Computer Use,市面上也存在一些对其实用性的质疑,比如认为它并没有某些擅长使用快捷键的程序员在实际使用时切换快捷键方便。


私以为,Anthropic发布Computer Use目前的探索意义大于其实用价值,它为后来者们指明了一条看似光明的道路:怎样使用Prompy、怎样使用Tool Use、如何将其封装到产品中,是非常具有想象力和参考意义的一个实践案例。


总之,上述这些“贾维斯”的实现路径各有特点,在不同方面共同推动了操作系统操作向智能化、便捷化发展。虽然目前的它们都面临不少的挑战,同时行业生态也有待完善,但随着技术进步,期待我们很快就能有更好的操作体验。


贾维斯和萨曼莎的脚步已经越来越近了。

END


01Founder
一群在0与1之间构建属于自己未来的人
 最新文章