我是元峰,持续分享好用的AI工具实操教程,让AI搞钱更简单。昨天 Anthropic 又给我们带来了一个重磅消息 —— Computer Use 功能正式发布!这意味着什么?简单来说,AI 现在真的能像人类一样操作电脑了!这一步,可能让我们距离真正的 AGI(通用人工智能)又近了一步。你的 AI 助手不再局限于对话框,而是可以帮你:- 智能搜索并观看 YouTube 视频(还能自动跳过广告!)
想要体验一下这项新功能?别急,你需要做一些简单的准备:- 一台能运行 Docker 的电脑。我自己用的是 Windows,理论上只要能跑 Docker 都可以。
- Claude 的官方 API Key,可直接去官网购买。
首先,你需要下载安装 Docker,接着登录,确保服务启动成功。然后,就正常安装就好了。完成之后本地打开,登陆上去之后,啥也不用管。左下角这边需要服务启动成功。
在这之后,Anthropic 官方提供了一个 Python 的 Demo,你可以将代码其下载到本地运行。https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo代码拉取到本地后,在当前Python环境下安装依赖(建议3.11以上)pip install -r dev-requirement.txt
最后,按照官方文档设置环境变量,启动 Docker。为了方便大家,可以直接使用下面的启动命令:(key 可以启动后再设置)docker run -v ${env:USERPROFILE}\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
当镜像拉取完成后,按照提示访问:http://localhost:8080并在侧边栏中输入你的 API Key。这样,你的“AI 助理”就准备好了!开干。
为了展示这项功能的实际效果,我做了一个简单的实验:让 AI 查询过去一个月每天的比特币(BTC)价格并将其记录在表格中。在 AI 执行任务的过程中,它展示了多个关键动作。以下是提炼出的关键动作和实现原理:
Claude 首先通过 GUI交互,打开 Firefox 浏览器,并尝试访问加密货币数据网站(如 CoinGecko 和 CoinMarketCap)。在用户界面中,它通过模拟鼠标移动和点击,操作浏览器完成输入 URL、加载页面等任务。当直接访问网站失败时,Claude 自动切换策略,决定使用命令行工具 curl 来从 CoinGecko 的 API 直接获取数据,而不是通过浏览器交互。这表明它能够检测并应对不同的执行路径。Claude 使用curl命令从 CoinGecko 的 API 获取比特币的历史价格数据。数据以 JSON 格式返回,包含价格、市场价值和交易量等信息。Claude 将数据存储在本地文件系统中(/tmp/btc_price.json)。AI 随后运行 Python 脚本,将抓取到的 JSON 数据解析为可读的表格。通过将 Unix 时间戳转换为可读的日期格式,并对价格进行格式化处理,它成功创建了包含日期、价格、市场价值和 24 小时交易量的 DataFrame。5. 将数据存储在 Excel 表格中(人工指令)到这一步它停止了,我手动输入了指令:“把这些数据存储在Excel表格中”,Claude 使用 Python 库(如pandas和openpyxl)将处理后的数据写入 Excel 文件。这一步通过用户输入的指令生成了 Excel 表格,并自动调整列宽和格式,以确保数据清晰易读。Claude 执行了必要的 Python 脚本,按照用户指令,将生成的表格存储为 Excel 文件,并保存到指定路径(/tmp/比特币价格数据.xlsx)。该文件中包括日期、价格、市场价值和交易量等信息。根据人工辅助的指令,Claude 使用系统自带的 LibreOffice 工具打开生成的 Excel 文件。它通过虚拟显示环境(例如使用DISPLAY=:1)来模拟在本地机器上查看文件的操作,并截图确认文件已成功打开。未来,或许 AI 可以帮我们完成更多复杂的任务,解放我们的双手和大脑,真正做到高效、便捷的智能化操作。
GUI 自动化:Claude 通过模拟鼠标移动、点击和键盘输入操作浏览器,利用操作系统级的输入控制完成图形界面的自动化操作。这涉及到操作系统中对输入设备的调用。命令行操作:当 Claude 检测到 GUI 操作失败时,它切换到命令行,通过bash
命令执行数据抓取任务。命令行交互是通过系统 shell(例如bash)来运行的。API 请求与数据处理:Claude 使用 API 请求获取了结构化的 JSON 数据,并通过 Python 脚本对这些数据进行处理。它利用pandas
库解析 JSON,创建表格,并进一步格式化数据。文件操作:在人工辅助的指令下,Claude 使用openpyxl
库生成 Excel 文件,并自动调整列宽,保存到指定路径。然后通过 LibreOffice 打开 Excel 文件并显示在用户面前。通过这些关键步骤和人工辅助指令,Claude 完成了从数据抓取、处理到文件生成与查看的复杂任务。
让我们来看看一些真实的使用案例,这些案例会让你感受到 AI 真正"活"了起来:想象一下,你只需要说:"go to youtube and play never gonna give you up",AI 就会自动:- 搜素“never gonna give you up”
应用场景:你想快速学习新课程或查找教程,Claude 可以帮你在几秒内跳过广告并直接进入正片。
首先,使用 firecrawl 访问 https://www.anthropic.com/。接下来使用 firecrawl 抓取他们的招聘页面并找到一个职位。使用 Firefox 导航到职位页面,点击“立即申请”按钮,直到看到一个表单。然后找到“你为什么想在 Anthropic 工作”文本框,并根据抓取的内容在表单框中输入一个优秀的回答。
最让人惊喜的是,这些任务的完成时间都在分钟以内就完成了!应用场景:HR 或招聘者可以通过 Claude 完成批量处理任务,个人用户则可以快速高效地提交各种申请表格。
看看这个真实案例:一位用户要求Claude在亚马逊上购买一本日本法律书籍《おとな六法》(成年人法律手册)。Claude能够:应用场景:对日常工作繁忙的人来说,AI 帮助在线购物,极大地节省了时间,特别是在需要查找具体商品时。
在网站数据抓取方面,Claude 展示了惊人的能力:有开发者已经通过 Replit 模板展示了如何让 Claude 抓取整个网站的内容,效率惊人!应用场景:企业可以利用 AI 进行市场调研、竞争对手分析,科研人员则可以抓取特定领域的数据,为研究提供有力支撑。
这个案例特别有趣:有人让Claude查找“TypingMind的创始人是谁”。看看AI是如何工作的:应用场景:无论是学生、研究者,还是需要快速了解某一特定信息的专业人士,Claude 都能成为他们强大的知识助手。以上这些“Computer Use” 功能展示了 AI 在实际操作中所能达到的惊人高度。从日常生活到工作场景,AI 可以执行多种复杂任务,并以接近人类的方式与计算机交互。这不仅仅是一个功能更新,而是迈向 AGI 的关键一步。未来,当这一技术与更强大的 GPT-5 或 Claude-4 模型结合,并随着成本下降、速度提高,我们将在工作、生活、娱乐等各个领域看到 AI 带来的全面变革。这些进展都预示着,我们正在见证 AI 能力的指数级提升。Computer Use 的发布,可能只是这场革命的开始。
记得联系元峰,gptfeng,可找我领取精心整理和筛选的【元峰专属AI工具箱】、【AI数字人定制指南】、【120 份 AI 副业 SOP 资料】。如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。