当AI学会用电脑后,人类都坐不住了,Claude3.5操控计算机保姆级教程

文摘   2024-10-24 17:46   广东  
点击上方蓝字👆关注元峰AGI,一起AI破局!
我是元峰,持续分享好用的AI工具实操教程,让AI搞钱更简单。
大家好,我是元峰。
昨天 Anthropic 又给我们带来了一个重磅消息 —— Computer Use 功能正式发布!这意味着什么?简单来说,AI 现在真的能像人类一样操作电脑了!
这一步,可能让我们距离真正的 AGI(通用人工智能)又近了一步。你的 AI 助手不再局限于对话框,而是可以帮你:
  • 请你查询近一个月每天BTC的价格,并记录在表格中
  • 智能搜索并观看 YouTube 视频(还能自动跳过广告!)
  • 帮你在亚马逊上挑选并购买商品
  • 自动填写各类申请表格
  • 进行网页数据抓取和分析


01

如何开始体验



想要体验一下这项新功能?别急,你需要做一些简单的准备:
  1. 一台能运行 Docker 的电脑。我自己用的是 Windows,理论上只要能跑 Docker 都可以。
  2. Claude 的官方 API Key可直接去官网购买。


安装 Docker


安装过程其实非常简单,去官网下载安装包。
首先,你需要下载安装 Docker,接着登录,确保服务启动成功。
然后,就正常安装就好了。完成之后本地打开,登陆上去之后,啥也不用管。左下角这边需要服务启动成功。


下载镜像


在这之后,Anthropic 官方提供了一个 Python 的 Demo,你可以将代码其下载到本地运行。
https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
代码拉取到本地后,在当前Python环境下安装依赖(建议3.11以上)
打开终端窗口:
pip install -r dev-requirement.txt


启动 Docker


最后,按照官方文档设置环境变量,启动 Docker。为了方便大家,可以直接使用下面的启动命令:(key 可以启动后再设置)
docker run -v ${env:USERPROFILE}\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
当镜像拉取完成后,按照提示访问:http://localhost:8080

并在侧边栏中输入你的 API Key。这样,你的“AI 助理”就准备好了!开干。



02

AI真的可以这样用?




为了展示这项功能的实际效果,我做了一个简单的实验:让 AI 查询过去一个月每天的比特币(BTC)价格并将其记录在表格中。
先说结果,毫无意外的,它帮我实现了。
这是最初的指令
这是最终的结果

这是完整的过程演示(2倍速)
在 AI 执行任务的过程中,它展示了多个关键动作。以下是提炼出的关键动作和实现原理:


关键动作


1. 打开浏览器并访问网站
Claude 首先通过 GUI交互,打开 Firefox 浏览器,并尝试访问加密货币数据网站(如 CoinGecko 和 CoinMarketCap)。在用户界面中,它通过模拟鼠标移动和点击,操作浏览器完成输入 URL、加载页面等任务。

2. 处理网站访问失败
当直接访问网站失败时,Claude 自动切换策略,决定使用命令行工具 curl 来从 CoinGecko 的 API 直接获取数据,而不是通过浏览器交互。这表明它能够检测并应对不同的执行路径。
3. 使用API抓取数据
Claude 使用curl命令从 CoinGecko 的 API 获取比特币的历史价格数据。数据以 JSON 格式返回,包含价格、市场价值和交易量等信息。Claude 将数据存储在本地文件系统中(/tmp/btc_price.json)。
4. 解析和处理数据
AI 随后运行 Python 脚本,将抓取到的 JSON 数据解析为可读的表格。通过将 Unix 时间戳转换为可读的日期格式,并对价格进行格式化处理,它成功创建了包含日期、价格、市场价值和 24 小时交易量的 DataFrame。
5. 将数据存储在 Excel 表格中(人工指令)
到这一步它停止了,我手动输入了指令:“把这些数据存储在Excel表格中”,Claude 使用 Python 库(如pandas和openpyxl)将处理后的数据写入 Excel 文件。这一步通过用户输入的指令生成了 Excel 表格,并自动调整列宽和格式,以确保数据清晰易读。


6. 生成 Excel 文件
Claude 执行了必要的 Python 脚本,按照用户指令,将生成的表格存储为 Excel 文件,并保存到指定路径(/tmp/比特币价格数据.xlsx)。该文件中包括日期、价格、市场价值和交易量等信息。
7. 在 Excel 中打开这份文件(人工指令)
根据人工辅助的指令,Claude 使用系统自带的 LibreOffice 工具打开生成的 Excel 文件。它通过虚拟显示环境(例如使用DISPLAY=:1)来模拟在本地机器上查看文件的操作,并截图确认文件已成功打开。

到这里,整个任务就完成了。
未来,或许 AI 可以帮我们完成更多复杂的任务,解放我们的双手和大脑,真正做到高效、便捷的智能化操作。


实现原理


GUI 自动化:Claude 通过模拟鼠标移动、点击和键盘输入操作浏览器,利用操作系统级的输入控制完成图形界面的自动化操作。这涉及到操作系统中对输入设备的调用。
命令行操作:当 Claude 检测到 GUI 操作失败时,它切换到命令行,通过bash命令执行数据抓取任务。命令行交互是通过系统 shell(例如bash)来运行的。
API 请求与数据处理:Claude 使用 API 请求获取了结构化的 JSON 数据,并通过 Python 脚本对这些数据进行处理。它利用pandas库解析 JSON,创建表格,并进一步格式化数据。
文件操作:在人工辅助的指令下,Claude 使用openpyxl库生成 Excel 文件,并自动调整列宽,保存到指定路径。然后通过 LibreOffice 打开 Excel 文件并显示在用户面前。

通过这些关键步骤和人工辅助指令,Claude 完成了从数据抓取、处理到文件生成与查看的复杂任务。


03

更多应用案例



让我们来看看一些真实的使用案例,这些案例会让你感受到 AI 真正"活"了起来:

1. 搜索并找到 YouTube 视频,跳过广告


想象一下,你只需要说:"go to youtube and play never gonna give you up",AI 就会自动:
  • 打开浏览器访问 YouTube
  • 搜素“never gonna give you up
  • 跳过广告(人工指令)
  • 开始播放你想要的内容
应用场景:你想快速学习新课程或查找教程,Claude 可以帮你在几秒内跳过广告并直接进入正片。


2. 填写工作申请表单


Claude 现在可以帮你自动填写求职申请表。
首先,使用 firecrawl 访问 https://www.anthropic.com/。接下来使用 firecrawl 抓取他们的招聘页面并找到一个职位。使用 Firefox 导航到职位页面,点击“立即申请”按钮,直到看到一个表单。
然后找到“你为什么想在 Anthropic 工作”文本框,并根据抓取的内容在表单框中输入一个优秀的回答。
最让人惊喜的是,这些任务的完成时间都在分钟以内就完成了!
应用场景:HR 或招聘者可以通过 Claude 完成批量处理任务,个人用户则可以快速高效地提交各种申请表格。


3. 在亚马逊上购买书籍


看看这个真实案例:一位用户要求Claude在亚马逊上购买一本日本法律书籍《おとな六法》(成年人法律手册)。Claude能够:
  • 自主打开Firefox浏览器
  • 导航至亚马逊日本站
  • 精确搜索指定书籍
  • 添加到购物车
就像有一个贴心的购物助理一样!
应用场景:对日常工作繁忙的人来说,AI 帮助在线购物,极大地节省了时间,特别是在需要查找具体商品时。


4. 抓取网页数据


在网站数据抓取方面,Claude 展示了惊人的能力:
  • 可以自动导航到指定网站
  • 识别和提取关键信息
  • 对数据进行初步整理
有开发者已经通过 Replit 模板展示了如何让 Claude 抓取整个网站的内容,效率惊人!
应用场景:企业可以利用 AI 进行市场调研、竞争对手分析,科研人员则可以抓取特定领域的数据,为研究提供有力支撑。


5. 研究网络:寻找问题答案


这个案例特别有趣:有人让Claude查找“TypingMind的创始人是谁”。看看AI是如何工作的:
  • 自动打开浏览器
  • 访问多个相关网站
  • 交叉验证信息
  • 最终得出准确答案
整个过程就像一个专业的调研员在工作!
应用场景:无论是学生、研究者,还是需要快速了解某一特定信息的专业人士,Claude 都能成为他们强大的知识助手。
以上这些“Computer Use” 功能展示了 AI 在实际操作中所能达到的惊人高度。从日常生活到工作场景,AI 可以执行多种复杂任务,并以接近人类的方式与计算机交互。
这不仅仅是一个功能更新,而是迈向 AGI 的关键一步。
未来,当这一技术与更强大的 GPT-5 或 Claude-4 模型结合,并随着成本下降、速度提高,我们将在工作、生活、娱乐等各个领域看到 AI 带来的全面变革。
这些进展都预示着,我们正在见证 AI 能力的指数级提升。Computer Use 的发布,可能只是这场革命的开始。


记得联系元峰,gptfeng可找我领取精心整理和筛选的【元峰专属AI工具箱】【AI数字人定制指南】120 份 AI 副业 SOP 资料】

如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。


伟豪学长AI
沉浸式体验AI工具
 最新文章