Sentient Agent:让 AI 控制你的浏览器,一键完成任务!三行代码自动控制浏览器(填表、查股票、播放视频)

科技   2024-09-17 21:04   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

几天前我介绍了 Open Interpreter,并且探索了其操作系统模式,这非常酷,因为它可以控制整个电脑。

Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)

LaVague:利用 AI 轻松实现任何基于 Web 的任务自动化!( 网页 + Agent框架)

不过,它运行稍微有些慢,而且会截取电脑屏幕,这对某些人来说可能是个隐私问题。但今天我为大家带来了另一个非常酷的项目,它可以控制整个浏览器,这次它叫做 Sentient Agent。

Sentient 是一个开源项目,只需要三行代码就能运行一个浏览器控制代理。你只需运行这三行代码并写下任务,它就会启动代理并完成任务,真的很棒。

它使用 Chrome 的开发者模式来实现这一功能,首先需要运行 Chrome 开发者模式的实例,使用这些命令根据你的操作系统运行。完成后,你可以设置 OpenAI 的 API 密钥,

没有OpenAI 的 API?或许可以使用这里面提到的项目:

不过不用也没关系,因为这个项目支持Ollama。

然后运行这几行命令以及任务,代理就会开始工作。

from sentient import sentientimport asyncio
# if you wanna run in Jupyter Notebook# add these 2 follwing linesimport nest_asyncionest_asyncio.apply()
result = asyncio.run(sentient.invoke("play shape of you on youtube"))

它不使用截图之类的东西,它直接获取页面代码并查询 LLM(大型语言模型)下一步要做什么,然后点击元素。这和你使用 Selenium 手动自动化操作的方式类似,但它是全自动的。

它还可以与本地模型以及 Together AI 一起工作,因此也可以与本地和开源模型配合使用,真的非常酷。

我会向大家展示如何结合 OpenAI、Together 和 Ollama 使用它。我们开始吧,先来看一下具体操作。

首先,打开终端,安装 Sentient,只需运行 Pip install sentient,它就会安装。(第一步)

安装完成后,我们可以使用它,但首先需要运行 Chrome 开发者实例,还需要将代码放入 Python 文件中,然后更改我们想要执行的任务提示。

我们先复制这个程序,

将其粘贴到一个新文件中。

现在保存。保存文件后,回到终端,确保你已启动 Chrome 开发者实例(第二步)。

第三步,如果你使用的是 Mac,运行这个命令;如果是 Linux 或 Windows,按需运行相应命令。

我使用的是 Mac,所以我运行这个命令。

完成后会打开一个 Chrome 窗口,让它保持打开状态。

现在打开另一个终端窗口,因为我使用的是 OpenAI API,先导出 OpenAI API 密钥。

接下来,运行刚才保存的 Python 脚本即可。

现在我们试试更复杂的任务,问它当前苹果公司的股票价格是多少。

我已经写好了这个任务,现在运行看看。

稍等一下,任务完成了,

结果是正确的苹果公司股票价格,真是太棒了。它工作得非常好。

除此之外,你还可以添加自定义指令,例如,如果你让它在 YouTube 上播放视频,但它总是先进入 Google 搜索页面,你可以添加自定义指令,让它直接通过 YouTube 搜索,这真的很酷。

这个代理有很多用处,比如填写表单和类似任务。现在我们试试更复杂的任务,搜索从芝加哥到洛杉矶最便宜的航班。我更新了任务,现在运行一下。

稍等一下,任务完成了,

结果很棒。我认为这非常酷,尽管目前我还没有特别的应用场景,但对于填写表单之类的任务,它会非常有用。

现在我展示一下如何与 Together AI 和 llama 一起使用。要与 Together AI:https://www.together.ai/ 配合使用,首先注册账号,你还可以获得一些免费积分。

注册后,获取 API 密钥,然后进入脚本,将提供者更改为 Together AI,选择你想使用的模型。

我将使用 Llama 3.1。设置完成后,回到终端,导出你的 Together API 密钥。现在可以开始使用了。

现在我展示一下如何与 Ollama 一起使用。首先确保你已安装 Ollama 。安装方法是进入 Ollama 的网站,点击下载按钮,选择你的操作系统并安装。

安装后,进入模型部分,选择并安装一个模型。我将使用 Llama 3.1,复制命令并将其粘贴到终端中进行安装。安装完成后,发送一条消息测试是否工作正常。

接下来,我们需要配置脚本以配合 Ollama 使用,只需将提供者改为 Ollama ,并选择你想使用的模型。我还是使用 Llama 3.1。

设置完成后,运行脚本,任务会正常执行。

我认为这是一个非常好的代理,能够集成到你的工作流中,帮助你在网页上执行更复杂的任务,真的非常棒。我希望很快能支持 Groq 模型,这样一切都会变得非常快。

总的来说,真的很酷。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。


往期推荐



Llama 3.1 70B AQLM-PV版发布!大模型压缩后可在24GB显存GPU上本地运行!!

GameGen-O来了!只需一句话,生成你的梦幻开放世界游戏,AI一键生成“ 类黑神话 ”?

ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

参考链接:
[1] github:https://github.com/sentient-engineering/sentient
[2] https://docs.together.ai/
[3] video:https://www.youtube.com/watch?v=0J3vKJVBQBA&t=1s

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章