GPTMe:这个 AI 代理最简单,可以做任何事情!(控制浏览器、搜索、代码、视觉)

科技   2024-10-08 23:50   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

最近我发现了一个新的人工智能代理,叫做 Gptme,它声称是 ChatGPT 代码解释器的一个无约束的本地替代品。

它允许你使用终端运行代码(使用 shell 和 python工具)、编辑文件、浏览网络、使用视觉等。

它还可以读取、写入和更改文件,并搜索和浏览网络。甚至可以通过 playwright 控制整个浏览器,这也非常酷。它还具有视觉兼容性,因此可以查看在提示中引用的图像、桌面的截图和网页。它也是自我纠正的,像 AgentQ 一样。

除此之外,它还支持多个 LLM 提供商,包括 OpenAI、Anthropic、OpenRouter 和通过 Llama.cpp 的本地模型 以及 Ollama,我不建议与本地 LLM 一起使用,性能不太稳定。

所以看到这些也很不错。它似乎还具有许多较小的功能,以确保良好的体验,包括管道和上下文选项卡补全、自动命名对话,如果你想将其集成到自己的应用程序中,它甚至还有一个基本的 REST API 。

现在我们来试试它。

首先,要安装它,只需运行 `pipx install gptme` 命令:

安装完成后,我们可以使用它,只需运行 `gptme` 命令,它将启动。

它会询问你是否想开始一个新对话或恢复旧对话,因为我们是新用户,我们可以选择新选项。

一旦你这样做,它会要求你输入来自 OpenAI、Anthropic 或 OpenRouter 的 API 密钥:

一旦完成,我们可以要求它做事情,它就能做到。

让我们从一些基本的开始,问它瑞典现在的时间。

它给了我们一个要执行的 shell 命令。我们需要批准这个命令才能运行,所以让我们在这里给它一个“是”。

一旦我们这样做,你可以看到我们有了日期和时间,这也是正确的,所以这是一个良好的开端。

现在让我们再进一步,问它当前的 Nvidia 股票价格。

这次没有成功,它只是说它无法做到。所以我想这是一个失败,尽管它应该能做到,因为它可以进行网络搜索等等。

此外,他们的文档说它可以浏览特定的 URL 并提供数据。

所以我们给它这个关于 Rust 为什么比 C 更好的 Reddit 频道,看看它能否告诉我们帖子内容。

它也无法做到,只是说它无法浏览。我想这些功能应该从 README 中删除,或者至少在旁边加上一个不可靠的标记。

它说它甚至可以查看桌面和网页的截图,但它怎么能做到这一点呢,既然它甚至不能浏览网络?我认为它不能做到这一点没问题,但告诉用户一些它不能做的功能就不好了。

无论如何,让我们继续。一个在各处提到的功能是它可以进行编码,所以我们先从简单的开始,让我们问它用 HTML、CSS 和 JS 制作一个简单的扫雷游戏。让我们看看它能否做到。

运行得很好,这非常不错,所以它可以很好地编码。

让我们看看它能读取文件的能力。

这看起来非常不错,所以它也可以读取文件。

另一件它可以做的事情是搜索它与自己之间的过去对话。

所以如果我问它我在之前的聊天中是否提到过扫雷,它可以做到。

它还可以运行 shell 命令,因此你可以要求它给你一个 ffmpeg 命令,或者杀死一个进程,它也可以做到,或者它可以删除目录、更改权限等。

它还可以直接运行 Python 脚本,所以如果你问它 2+2 等于多少,它会创建一个 Python 程序来运行并给出正确的信息,或者如果你需要时间,它会像我们问瑞典的时间那样进行处理。

它能处理图像,告诉它关于某个图像的信息并给它路径,

它将把它附加到上下文中并提供详细信息,这也很好。

此外,你不必总是以聊天模式运行它,你也可以作为 CLI 工具运行它,给它你的请求,它会回复答案,如果需要任何批准,它会询问你。你也可以用管道来使用它,因此你可以将进程的输出提供给它,并要求它结束一些东西,比如 npm 服务器等,这也不错。

除此之外,你还想与 Ollama 一起使用它。首先确保你安装了 Ollama 

安装完成后,你需要通过运行 `pip install Light llm` 来安装 Light llm。

现在,只需运行一个带有 Al 模型的 Light llm 服务器,

L llm 服务器启动后,创建一个环境变量,将 OpenAI 基础 URL 指向 L llm 服务器,它通常位于 8000 端口。

设置完成后,你可以开始使用 ollama 模型。

你也可以通过 Light llm 以相同的方式运行 Gemini 模型或任何其他模型。

所以这些是你可以与之做的主要事情。我认为这是一个很棒的工具,绝对值得使用。这是最简单易用的人工智能代理之一。它可以做基本的事情,如读取和编辑文件,以及更复杂的任务,如编码、执行命令等。

虽然我不知道为什么浏览器功能不起作用,我希望这能尽快修复,使其更好。总的来说,这非常酷!

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

💫video source:https://www.youtube.com/watch?v=HXihzxUJHf8
👽Submission:kristjahmez06@gmail.com
参考链接:
[1] github:https://github.com/ErikBjare/gptme

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章