Claude出来后,还有这些 Agent 代理操作电脑,很棒。

科技   2024-10-26 15:58   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Ai生成文本是不够的, Ai操作电脑是一个趋势 —— Agent-OS 。


前两天,Anthropic的发布的进化版Claude 3.5 Sonnet 能够自主操控电脑屏幕、移动光标并完成任务,这显示出AI已经能够模拟人类用户的行为来操作电脑。

所有的自动化操作都无需针对特定软件和系统去适配。

因为它不是传统的程序,AI是模仿人类的行为范式,是有视觉的,他是会思考的他是会操作的。

一切都变得很灵活,很灵活。


它可以操作电脑,做这样一些事:

这是智谱前两天发布的 CogAgent 和 AutoGLM-Web,就像Anthropic的 进化版 Claude 3.5 Sonnet 那样。

AI操作电脑,这像是一种万能API,代表着全新人机交互范式的第一步。

▲ AIGCLink


Claude Computer Use API

顺便一提,Anthropic 官方告诉大家通过下面这个快速入门指南中提供的Docker实例来使用新的Claude Computer Use API。

快速指南:https://github.com/anthropics/anthropic-quickstarts/blob/main/computer-use-demo/README.md

不过这是在沙盒中运行,但是沙盒不一定会有你所要的所有软件。

然后也是没有Anthropic分享的左侧对话界面的,还们还没有正式推出。只给了我们一个简单的Streamlit聊天界面。


AgentExe 

不过现在有一些开源项目可以让你在自己的电脑上使用 Claude Computer Use API。

AgentExe :https://github.com/corbt/agent.exe

它复刻了官方功能上的演示,是有官方演示中左侧那个小界面的。

实测

Go to Google and search for AICodeKing. Use Firefox.

▲ AICodeKing


然后。。

还有 Open Interpreter,我们以前介绍过的一个项目,他已经提供了Claude Computer Use API支持,使用 interpreter -os 命

Agent-OS:用AI掌控你的电脑!!这个 AI 代理可以控制你的电脑并做任何事情!(生成应用程序、代码、RAG 等)

2024-08-27

具体来说你可以这样使用它

pip3 install open-interpreterinterpreter -os(对的,就是这个)

然后前面这些是我们使用自然语言去驱动AI执行一些控制电脑的操作,这些是对未来的操作。所以我们有一个项目可以记录我们过去的动作,然后结合一下是不是可以实现——对历史的复制Action。


ScreenPipe

用于构建个性化 AI 的库,由您所见、所说或所听内容提供支持。与 Ollama 配合使用。Rewind.ai 的替代品。

向量存储你每天对电脑进行的操作,包括屏幕和麦克风的记录。

终端输入的命令、麦克风说过的话都会被记录

如果配上Open-interpreter

▲ 对左边历史记录进行了询问,openinterpreter调用了 ScreenPipe【前者项目中有一个这样的文件】

然后你可以使用Open-interpreter去对过去的事进行LLM Action。

教程详情在这(Aigclink):

  https://www.youtube.com/watch?v=q_K9812oi_k 

>/ 实现AI Agent对计算机上看到或听到的所有内容采取action,除了compute use能力还有compute记忆能力。


OmniParser

微软最近推出的,这是一个针对基于视觉的用户界面(GUI)代理的屏幕解析模块。OmniParser 的主要功能是将用户界面的屏幕截图转换成结构化数据。

这个工具专为提升基于大型语言模型(如 GPT-4V)的 UI 代理系统性能而设计,它通过准确识别可交互图标和理解截图元素的语义来增强代理执行任务的能力。

这个工具在 Hugging Face 平台上也可用,包括了针对上述数据集微调过的 YOLOv8 和 BLIP-2 模型

Blog:https://microsoft.github.io/OmniParser/

  


等等。。

嗯,总得来说,Agent-OS,它可以总结百科发微信、淘宝购物买羽绒服、帮你预定会议、帮你摸鱼。

或许能够通过学习历史数据和用户行为来优化其操作,减少人为错误,提高工作效率,

或许录制它的步骤一次,然后反复执行这些步骤,我们也许可以轻松地自动化手动任务,

或许监控对电脑的历史操作,需要解决问题的时候用这些历史操作RAG出来,当做提示词给LLM,然后更好的解决问题。

自动化软件测试、虚拟助手 和 辅助技术。。

炼丹的时候,丢个模型进去,他自己看训练结果图,再Action-调参,端到端的给我输出最好的模型。

哈哈,一切尽在探索中。

💫video source:https://www.youtube.com/watch?v=0N4-cingqR8&t=57s
👽Submission:kristjahmez06@gmail.com

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章