最近有关“computer use”的项目大爆发,原来自动化框架加上大模型后,就像有了大脑,以前RPA是一件很鸡肋、繁琐、笨拙的工作,现在一下变得性感起来。
扩展阅读:
微软 UI解析神器OmniParser斩获huggingface趋势榜前三
“computer use”赛道战火将起,哪个模型最强,这个评估平台可以了解一下
最快体验 Claude 3.5 Sonnet 控制电脑方法来了!
今天,再介绍一个这一领域的项目——Cerebellum。
Cerebellum是一款基于Claude 3.5 Sonnet和Selenium WebDriver构建的浏览器智能助手,它能智能理解任务,灵活规划行动路径,借助 Sonnet 的强大分析能力,精准识别网页内容和交互元素,并根据变化调整策略。
多浏览器支持,兼容 Chrome 、Firefox 、Safari 和Edge 。它能精确模拟用户行为,轻松应对复杂自动化场景,如数据抓取、网站自动化测试等。
核心功能:
图形导航:简化网页浏览为有向图导航 节点发现:LLM 分析页面内容,发现新节点 行动决策:基于当前状态和历史操作,智能决策
用户只需要设定目标,之前最为繁琐的录制脚本的动作全部交给大模型来处理,省时省力!
访问GitHub(https://github.com/theredsix/cerebellum)体验。
后台回复“进群”入群讨论