不知道你们还有没有印象,当时OpenAI GPTs的发布会,可以说是轰动整个AI行业,忘了也没关系,帮你们回顾下。
当时演示了几个功能,有去网站上看机票的,有。。。
结果,GPTs很快就退出历史舞台了,没搞起来。
今天给大家推荐的browser-use,其实就跟当时发布会演示的那几个功能有点像,但是它落地了,更强了,而且还开源了。
browser-use的主要功能就是通过大模型来访问并操作浏览器,执行我们给出的命令。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
Browser Use可以让AI代理能够访问和操作网络浏览器,提高与网络内容的交互能力。这个开源项目通过简化AI代理与浏览器的连接过程,支持多标签管理,自动抓取和自定义动作,以适应各种网络自动化任务。支持的功能包括视觉和HTML内容提取,自动纠错,以及通过LangChain支持多种语言模型。开发者还可以通过Python定义AI代理的行为,使其能够执行复杂的网络任务。
DEMO
1.提示词:读取我的简历并找到机器学习工作,将它们保存到文件中,然后开始在新标签页中申请这些工作,如果需要帮助,就问我。
2.提示词:在kayak.com上查找2024年12月25日至2025年2月2日从苏黎世到北京的航班。
3.解决验证码
4.提示词:在Hugging Face上查找具有cc-by-sa-4.0许可的模型,并按最多点赞排序,将前五名保存到文件中。
功能特点
1.视觉+HTML提取:结合视觉理解和HTML结构提取,实现全面的网页交互。
2.多标签管理:自动处理多个浏览器标签,适用于复杂工作流程和并行处理。
3.元素跟踪:提取被点击元素的XPath,并重复精确的LLM动作,以实现一致的自动化。
4.自定义操作:添加自己的操作,如保存文件、数据库操作、通知或处理人工输入。
5.自我修正:智能错误处理和自动恢复,保证自动化工作流的稳健性。
6.任何LLM支持:兼容所有LangChain LLM,包括GPT-4、Claude 3和Llama 2。
项目链接
https://github.com/gregpr07/browser-use
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「AGI光年」公众号
获取每日最新资讯
关注「向量光年」公众号
加速全行业向AI转变