GPTs进阶版已开源!通过大模型来访问并操作浏览器,网站验证码都能自动填写。

科技   2024-11-29 18:58   山东  

不知道你们还有没有印象,当时OpenAI GPTs的发布会,可以说是轰动整个AI行业,忘了也没关系,帮你们回顾下。



当时演示了几个功能,有去网站上看机票的,有。。。


结果,GPTs很快就退出历史舞台了,没搞起来。


今天给大家推荐的browser-use,其实就跟当时发布会演示的那几个功能有点像,但是它落地了,更强了,而且还开源了。


browser-use的主要功能就是通过大模型来访问并操作浏览器,执行我们给出的命令。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


Browser Use可以让AI代理能够访问和操作网络浏览器,提高与网络内容的交互能力。这个开源项目通过简化AI代理与浏览器的连接过程,支持多标签管理,自动抓取和自定义动作,以适应各种网络自动化任务。支持的功能包括视觉和HTML内容提取,自动纠错,以及通过LangChain支持多种语言模型。开发者还可以通过Python定义AI代理的行为,使其能够执行复杂的网络任务。


DEMO


1.提示词:读取我的简历并找到机器学习工作,将它们保存到文件中,然后开始在新标签页中申请这些工作,如果需要帮助,就问我。



2.提示词:在kayak.com上查找2024年12月25日至2025年2月2日从苏黎世到北京的航班。



3.解决验证码



4.提示词:在Hugging Face上查找具有cc-by-sa-4.0许可的模型,并按最多点赞排序,将前五名保存到文件中。



功能特点


1.视觉+HTML提取:结合视觉理解和HTML结构提取,实现全面的网页交互。


2.多标签管理:自动处理多个浏览器标签,适用于复杂工作流程和并行处理。


3.元素跟踪:提取被点击元素的XPath,并重复精确的LLM动作,以实现一致的自动化。


4.自定义操作:添加自己的操作,如保存文件、数据库操作、通知或处理人工输入。


5.自我修正:智能错误处理和自动恢复,保证自动化工作流的稳健性。


6.任何LLM支持:兼容所有LangChain LLM,包括GPT-4、Claude 3和Llama 2。


项目链接


https://github.com/gregpr07/browser-use


 关注「开源AI项目落地」公众号

与AI时代更靠近一点

 关注「AGI光年」公众号

获取每日最新资讯

 关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地
分享有价值的开源项目,并且致力于Ai项目的落地。
 最新文章