GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

科技 2024-11-29 18:58 山东

不知道你们还有没有印象，当时OpenAI GPTs的发布会，可以说是轰动整个AI行业，忘了也没关系，帮你们回顾下。

当时演示了几个功能，有去网站上看机票的，有。。。

结果，GPTs很快就退出历史舞台了，没搞起来。

今天给大家推荐的browser-use，其实就跟当时发布会演示的那几个功能有点像，但是它落地了，更强了，而且还开源了。

browser-use的主要功能就是通过大模型来访问并操作浏览器，执行我们给出的命令。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

Browser Use可以让AI代理能够访问和操作网络浏览器，提高与网络内容的交互能力。这个开源项目通过简化AI代理与浏览器的连接过程，支持多标签管理，自动抓取和自定义动作，以适应各种网络自动化任务。支持的功能包括视觉和HTML内容提取，自动纠错，以及通过LangChain支持多种语言模型。开发者还可以通过Python定义AI代理的行为，使其能够执行复杂的网络任务。

DEMO

1.提示词：读取我的简历并找到机器学习工作，将它们保存到文件中，然后开始在新标签页中申请这些工作，如果需要帮助，就问我。

2.提示词：在kayak.com上查找2024年12月25日至2025年2月2日从苏黎世到北京的航班。

3.解决验证码

4.提示词：在Hugging Face上查找具有cc-by-sa-4.0许可的模型，并按最多点赞排序，将前五名保存到文件中。

功能特点

1.视觉+HTML提取：结合视觉理解和HTML结构提取，实现全面的网页交互。

2.多标签管理：自动处理多个浏览器标签，适用于复杂工作流程和并行处理。

3.元素跟踪：提取被点击元素的XPath，并重复精确的LLM动作，以实现一致的自动化。

4.自定义操作：添加自己的操作，如保存文件、数据库操作、通知或处理人工输入。

5.自我修正：智能错误处理和自动恢复，保证自动化工作流的稳健性。

6.任何LLM支持：兼容所有LangChain LLM，包括GPT-4、Claude 3和Llama 2。

项目链接

https://github.com/gregpr07/browser-use

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉