Github 上有个开源项目 browser-use,这个项目最近老火了,目前拥有 11K Star,它的作用是将 AI Agent 与浏览器链接起来从而实现由 AI 驱动的浏览器自动化。接入也很简单,不过要写一点代码。
这两天有个老哥基于 browser-use
,写了个 UI 界面,在体验层面同时也做了一些功能扩展,让它的使用门槛更低了,目前已在 Github 开源 browser-use-webui
。
browser-use-webui 主要功能
提供了全新的网页界面,简单好用,方便操作。 支持更多大语言模型,比如 Gemini、OpenAI、Azure 等,哦,还有最近爆火的国产大模型 DeepSeek,未来还会加更多。 支持用自己的浏览器,不用再反复登录,还能录屏。 定制了更智能的 Agent,通过优化后的提示让浏览器使用更高效。
安装
这个项目已在 Github 开源,想玩的都可以试试,用 Python 写的,版本必须在 3.11 以上。
首先,让我们拉取项目到本地
git clone git@github.com:warmshao/browser-use-webui.git # 拉取项目
cd browser-use-webui # 进到这个项目里
安装依赖项:
pip install browser-use
安装 Playwright
playwright install
安装项目依赖
pip install -r requirements.txt
配置环境变量
基于 .env.example
复制一个 .env
文件,并在 .env
文件中修改以下信息
# 路径 Chrome 浏览器路径(检查下自己的路径),例如
# Mac OS "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"
# Windows "C:\Program Files\Google\Chrome\Application\chrome.exe"
CHROME_PATH="/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"
# 浏览器的用户数据路径,例如
# Mac OS "/Users/<YourUsername>/Library/Application Support/Google/Chrome"
# Windows "C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data"
CHROME_USER_DATA="/Users/<YourUsername>/Library/Application Support/Google/Chrome"
# 还有一些大模型的 API Key 也要改
...
启动运行
执行如下命令启动
python webui.py --ip 127.0.0.1 --port 7788
启动成功如下所示:
浏览器访问 http://127.0.0.1:7788/
,看到如下界面就成功了
配置
配置 Agent
注意,这里的 Use Vision
,默认是选中状态,如果使用的 DeepSeek 不能勾选,因为 DeepSeek 不支持视觉输入。
配置要用的大模型
例如,下面我用的是 deepseek。
关于浏览器的一些设置
任务设置
输入要执行的任务就可以点击 Run Agent
了
Demo 演示
Demo 演示可以看以下视频
欢迎关注 “AI智见录”,为您分享更多精彩 AI 内容。
期文章推荐
扫描以下二维码加小编微信,备注 “ai”,一起交流 AI 技术!