🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Deepseek V3模型推出后,社区里有许多基于这个模型做的实践。
以前有一个浏览器使用代理:Browser Use,可以控制电脑做很多事情。而最近看到一个GitHub仓库 — browser-use-webui,是Browser Use分支而来。
它扩展了大语言模型(LLM)的支持,兼容Gemini、OpenAI、Azure、Anthropic、Deepseek和Ollama 等模型。还提供了一个浏览器使用的Web界面,配置起来非常简单,可以在几秒钟内控制整个Web浏览器代理。
首先,克隆这个仓库到你的电脑上。
git clone git@github.com:warmshao/browser-use-webui.git
然后,打开cursor,打开命令面板,选择python解释器,然后点击第二步,创建虚拟环境:
安装好依赖
如果是windows。那么可以选择git bash为默认终端,
然后你每次新建终端都会默认使用这个python虚拟环境,同时git bash也方便cursor agent执行命令。
安装依赖之后还需要安装这两个(Browser Use Python包、Playwright浏览器和相关组件)。
完成上面步骤,环境就配置好了。
然后把环境变量配置一下,
• 将
.env.example
复制为.env
,并设置你的环境变量,包括 LLM 的 API 密钥:deepseek和google模型API。• 如果使用你自己的浏览器:
• 设置
CHROME_PATH
为浏览器的可执行文件路径(例如,Windows 上为C:\Program Files\Google\Chrome\Application\chrome.exe
)。• 设置
CHROME_USER_DATA
为浏览器的用户数据目录(例如,C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data
)。
启动它:
python webui.py --ip 127.0.0.1 --port 7788
注意关闭所有chorme,在其他的浏览器打开这个链接:http://127.0.0.1:7788。
打开浏览器,你将看到这些选项,你可以选择想要使用的代理类型,比如原始代理或者自定义代理。原始代理不使用任何系统提示,而自定义代理则会使用一些优化过的系统提示和功能。
你还可以设置最大运行步骤,这决定了代理执行任务时最多可以进行多少步,默认是100步。
让它告诉我们Nvidia的股票价格,发送后,你可以看到它开始工作,打开Google并搜索相关信息。
稍等片刻,它完成了任务,这真的很棒。
浏览器代理与各种模型兼容性非常好,因为它并不依赖于模型的视觉能力。这款Web UI非常出色,整体表现很酷。
参考链接:
[1] https://github.com/warmshao/browser-use-webui
[2] https://www.youtube.com/watch?v=zkSCDZVRNms