Deepseek-V3 计算机使用：这是一个完全免费的 AI 代理，一句话操控浏览器（Browser Use）

科技 2025-01-06 21:18 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

Deepseek V3模型推出后，社区里有许多基于这个模型做的实践。

以前有一个浏览器使用代理：Browser Use，可以控制电脑做很多事情。而最近看到一个GitHub仓库 — browser-use-webui，是Browser Use分支而来。

它扩展了大语言模型（LLM）的支持，兼容Gemini、OpenAI、Azure、Anthropic、Deepseek和Ollama 等模型。还提供了一个浏览器使用的Web界面，配置起来非常简单，可以在几秒钟内控制整个Web浏览器代理。

首先，克隆这个仓库到你的电脑上。

git clone git@github.com:warmshao/browser-use-webui.git

然后，打开cursor，打开命令面板，选择python解释器，然后点击第二步，创建虚拟环境：

安装好依赖

如果是windows。那么可以选择git bash为默认终端，

然后你每次新建终端都会默认使用这个python虚拟环境，同时git bash也方便cursor agent执行命令。

安装依赖之后还需要安装这两个（Browser Use Python包、Playwright浏览器和相关组件）。

完成上面步骤，环境就配置好了。

然后把环境变量配置一下，

• 将 .env.example 复制为 .env，并设置你的环境变量，包括 LLM 的 API 密钥：deepseek和google模型API。
• 如果使用你自己的浏览器：

• 设置 CHROME_PATH 为浏览器的可执行文件路径（例如，Windows 上为 C:\Program Files\Google\Chrome\Application\chrome.exe）。
• 设置 CHROME_USER_DATA 为浏览器的用户数据目录（例如，C:\Users\<YourUsername>\AppData\Local\Google\Chrome\User Data）。

启动它：

python webui.py --ip 127.0.0.1 --port 7788

注意关闭所有chorme，在其他的浏览器打开这个链接：http://127.0.0.1:7788。

打开浏览器，你将看到这些选项，你可以选择想要使用的代理类型，比如原始代理或者自定义代理。原始代理不使用任何系统提示，而自定义代理则会使用一些优化过的系统提示和功能。

你还可以设置最大运行步骤，这决定了代理执行任务时最多可以进行多少步，默认是100步。

还有“使用Vision”选项，可以通过允许代理查看截图来提高性能，虽然这个选项在Deepseek中不可用，但在Gemini中可以使用。你还可以选择LLM提供商，如Deepseek或Gemini，并在这里输入模型名称。

对于Gemini，它默认是2.0 Flash，而对于Deepseek，你需要改成“deepseek chat”。你还可以修改LLM的Base URL和API密钥，如果不想在环境文件中设置的话。

接下来是浏览器设置，你可以选择使用你自己的浏览器，运行时是否启用无头模式，或者是否禁用安全性，还可以设置窗口的高度和宽度。

另外，代理还支持录制浏览器会话，并保存为屏幕录像，你可以稍后查看录像，并且可以更改录制路径。

在主任务选项中，你可以输入代理需要完成的任务，并附上额外的信息。这些信息会和提示一起传给代理。

让它告诉我们Nvidia的股票价格，发送后，你可以看到它开始工作，打开Google并搜索相关信息。

稍等片刻，它完成了任务，这真的很棒。

浏览器代理与各种模型兼容性非常好，因为它并不依赖于模型的视觉能力。这款Web UI非常出色，整体表现很酷。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://github.com/warmshao/browser-use-webui

[2] https://www.youtube.com/watch?v=zkSCDZVRNms

AI进修生

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

MiniPerplx：一款全新开源的AI搜索引擎，xAI 和 Vercel 赞助。

Gemini CodeGen + Search：全新免费的 AI 编码器与使用Replit2小时复刻Perplexity。

一手体验STORM写作系统，这才是AI写作的未来形态。

DeepSeek Artifacts：全新免费的 AI 编码器，构建公共前端代码数据集（Bolt、V0类）

我用Bolt DIY + Deepseek V3做了个跨年倒计时，2024留给你最后的温暖。

用思维链激活Cursor + Cursor绝不仅仅是代码编辑器。

三分钟带你看完Lovable，这款全新的AI全栈APP构建器击败了Bolt吗？

如何让 Cursor 在大型项目中更好地工作 - 进阶技巧分享

Cursor 0.44版本悄悄上线，体验YOLO模式，我知道编程再也回不去了。

10分钟入门Cursor+Git，让AI编程如虎添翼。

深夜惊喜！谷歌版o1免费上线，支持图片和音频输入！还能在Cursor里用，支持代码批量修改！

从0到1用AI做了个AI服务网站, 全程没写一行代码。

PDF转Markdown，TextIn文档解析工具全体验，兼容多种格式！（附独家免费权益）

又一篇AI顶会！这个idea简直“ 杀疯了 ” ....

告别算力焦虑，轻松玩转大模型，请低调使用

当Claude3.5 遇上 Gemini 2，这个免费的AI编程竞技场炸了。

ChatGPT实时视频通话功能全量开放，AI终于睁开了"眼睛"。

谷歌的Gemini 2.0来了! 这是我见过最强的免费AI助手。

TEN Agent 一键让 Coze Bot 开口说话，这下AI助手终于能跟我聊天了。

我花了72小时研究Cursor Agents，以下是必须分享的硬核干货！

浏览器标签管理太乱？这款神器帮我整理得井井有条！

AI编程 x ，跑提示词 v，开发AI saas网站，全新免费 Websim AI 生成网站、小游戏和工具！

Copycoder：这个工具和 Cursor、Bolt、V0 配合太棒了！提供更好的前端开发提示词（AI导航网站生成）

Cursor从入门到精通：不可错过的七大技巧分享，Agent、Cursorrules（详细教程）

WindSurf+Bolt+Cursor+Sealos：构建AI播客应用程序，前后端分离、对象存储、数据库存储、部署、K8S

终于不用为GPU算力发愁了，趋动云免费算力、火热AI项目一键启动包、大模型微调与部署

V0更新：AI驱动的全栈Web开发工具，击败了Bolt 、Cursor、Windsurf 吗？

中国版的o1来了！DeepSeek-R1-Lite媲美o1-preview，还原完整COT推理过程！

Bolt + Supabase：1分钟实现APP的登陆功能、连接数据库（Bolt、Cursor、BaaS、AI全栈）

豆包MarsCode：AI带你刷题、解析代码仓库、云IDE支持，还免费，这也太酷了吧。

Windsurf：这款全新免费的 AI IDE 击败了Cursor 吗？超强上下文感知、AI代理和工作流支持

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！

李彦宏百度世界2024圆桌访谈：应用驱动是第一性原理，百度的多模态能力非常强

Qwen-2.5 Coder (32B)+ Cursor+ Aider：这个最强开源代码模型击败了 Claude、GPT-4o？

使用 Bolt + Cursor 构建任何东西：AI实时语音助手、AI播客应用程序，每个人都可以拥有自己的专属软件。

Ollama 更新！手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统（本地安装）

Fast GraphRAG：一个比 GraphRAG 更快、成本更低、更高效的RAG框架开源了（本地安装 & 测试）

Grok-2 免费API + Cline : 使用Grok API 免费运行AI编码代理，每月都有25美元免费额度！

Cofounder：这个新的AI代理，全栈架构师+项目经理，一个提示生成应用（比 Aider、v0、Cline 更强吗？）

Bolt + 免费的Mistral 和 Github API：免费且强大的AI代理工作流，无需V0（o1-preview免费）

媲美GPT4o！教你用智谱GLM-4-Plus在Fastgpt、Dify中构建知识库，并结合o1思维链和工具调用！

幻图AI：一款全新免费工具，换脸、换装、文生图、创意融合，轻松搞定！（无需 ComfyUI、Midjourney）

LongVU：Meta AI 开源长视频语言理解的多模态模型！能记住视频中的细节，处理大量视频帧！

MaskGCT：这款全新的开源语音大模型太强了，击败CosyVoice、XTTS-v2（视频翻译、声音克隆、跨语种合成）

Claude出来后，还有这些 Agent 代理操作电脑，很棒。

开源向量数据库哪个好？Milvus、Chroma 和 Qdrant 的选择指南

Claude 3.5 Sonnet 升级后，很强。用它写代码不知道有多爽。

一键翻译视频！SoniTranslate 轻松生成多语言音频与字幕，满足教育、内容创作、跨文化交流需求！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉