基于o3-mini 的浏览器agent,打造属于自己的Operator

旅行   2025-02-02 14:00   中国香港  

本文分享一个实用的AI 浏览器代理工具。

这是一个强大的Python项目「ai-gradio」,它在Gradio的基础上,提供了一个统一的接口来调用各种AI模型和服务。上面视频展示了其中一个强大功能:让AI模型自动操作浏览器执行网页任务

核心功能

这个工具库支持的功能包括:

  • 多提供商支持:无缝接入OpenAI、Google Gemini、Anthropic等15+家AI服务商

  • 文本对话:支持所有文本模型的交互式聊天界面

  • 语音对话:支持与OpenAI模型进行实时语音交互

  • 视频对话:支持Gemini模型的视频处理能力

  • 代码生成:专门的编码辅助界面

  • 多模态支持:文本、图像、视频输入全覆盖

  • Agent团队:通过CrewAI集成实现AI协作任务

  • 浏览器自动化:支持AI执行网页任务

超全模型支持

核心语言模型支持:

  • OpenAI:gpt-4-turbo、gpt-4、gpt-3.5-turbo

  • Anthropic:claude-3-opus、claude-3-sonnet、claude-3-haiku

  • Gemini:gemini-pro、gemini-pro-vision、gemini-2.0-flash-exp

  • Groq:llama-3.2-70b-chat、mixtral-8x7b-chat

专业模型支持:

  • LumaAI:dream-machine、photon-1

  • DeepSeek:deepseek-chat、deepseek-coder、deepseek-vision

  • Qwen:qwen-turbo、qwen-plus、qwen-max

  • Browser:browser-use-agent

快速上手指南

安装超简单,根据需要选择不同的安装命令:

# 安装核心包pip install ai-gradio
# 安装特定提供商支持pip install 'ai-gradio[openai]' # OpenAI支持pip install 'ai-gradio[gemini]' # Google Gemini支持pip install 'ai-gradio[anthropic]' # Anthropic Claude支持pip install 'ai-gradio[groq]' # Groq支持
# 安装所有提供商支持pip install 'ai-gradio[all]'

几行代码搞定AI应用

创建简单的聊天界面

import gradio as grimport ai_gradio
gr.load( name='openai:gpt-4-turbo', # 或 'gemini:gemini-1.5-flash' src=ai_gradio.registry, title='AI Chat', description='Chat with an AI model').launch()

开启语音对话功能

gr.load(    name='openai:gpt-4-turbo',    src=ai_gradio.registry,    enable_voice=True,    title='AI Voice Assistant').launch()

浏览器自动化功能(需要Python 3.11+):

gr.load(    name='browser:gpt-4-turbo',    src=ai_gradio.registry,    title='AI Browser Assistant',    description='Let AI help with web tasks').launch()

特别注意事项

使用前需要配置相关API密钥:

# 核心提供商export OPENAI_API_KEY=<your token>export GEMINI_API_KEY=<your token>export ANTHROPIC_API_KEY=<your token>export GROQ_API_KEY=<your token>
# 语音功能需要Twilio凭证export TWILIO_ACCOUNT_SID=<your Twilio account SID>export TWILIO_AUTH_TOKEN=<your Twilio auth token>

系统要求:

  • Python 3.10+
  • gradio >= 5.9.1
  • 语音功能:需要gradio-webrtc、numba==0.60.0、pydub、librosa
  • 视频功能:需要opencv-python、Pillow
  • Agent团队:需要crewai>=0.1.0、langchain>=0.1.0

项目已在GitHub开源

https://github.com/AK391/ai-gradio

这个工具库不仅整合了主流AI服务,还提供了统一简洁的接口,大大简化了AI应用的开发流程。

无论是想要快速搭建AI聊天机器人,还是开发复杂的多模态应用,都能轻松实现。

你最想用ai-gradio 做什么?

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章