maxun
一个免费的开源无代码网页数据提取平台,它允许用户在几分钟内通过无代码机器人将网站转换为API和电子表格。Maxun 使得训练一个机器人进行网页数据抓取变得非常简单,用户可以在2分钟内完成训练。
Github地址
https://github.com/getmaxun/maxun
主要功能
• 快速训练机器人:用户可以在2分钟内训练一个机器人自动进行网页数据抓取。
• 无需编码:无需编写代码,用户只需通过点击和选择即可收集数据。
• 自托管和云服务:支持自托管和云服务,用户可以根据自己的需求选择。
特点
• 无代码数据提取
• 处理分页和滚动
• 按特定时间表运行机器人
• 将网站转换为API
• 将网站转换为电子表格
• 适应网站布局变化(即将推出)
• 支持登录后的数据提取,包括双因素认证支持(即将推出)
• 集成(目前支持Google Sheets)
机器人能力
• 无代码数据提取:无需编写代码,轻松收集网页数据。
• 处理分页和滚动:轻松处理无限滚动、分页和JavaScript密集型网站。
• 解决验证码和自动轮换代理:解决验证码问题,并维护一个大型代理池,以实现精确到国家、州或邮政编码级别的目标数据提取。
• 适应网站布局变化:自动修复所有数据选择器,即使网站布局变化,机器人也能持续提取数据。
• 按计划或通过API运行:可以安排机器人在特定时间或定期运行,也可以通过API运行机器人,集成到现有系统中。
• 登录后提取数据,支持双因素认证:即使需要2FA或MFA,也可以登录并从登录后提取数据。
数据转换
• 将网站转换为API:将任何网站转换为强大的API,实时访问数据并自动化工作流程。
• 将网站转换为实时数据库:通过将数据添加到Google Sheets和Airtable,将任何网站转换为实时数据库。(更多集成即将推出)
本地设置
• Docker Compose:
1. 克隆项目:
git clone https://github.com/getmaxun/maxun
2. 启动容器:
docker-compose up -d --build
• 无Docker:
1. 确保系统已安装Node.js、PostgreSQL、MinIO和Redis。
2. 克隆项目:
git clone https://github.com/getmaxun/maxun
3. 进入项目根目录:
cd maxun
4. 安装依赖:
npm install
5. 进入maxun-core目录安装依赖:
cd maxun-core
和npm install
6. 启动前端和后端:
npm run start
7. 访问前端:
http://localhost:5173/
,后端:http://localhost:8080/
环境变量
在项目根目录创建一个名为.env的文件,设置以下变量:
•
BACKEND_URL
:后端URL,必须设置。•
VITE_BACKEND_URL
:后端URL,必须设置。•
JWT_SECRET
:用于JWT认证的秘密密钥,必须设置。•
DB_NAME
、DB_USER
、DB_PASSWORD
、DB_HOST
、DB_PORT
:PostgreSQL数据库连接信息,必须设置。•
ENCRYPTION_KEY
:用于加密敏感数据的密钥,必须设置。•
MINIO_ENDPOINT
、MINIO_PORT
、MINIO_ACCESS_KEY
:MinIO存储连接信息,必须设置。•
GOOGLE_CLIENT_ID
、GOOGLE_CLIENT_SECRET
、GOOGLE_REDIRECT_URI
:用于Google Sheet集成的Google OAuth信息,非必须。•
REDIS_HOST
、REDIS_PORT
:Redis服务器连接信息,必须设置。•
MAXUN_TELEMETRY
:是否禁用遥测数据发送,非必须。
工作原理
Maxun允许创建自定义机器人,模拟用户行为并提取数据。机器人可以执行以下操作:
1. Capture List:从网站提取结构化和批量项目,例如从亚马逊抓取产品。
2. Capture Text:从网站提取单个文本内容。
3. Capture Screenshot:获取网站的全页或可见部分截图。