一个免费的开源无代码网页数据提取平台，它允许用户在几分钟内通过无代码机器人将网站转换为API和电子表格。

文摘 2024-11-14 19:10 广东

maxun

一个免费的开源无代码网页数据提取平台，它允许用户在几分钟内通过无代码机器人将网站转换为API和电子表格。Maxun 使得训练一个机器人进行网页数据抓取变得非常简单，用户可以在2分钟内完成训练。

Github地址

https://github.com/getmaxun/maxun

主要功能

• 快速训练机器人：用户可以在2分钟内训练一个机器人自动进行网页数据抓取。
• 无需编码：无需编写代码，用户只需通过点击和选择即可收集数据。
• 自托管和云服务：支持自托管和云服务，用户可以根据自己的需求选择。

特点

• 无代码数据提取
• 处理分页和滚动
• 按特定时间表运行机器人
• 将网站转换为API
• 将网站转换为电子表格
• 适应网站布局变化（即将推出）
• 支持登录后的数据提取，包括双因素认证支持（即将推出）
• 集成（目前支持Google Sheets）

机器人能力

• 无代码数据提取：无需编写代码，轻松收集网页数据。
• 处理分页和滚动：轻松处理无限滚动、分页和JavaScript密集型网站。
• 解决验证码和自动轮换代理：解决验证码问题，并维护一个大型代理池，以实现精确到国家、州或邮政编码级别的目标数据提取。
• 适应网站布局变化：自动修复所有数据选择器，即使网站布局变化，机器人也能持续提取数据。
• 按计划或通过API运行：可以安排机器人在特定时间或定期运行，也可以通过API运行机器人，集成到现有系统中。
• 登录后提取数据，支持双因素认证：即使需要2FA或MFA，也可以登录并从登录后提取数据。

数据转换

• 将网站转换为API：将任何网站转换为强大的API，实时访问数据并自动化工作流程。
• 将网站转换为实时数据库：通过将数据添加到Google Sheets和Airtable，将任何网站转换为实时数据库。（更多集成即将推出）

本地设置

• Docker Compose:

1. 克隆项目：git clone https://github.com/getmaxun/maxun
2. 启动容器：docker-compose up -d --build

• 无Docker:

1. 确保系统已安装Node.js、PostgreSQL、MinIO和Redis。
2. 克隆项目：git clone https://github.com/getmaxun/maxun
3. 进入项目根目录：cd maxun
4. 安装依赖：npm install
5. 进入maxun-core目录安装依赖：cd maxun-core 和 npm install
6. 启动前端和后端：npm run start
7. 访问前端：http://localhost:5173/，后端：http://localhost:8080/

环境变量

在项目根目录创建一个名为.env的文件，设置以下变量：

• BACKEND_URL：后端URL，必须设置。
• VITE_BACKEND_URL：后端URL，必须设置。
• JWT_SECRET：用于JWT认证的秘密密钥，必须设置。
• DB_NAME、DB_USER、DB_PASSWORD、DB_HOST、DB_PORT：PostgreSQL数据库连接信息，必须设置。
• ENCRYPTION_KEY：用于加密敏感数据的密钥，必须设置。
• MINIO_ENDPOINT、MINIO_PORT、MINIO_ACCESS_KEY：MinIO存储连接信息，必须设置。
• GOOGLE_CLIENT_ID、GOOGLE_CLIENT_SECRET、GOOGLE_REDIRECT_URI：用于Google Sheet集成的Google OAuth信息，非必须。
• REDIS_HOST、REDIS_PORT：Redis服务器连接信息，必须设置。
• MAXUN_TELEMETRY：是否禁用遥测数据发送，非必须。

工作原理

Maxun允许创建自定义机器人，模拟用户行为并提取数据。机器人可以执行以下操作：

1. Capture List：从网站提取结构化和批量项目，例如从亚马逊抓取产品。
2. Capture Text：从网站提取单个文本内容。
3. Capture Screenshot：获取网站的全页或可见部分截图。

http://mp.weixin.qq.com/s?__biz=Mzg2MjY1NDIzNg==&mid=2247492323&idx=1&sn=25525a6f68c27e221290704bc6f22d27

github淘金

打破信息差，不为免费而付费。关注我，每日分享各种有趣，实用的开源项目。

最新文章

localhost 本地 SSL代理服务，方便本地开发和测试

一个兼容 OneBot 协议的非官方 QQ 客户端实现，支持网页及 electron 客户端

将 Markdown 渲染为漂亮的社交媒体图片，支持一键部署，可以当做 Markdown 转海报图片在线编辑器使用。

一键 AI 换脸、发型、穿搭，发现更美的自己

一个简单易用的一站式AI数字人系统，支持视频合成、声音合成、声音克隆，简化本地模型管理、一键导入和使用AI模型。

导致"何同学"翻车的开源库，一个Python编写的工具，能够将图像和视频转换成不同语言和格式的ASCII艺术作品

一个开源的安卓文件分享应用。能方便地将媒体和文本分享到另一台安卓手机

一键切换浏览器深色主题，有效减轻眼部疲劳，同时为您的浏览增添一份神秘与优雅。

开源的MacOS应用，能自动关闭用户不再使用的应用程序，从而帮助用户保持桌面整洁、释放更多内存以及延长电池寿命。

一款开源、轻量级（小于40KB）的文件浏览器，支持基本文件操作、文件名过滤、排序、存储切换、多文件共享、路径复制等功能

一个开源的安卓数独应用，旨在提供尽可能友好和可定制的用户体验。

开源的小说下载神器，适用于既想免费看新书，又想获得最佳的阅读体验的用户

一款开源的在线二维码生成器，它允许用户自定义数据和外观，生成美观的二维码。

小天才电话手表一键Root程序，使用Python制作

一个实用文件服务器，它支持静态文件服务、文件上传、搜索、访问控制以及 WebDAV 等功能。

一个快速创建专业logo的工具，完全开源，允许用户自定义风格和功能。

开源的纯前端 API 检测工具，支持各种 OpenAI API 中转服务的测活

零代码搭建小程序、H5、问卷、图文，一款功能强大、开源、免费的可视化搭建解决方案

一个简单而高效的论坛服务，几分钟之内构建属于自己的社区。

一个用 Flutter 开发的YouTube下载音乐和视频应用，并提供丰富的音乐播放功能。

免费的macOS一键去除图片背景应用，具备多种上传方式、原生性能优化，并提供深色与浅色模式

一个免费开源的跨平台视频压缩应用，由 FFmpeg 提供支持。适用于需要减少视频文件大小的用户。

一个免费的开源无代码网页数据提取平台，它允许用户在几分钟内通过无代码机器人将网站转换为API和电子表格。

在 Docker 容器中运行 Windows 系统，支持通过网页或远程桌面连接访问。还支持网络配置、文件共享和安装后脚本

一站式刷机工具箱，支持刷入 Recovery、修补 Boot、线刷、自定义刷入，还提供应用管理、无级调节、投屏等实用功能。

完整保留排版的 PDF 文档全文双语翻译，双语对照，保留公式和图表

一款功能强大的屏幕录制和动画编辑工具，它允许用户录制屏幕选定区域、摄像头实时视频或画板绘图，编辑后保存为GIF、视频等格式。

让安卓设备通过有线/无线的方式和电脑共享键盘鼠标

使用腾讯X5 WebView 开发的电视直播App

由粉丝社区自制的一系列开源的sprunki小游戏，在全球都很火

PC微信聊天记录数据导出工具，导出后数据可以做永久化保存，前端界面与微信界面保持一致。

一个强大的浏览器扩展，它允许用户快速预览链接内容，而无需打开新的标签页，同时提供智能的窗口管理和自定义设置选项。

一个专业的开源在线英文打字练习应用，致力于帮助用户提高英文打字速度和准确性。还配备了专业的数据分析和实时反馈系统。

一款开源 macOS 工具，用于下载并安装 Adobe 系列应用

一个开源且现代的 Windows 音量控制弹窗，为您在控制媒体时提供一个干净、原生般的无干扰体验。

一个开源的弹幕射击游戏，以东方Project为背景，支持多平台，包括Windows、Linux、macOS和WebGL浏览器。

Windows一键开启FTP文件服务器，方便其他设备通过网络传输、管理文件，支持IPv4，IPv6。

一款可以将您的手机、平板电脑等设备转变为高效远程宏键盘的开源软件。还能作为流媒体、游戏、内容创作等场景的强大自动化解决方案。

开源可商用的库存管理系统。采用福特亚太区售后物流仓储供应链流程，提供了客户管理、订单管理、库存管理、供应商管理、盘点等模块。

一个纯前端实现的文字转图片应用，您可以通过编辑器输入文本和图片，使用预设的 CSS 模板样式，快速生成预览，并导出为图片。

自动在预定时间切换Windows的深色和浅色主题。

一款支持多个大语言模型（LLM）服务商的桌面客户端，兼容 Windows、Mac 和 Linux 系统。

一款开源的模拟电话应用，专为想练习打电话的孩子设计。

面向胰腺癌肿瘤患者的智能RAG平台

微信视频号下载器，用起来单些，直接在视频页面下载。

金星错误引用了网友胡编乱造的名言出糗，所以为什么不用AI验证一下？

开源的文档管理系统，它将您的纸质文档转换为可在线搜索的档案，帮助您减少纸质文件的使用。

开源的手环在线阅读工具，支持「开源阅读」的规则

一个高颜值的浏览器书签查看工具

一个可自建的互联网归档解决方案，可以收集、保存和查看你想离线保存的网站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉