▼最近直播超级多,预约保你有收获
—1—
大模型 RAG 的难题是什么?
—2—
OmniParse 有哪些核心功能?
✅ 完全本地化,无需外部 API
✅ 适配 T4 GPU
✅ 支持约20种文件类型
✅ 将文档、多媒体和网页转换为高质量的结构化 Markdown
✅ 表格提取、图像提取/加标注、音频/视频转录、网页爬虫
✅ 易于使用 Docke r和 Skypilot 进行部署
✅ Colab 友好
✅ 由 Gradio 驱动的交互式用户界面
OmniParse 目前支持以下的数据类型,主流的数据格式都提供了良好的支持。
—3—
OmniParse 如何安装和使用?
目前 OmniParse 源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。
git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse
创建虚拟环境
conda create --n omniparse-venv python=3.10
conda activate omniparse-venv
安装依赖项
poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml
第二、通过 Docker 安装
也可以通过 Docker 来使用 OmniParse
docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse
第三、运行服务
#运行服务器:
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
#--documents:加载所有帮助您解析和提取文档的模型(Surya OCR 系列模型和 Florence-2)。
#--media:加载 Whisper 模型来转录音频和视频文件。
#--web:设置 selenium 爬虫。
启动后会提供一个 API 服务,展示内容参考如下:
第四、执行案例
第一、以下是执行文档解析的例子,可以解析 PDF、PowerPoint 或 Word 文档。
#Curl 命令:
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>
第二、解析图像文件(PNG、JPEG、JPG、TIFF、WEBP)。
#Curl 命令:
curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>
—4—
总结
—5—
加我微信
有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇
⬇戳”阅读原文“,立即预约!
END