4.5K Stars！为 RAG 而生的数据工程神器！！

科技科技 2024-08-03 08:16 北京

▼最近直播超级多，预约保你有收获

—1—

大模型 RAG 的难题是什么？

RAG 或者 Fine-tuning 微调作为大模型的增强技术，最核心的技术在于如何把企业的私有数据清洗转换成知识，企业中能够第一时间拿到的私有数据，往往是异构的、数据质量参差不齐，通过数据工程把数据变成知识就不是一件很容易的事儿。

OmniParse 正是为此而生的利器！它将任何非结构化数据转换为结构化知识。

Github 地址：https://github.com/adithya-s-k/omniparse

—2—

OmniParse 有哪些核心功能？

OmniParse是一个平台，能够将任何非结构化数据摄取并解析为结构化、可操作的数据，这些数据已针对大模型应用程序进行了优化。无论您正在处理文档、表格、图像、视频、音频文件还是网页，OmniParse 都会使您的数据变得干净、结构化，并为诸如 RAG、微调等 AI 大模型应用程序做好准备。

OmniParse 平台核心特性如下所示：

✅ 完全本地化，无需外部 API
✅ 适配 T4 GPU
✅ 支持约20种文件类型
✅ 将文档、多媒体和网页转换为高质量的结构化 Markdown
✅ 表格提取、图像提取/加标注、音频/视频转录、网页爬虫
✅ 易于使用 Docke r和 Skypilot 进行部署
✅ Colab 友好
✅ 由 Gradio 驱动的交互式用户界面

OmniParse 目前支持以下的数据类型，主流的数据格式都提供了良好的支持。

—3—

OmniParse 如何安装和使用？

OmniParse 平台支持以下2种安装方式：

第一、通过源码直接安装

目前 OmniParse 源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。

git clone <https://github.com/adithya-s-k/omniparse>cd omniparse

创建虚拟环境

conda create --n omniparse-venv python=3.10conda activate omniparse-venv

安装依赖项

poetry install# orpip install -e .# orpip install -r pyproject.toml

第二、通过 Docker 安装

也可以通过 Docker 来使用 OmniParse

docker build -t omniparse .# if you are running on a gpudocker run --gpus all -p 8000:8000 omniparse# elsedocker run -p 8000:8000 omniparse

第三、运行服务

#运行服务器：python server.py --host 0.0.0.0 --port 8000 --documents --media --web
#--documents：加载所有帮助您解析和提取文档的模型（Surya OCR 系列模型和 Florence-2）。#--media：加载 Whisper 模型来转录音频和视频文件。#--web：设置 selenium 爬虫。

启动后会提供一个 API 服务，展示内容参考如下：

第四、执行案例

第一、以下是执行文档解析的例子，可以解析 PDF、PowerPoint 或 Word 文档。

#Curl 命令：curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>

第二、解析图像文件（PNG、JPEG、JPG、TIFF、WEBP）。

#Curl 命令：
curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>

—4—

总结

OmniParse 旨在构建一个全面的数据摄取与解析平台，该平台能够处理包括文档、图像、音频、视频及 Web 内容在内的各类数据，并输出高度结构化、易于操作且专为 GenAI（大型语言模型）优化的数据。当前，该项目的核心理念展现出良好的实用性，尽管在实际应用中仍面临一些待完善的方面。例如，它在处理英语数据方面表现出色，但面对中文等语言时可能会遇到挑战；同时，对于 PDF 文件中的公式转换为 LaTeX 格式，也存在一定的难度。当然相信随着开源社区持续的更新，这些问题都会逐步解决。

为了帮助同学们彻底掌握大模型 RAG、微调、Agent 等应用的深层原理，在企业中的应用实践，今天我会开场直播和同学们深度剖析，请同学们点击以下预约按钮免费预约。

—5—

加我微信

有很多不方便公开发公众号的我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“，立即预约！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654451510&idx=1&sn=65439fcdc770cffc0044f5d246946b50

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

中秋限时特供！独家资源大放送，错过再等一年！

通俗易懂理解知识图谱+大模型

知识图谱与大模型的深度结合策略剖析

15种先进的检索增强生成（RAG）技术

2024，裁员根本停不下来！

GPT-5 训练失败的4点思考

阿里P8们全面溃败。。。

15年过去了，TA依旧还是这样？

如何利用RAG+Agent轻松解决企业复杂问题？

一台MacBook搭建商用级RAG知识库

形势越来越严峻了，到处都在降薪或延发工资...

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

9.6K Stars！这款超实用的 AI 知识库问答系统：MaxKB

比裁员更侮辱人的事发生了。。。

一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

一台MacBook搭建商用级RAG知识库

RAG 架构设计三阶段演进之路

一个人，一年 300W 美元...

57K Stars！这款轻量级Web服务器成为Nginx的理想替代者，实现自动HTTPS功能。

许多公司，已经发不出工资了！尽早做好准备吧

提升 RAG 系统的回答质量：构建高效的 Prompt

大厂今年的薪资。。。

一台MacBook搭建商用级知识库

GraphRAG + Ollama 本地部署全攻略：避坑实战指南

IntelliJ IDEA 2024.2 正式发布，内置 AI，新款默认 UI 太震撼了！

揭秘AI大模型独家福利！你绝不能错过的宝藏资源！

又是删库跑路？传疯了，知名 App 最新回应

一个更小、更快、更干净的 GraphRAG！！

大模型RAG架构落地的十大挑战

全新GPT-4o mini发布！大模型杀疯了！

基于Llama 3.1和一台MacBook搭建商用级知识库

GraphRAG 项目升级！现已支持 Ollama 本地模型接入，打造交互式 UI 体验

一个好朋友的经历，大家也做好准备吧。。。

记我的百万年薪：一竿子到底，相信时间的复利！

Transformer 动画揭秘：数据处理的四大关键技术

大佬吴恩达，yyds！！

腾讯宣布全员调薪了。。。

一文彻底理解大模型 Agent 智能体原理和案例

裁员了，很严重，大家做好准备吧。。。

7K Stars！这款文本转语音（TTS）的效果太震撼，网络上的声音评价真是不能轻信啊！！

聊聊蚂蚁开源多 Agent 框架 muAgent 的架构设计

重磅！LangChain 官方发布 Agent IDE！！

4.5K Stars！为 RAG 而生的数据工程神器！！

赔偿金额高达2N+12！裁员赔偿的新纪录再次被刷新？

RAG 的尽头是 Agent？

RAG 开发四大痛点及解决方案

基于Llama 3.1和一台MacBook搭建商用级知识库

阿里终于开源数字人技术！！

大厂今年的薪资。。。

公司裁员为何总是先从技术人员下手？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉