Reducto 用AI解析复杂非结构化文档,种子轮840万美元

2024-11-02 10:15   北京  

日前,Reducto.ai宣布完成840万美元的种子轮融资,由 First Round Capital 领投,YCombinator、BoxGroup、SVAngel 和 Liquid2 等基金也参与其中。

需求背景

用大模型处理文档是一个应用很广的领域,也是RAG的基本能力。

它的基本原理是:先把文档分块,然后根据用户问题,找到合适的块,把问题和块(有些也加一些扩展)送给大模型,形成答案。类似下图:

对于此类方案,文档的预处理很重要,预处理的效果决定RAG的效果。

很多开源系统对原始文档的预处理简单粗暴,基本用固定的长度块,里边会缺失很多信息,或导致错误,比如:分段被强行截断,行和列混乱,文档与表、图的关系缺失等。

Reducto的方案

Reducto 是一款基于 AI 的文档处理解决方案,采用视觉模型和 LLM 的最新进展,提供强大而可靠的文档处理方法。它可以智能地理解文档的布局,并使用专门的处理管道来处理每种内容类型,从多列布局和表格到图像和图形。

可以象人一样阅读文档。

这个方法,对开源的RAG方案是一个巨大的进步。

商业模式

Reducto采用SaaS模式提供服务,支持web上传和API,已经支持多种文件格式,价格还比较贵:


评价

大模型的重要应用场景是数据处理。各种文件格式的解析原来都是为人设计的,所以,在代码处理的时候,效果不理想。Reducto的方案,为RAG提供了一个更好的解决问题的途径。


AI与安全
理清逻辑,找到规律,看清趋势。作者前华为云高级安全专家,现为独立顾问。
 最新文章