日前,Reducto.ai宣布完成840万美元的种子轮融资,由 First Round Capital 领投,YCombinator、BoxGroup、SVAngel 和 Liquid2 等基金也参与其中。
用大模型处理文档是一个应用很广的领域,也是RAG的基本能力。
它的基本原理是:先把文档分块,然后根据用户问题,找到合适的块,把问题和块(有些也加一些扩展)送给大模型,形成答案。类似下图:
对于此类方案,文档的预处理很重要,预处理的效果决定RAG的效果。
很多开源系统对原始文档的预处理简单粗暴,基本用固定的长度块,里边会缺失很多信息,或导致错误,比如:分段被强行截断,行和列混乱,文档与表、图的关系缺失等。
Reducto 是一款基于 AI 的文档处理解决方案,采用视觉模型和 LLM 的最新进展,提供强大而可靠的文档处理方法。它可以智能地理解文档的布局,并使用专门的处理管道来处理每种内容类型,从多列布局和表格到图像和图形。
可以象人一样阅读文档。
这个方法,对开源的RAG方案是一个巨大的进步。
Reducto采用SaaS模式提供服务,支持web上传和API,已经支持多种文件格式,价格还比较贵:
大模型的重要应用场景是数据处理。各种文件格式的解析原来都是为人设计的,所以,在代码处理的时候,效果不理想。Reducto的方案,为RAG提供了一个更好的解决问题的途径。