行业落地分享:RAG难点与创新应用

学术   2024-09-10 11:33   北京  

与常规的系统化内容分享不同,我们今天将聚焦于那些在实践中发现的难点和创新应用。我们相信,这些真实的案例和经验,能够给大家带来不同角度的思考和启发。

难点:文件解析

在落地实施中,我们遇到的第一个难点是文件解析。我们从今年年初开始,在许多企业的落地实施中发现,尽管我们自信能够解析大多数文件,但在实践中,我们遇到了很多我们甚至从未见过的文件类型。

在文件解析的挑战中,老旧文件的解析尤其突出。我们发现,尽管市面上的许多软件声称支持DOC格式,但它们往往不支持DOCX,这在国企和一些特定场景中非常常见。我们遇到了一些不完整的文件,这些文件的解析对我们来说是一个必须大力解决的问题。

难点:PDF 表格解析

另一个挑战是PDF表格的解析,这在金融行业、标准化工业领域等是非常刚需的。表格解析的难点在于,它需要精确地识别和处理表格数据,这对于自动化处理和数据分析至关重要。

OCR(光学字符识别)技术在处理纯图片文件时相对简单,但当图片与文字混合时,判断何时启动OCR成为一个挑战。我们需要开发智能的算法来识别何时需要启动OCR,以确保文本的准确识别。

难点:结构化数据融合

在索引过程中,我们不仅依靠大模型的能力,还进行了一系列的其他工作,以提高检索的准确性和效率。这包括:

  • 元数据处理:在上传文件的同时,我们自动处理文件的元数据,包括文件名称、属性信息和内容中的标题等,以提取实体和关系。
  • 意图识别:我们使用基于BERT的NER模型来理解用户的查询意图,并进行拆分和解析,以提高检索的准确性。

在提高检索和问答系统的效果方面,我们采用了Rerank技术,这是一种在多个环节中都能显著提升结果相关性和准确性的技术。

  • HNSW和交叉编码验证:我们使用HNSW(高维空间中的最近邻搜索)和交叉编码验证来提高检索的精度。
  • 密度函数:通过使用密度函数,我们能够舍弃那些相关度较低的结果,从而提高检索质量。

在问答系统中,每个答案都会默认显示相关的原文。但是,原文的显示并不一定与答案的匹配度完全一致。为了解决这个问题,我们在大模型给出最终答案后,再次使用Rerank技术进行比对,确保显示的原文与答案高度匹配。

场景 1:金融研报的挑战与创新

在金融行业,制作研报是一项耗时且复杂的过程。传统上,投资机构会派遣团队,花费数周时间研读数百份文件,以形成对一家公司的深入分析。这个过程不仅耗时,而且需要大量的人力资源。

  • 快速处理大量文件:用户可以将数百份文件一次性导入TorchV Assistant。
  • 直接提问,获得最佳答案:通过自然语言处理技术,用户可以直接向系统提问,如“这家公司最近3年的复合增长率是多少?”系统将从文件中提取最准确的答案。
  • 原文比对:系统提供原文比对功能,确保用户可以验证答案的准确性。
  • 内容快速生成:用户可以将答案快速整合到编辑器中,系统还能帮助生成图表,极大地加快了研报的草稿制作。

场景 2:零售行业的挑战与创新

在零售行业,面对成千上万的产品和复杂的客户需求,如何快速、准确地为客户提供满意的服务是一个巨大的挑战。

TorchV Doraemon,就像客户身边的哆啦A梦,能够快速理解复杂的客户需求,并从成千上万的产品中找到最合适的解决方案。以下是我们如何通过TorchV Doraemon改变游戏规则:

  • 快速理解客户需求:通过结合RAG(Retrieval-Augmented Generation)和Function-call,TorchV Doraemon能够快速理解产品的说明书和数据库,为客户提供最合适的产品推荐。
  • 简化导购流程:对于导购员来说,TorchV Doraemon能够识别出最合适的几款产品,大大简化了导购流程。
  • 多样的交互形式:TorchV Doraemon不仅仅支持问答形式,还可以通过图片和其他互动方式与客户进行交流。

场景 3:规则审批的挑战与创新

随着业务量的增加,合同和项目审批的工作量也随之增加。传统的审批流程往往耗时且效率低下,特别是在法务审核合同时,反复的修改和审核过程会浪费大量时间。

TorchV Comparison,基于规则和上下文的审批系统,能够帮助企业快速完成合同和项目的预审工作。以下是我们如何通过TorchV Comparison改变游戏规则:

  • 合同预审:业务部门可以直接提交合同,系统会根据预设的规则(如必填项、歧义词分析、权利义务对等、合法合规等)进行自动审核。
  • 项目预审:对于项目评审,系统也可以根据每个项目的特定规则进行预审,大大提高了审批的准确性和效率。
  • 元数据的利用:系统利用元数据提高审批的精确度,确保审批结果更加可靠。

实践中的挑战与思考

  1. 功能小而精:我们追求的是小而精的功能,而非大而全。这意味着我们需要明确目标,量化指标,例如提高销售量、缩短合同评审时间等,这些都是可以明确衡量的成果。
  2. 高质量:在技术实现上,我们需要确保高质量。这涉及到在当前技术环境下,对客户需求的合理评估,以及对技术能力的准确把握。
  3. 高价值:我们关注的是为客户带来的实际价值。如果一个功能背后的目标具有高价值,那么这将是我们的首要任务。

在实际的落地过程中,我们发现这个过程并不像想象中的那么“性感”,而是充满了挑战。从与客户交流确认方案,到POC(Proof of Concept,概念验证),再到部署实施,以及后续的培训和陪跑,这是一个漫长而复杂的过程。


原始视频:https://www.bilibili.com/video/BV1KCpVehEAh/

卢向东 杭州萌嘉创始人


 学习大模型 & 讨论Kaggle  #


△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
 最新文章