AutoRAG:RAG AutoML工具可自动为你的数据找到最佳RAG Pipeline。
AutoRAG支持的RAG技术栈
支持16种解析模块、10种切块模块
解析模块:PDFMiner,PDFPlumber,PyPDFium2,PyPDF,PyMuPDF,UnstructuredPDF,NaverClovaOCR,llama Parse,Upstage Document Parser,Directory,Unstructured,csv,json,unstructuredmarkdown,bshtml,unstructuredxml
切块模块:Token,SentenceTransformersToken,Character,RecursiveCharacter,Sentence,Konlpy ,Semantic_llama_index,SemanticDoubleMerging,SentenceWindow,SimpleFile
支持40种检索、排序、生成模块
重排:UPR,Tart,MonoT5,Cohere reranker,RankGPT,Jina Reranker,Sentence Transformer Reranker,Colbert Reranker,Flag Embedding Reranker,Flag Embedding LLM Reranker,Time Reranker,OpenVINO Reranker,VoyageAI Reranker,MixedBread AI Reranker,,,Ko-reranker,,,pass_reranker
Query理解:query_decompose,hyde,multi_query_expansion,pass_query_expansion
检索:bm25,vectordb,hybrid_rrf,hybrid_cc
Precision,Recall,F1,MRR (Mean Reciprocal Rank),MAP (Mean Average Precision),NDCG (Normalized Discounted Cumulative Gain),Token Precision,Token Recall,Token F1,BLEU,ROUGE,METEOR,Sem Score,G-Eval,Bert Score
数据创建
RAG优化需要两种类型的数据:QA 数据集和 Corpus 数据集。
QA数据集文件 (qa.parquet)
语料库数据集文件(corpus.parquet)
QA数据集对于准确可靠的评估和优化非常重要。
语料库数据集对于 RAG 的性能至关重要。这是因为 RAG 使用语料库来检索文档并使用它生成答案。
RAG优化步骤
https://github.com/Marker-Inc-Korea/AutoRAG
https://arxiv.org/pdf/2410.20878
AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation Pipeline
来源 | PaperAgent