大模型的数据合成与增强技术总结:兼看文档版式分析及RAG今年进展

文摘   2024-10-19 12:08   北京  

今天是2024年10月19日,星期六,北京,天气晴。

我们来看2个话题,回顾文档智能版式分析及RAG上的今年进展、并看大模型的数据合成与增强综述。

供大家一起参考并思考。

一、文档版式分析及RAG今年进展

回顾下今年的两个工作:

一个是文档智能进展,团队的版式分析地址更新,变至https://github.com/360AILABNLP/360LayoutAnalysis

在文档版式分析中,精细化的标注非常有必要,其中:段落的标注尤其关键,因为它直接影响到文本的语义理解和信息提取。当前,在版式分析领域,据我们了解,在论文场景中,以往的开源数据集如:CDLA(A Chinese document layout analysis),缺乏对段落信息的标注;在研报场景中的版式分析模型还相对空缺。

因此,为了解决这一问题,我们通过人工标注的方式对论文文档进行细粒度标签改造以及数据优化,并构建起研报场景细粒度版式分析数据集,最好利用这些标注数据集,训练了多个全新的中文文档版式分析模型,在封闭测试集上表现优异。

当前,新增中文教材场景版式分析模型,开源版式分析模型达到5个。

另一个是,在RAG方案,老刘(刘焕勇)合作参与的CRUD-RAG: 用于检索增强生成大模型的全面中文基准: 《CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models》(https://arxiv.org/pdf/2401.17043) ,已被CCF-A类国际学术期刊ACM-TOIS(ACM Transactions on Information Systems)接收,也是今年的不错的成果。

二、大模型的数据合成与增强综述

大模型数据工程进展-大模型的数据合成与扩充综述,A Survey on Data Synthesis and Augmentation for Large Language Models ,详细介绍了数据生成的两个主要方法:数据扩充和合成 :https://arxiv.org/pdf/2410.12896。这个工作不错,探讨了大模型在训练和评估过程中对大量、多样化和高质量数据的需求,并分析了当前数据生成技术的发展状况,值得看看。

可以看几个点:

2、数据合成和增强技术的演进步骤

3、数据准备阶段中数据合成和增强技术概览

表格按照不同的研究方法分类,展示了它们使用的数据源以及生成的合成数据

4、预训练中的数据合成和增强技术概览

5、微调中的数据合成和增强技术概览

6、指令微调的数据合成和增强技术概览

参考文献

1、https://arxiv.org/pdf/2410.12896

2、https://github.com/360AILABNLP/360LayoutAnalysis

3、https://arxiv.org/pdf/2401.17043

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章