介绍一个对话系统领域非常令人兴奋的新挑战 — FutureDial-RAG Challenge。这是一个依托 2024 IEEE SLT 国际会议,由中国移动研究院与清华大学联合组织的挑战赛,旨在推动检索增强生成(Retrieval Augmented Generation, RAG)在对话系统中的应用研究。
01
挑战背景
02
数据集介绍
MobileCS2数据集包含了6000多通中国移动的客服日志数据。在此数据基础上,赛事组织者对于其中的部分对话进行了标注。由于挑战赛聚焦于RAG,所以赛事组织者对于每一个对话轮次中的对于客服的查询意图以及其最终的查询结果进行了标注。
数据集最终包含2751通对话,并划分为训练集(1926通)、开发集(412通)和测试集(413通)。
对于以上提到的客服意图,一共涵盖了以上8类,其具体解释见上表。其中如果当轮中没有查询意图,那么就标为空;如果有查询意图,那就进行相应的标注。根据客服意图的标注结果,可以最终把意图相同的轮次进行了聚合,来建立数据库。对于标注为“查询用户信息”轮次,按照对话进行聚合,形成了每通对话独有的用户数据库(local_kb)。对于标注为“查询产品信息”轮次,按照整个数据集进行聚合,形成了一个整体的产品数据库。对于标注为“[QA]”轮次,按照整个数据集进行聚合,形成了一个FAQ数据库。最终的数据集包含了多种类型的知识库,如用户数据库、产品数据库和FAQ手册,为检索任务带来了挑战。
最终,为了数据的完整性,赛事组织者在数据的标注和整理之后又进行了脱敏以及翻译工作。最终的数据集包含中英文两个版本,适合全球研究者使用。
03
挑战赛内容
赛道1:基于知识库和对话上下文的信息检索 赛道2:对话系统中的检索增强生成
04
基线系统
05
评估
为了全面评估系统,赛事组织者设计了多个指标。对于检索器,使用召回率指标来评估检索器是否能够准确检索相关知识,最终的评测得分由系统在前一、前五、前二十的召回率之和计算得到。基线系统的检索结果如上图所示。由于在20个例子的召回率仅有0.573,说明该检索任务具有一定的挑战性。
对于生成器,评估系统是否能够生成信息丰富且连贯的响应,并计算综合评分。其中BLEU-4和BERTScore为语义相似度指标,而Inform指标衡量系统是否回答出了用户询问的关键信息,最终的综合评分由Score = 0.5 ∗ (BLEU/100 + BERT Score) + Inform计算得到。可以看到基线模型的Inform值比较低,说明该生成任务具有一定的挑战性。
06
总结
FutureDial-RAG Challenge研讨会已于2024年12月4日在IEEE SLT会议上圆满完成,促进了对话系统中RAG的研究。通过构建MobileCS2数据集,定义了两个核心研究问题,并构建了基线系统和评估指标。基线结果表明,这两个任务都非常具有挑战性,对促进社区研究如何更好地利用RAG提升对话系统的性能做出了积极贡献。
希望这篇文章能够帮助你更好地了解FutureDial-RAG Challenge,并激发你对人工智能对话系统新发展的兴趣。如果你对挑战感兴趣,可发送邮件到 FutureDialRAG (at) gmail (dot) com,提交申请获取数据集MobileCS-1,MobileCS-2。