【AI对话系统新挑战】FutureDial-RAG Challenge详解

文摘   2024-12-19 18:05   北京  

介绍一个对话系统领域非常令人兴奋的新挑战 — FutureDial-RAG Challenge。这是一个依托 2024 IEEE SLT 国际会议,由中国移动研究院与清华大学联合组织的挑战赛,旨在推动检索增强生成(Retrieval Augmented Generation, RAG)在对话系统中的应用研究。



01

挑战背景



开发智能对话系统一直是人工智能领域长期追求的目标。近年来,随着深度学习方法的突破以及大量对话数据的积累,对话系统的建设取得了显著进展。然而,面向未来构建对话系统仍然面临着许多挑战。首届未来对话系统挑战赛(FutureDial)——半监督和强化任务型对话系统挑战赛及研讨会(SereTOD)聚焦于构建半监督和强化的任务型对话系统,依托EMNLP 2022 已成功举办,详情见http://seretod.org/。这次的第二届未来对话挑战赛,主要聚焦于检索增强生成(RAG)技术,详情见http://futuredial.org/

检索增强生成技术,通过结合检索和生成能力,能够从外部知识库中检索相关信息,从而提高文本生成的准确性和多样性,减少事实错误,并提高文本的可信度和准确性。RAG技术的主要应用场景包括开放域问答、对话系统和文档摘要与生成等,这些场景需要大量的背景知识和精确的上下文理解。尽管如此,基于RAG的对话系统仍面临挑战,例如如何从多个知识源检索知识、如何构建有效利用现有工具和API调用的RAG对话系统等。

为了进一步推动在对话系统构建中利用RAG技术的研究,赛事组织者发布了中英文双语对话数据集MobileCS2,并组织了包括两个赛道的挑战赛:基于知识库和对话上下文的信息检索(赛道1)以及对话系统中的检索增强生成(赛道2)。

通过这个挑战,赛事组织者希望能够促进社区研究更好地利用RAG技术提升对话系统性能,并解决实际应用中遇到的问题。


02

数据集介绍



MobileCS2数据集包含了6000多通中国移动的客服日志数据。在此数据基础上,赛事组织者对于其中的部分对话进行了标注。由于挑战赛聚焦于RAG,所以赛事组织者对于每一个对话轮次中的对于客服的查询意图以及其最终的查询结果进行了标注。



数据集最终包含2751通对话,并划分为训练集(1926通)、开发集(412通)和测试集(413通)。



对于以上提到的客服意图,一共涵盖了以上8类,其具体解释见上表。其中如果当轮中没有查询意图,那么就标为空;如果有查询意图,那就进行相应的标注。根据客服意图的标注结果,可以最终把意图相同的轮次进行了聚合,来建立数据库。对于标注为“查询用户信息”轮次,按照对话进行聚合,形成了每通对话独有的用户数据库(local_kb)。对于标注为“查询产品信息”轮次,按照整个数据集进行聚合,形成了一个整体的产品数据库。对于标注为“[QA]”轮次,按照整个数据集进行聚合,形成了一个FAQ数据库。最终的数据集包含了多种类型的知识库,如用户数据库、产品数据库和FAQ手册,为检索任务带来了挑战。


最终,为了数据的完整性,赛事组织者在数据的标注和整理之后又进行了脱敏以及翻译工作。最终的数据集包含中英文两个版本,适合全球研究者使用。


03

挑战赛内容

基于MobileCS2数据集,挑战分为两个赛道:

  • 赛道1:基于知识库和对话上下文的信息检索
  • 赛道2:对话系统中的检索增强生成

其中赛道一聚焦于根据对话的上文内容,从多个数据库中找出最合适的知识片段。而赛道二聚焦于对话的回复生成,即根据对话上文以及检索出的知识片段,生成一个合理的客服回复。


04

基线系统



对于两个赛道,赛事组织者搭建了如上的基线系统。赛道一的信息检索任务使用了图(a)中所示的双塔模型。对于上文c_t使用一个上文编码器进行编码,而对于知识片段z_i使用一个知识编码器进行编码,两者编码的内积即为最终的相似度。由于在标注数据中含有真实的知识片段,训练中可以采用经典的对比损失进行训练,而测试时只需找到内积排名靠前的即为最终需要的知识片段。

赛道二的回复生成任务使用了图(b)中所示的自回归生成模型。给定上文c_t,以及赛道一检索出的知识h_t,模型自回归的生成回复r_t。


05

评估



为了全面评估系统,赛事组织者设计了多个指标。对于检索器,使用召回率指标来评估检索器是否能够准确检索相关知识,最终的评测得分由系统在前一、前五、前二十的召回率之和计算得到。基线系统的检索结果如上图所示。由于在20个例子的召回率仅有0.573,说明该检索任务具有一定的挑战性。



对于生成器,评估系统是否能够生成信息丰富且连贯的响应,并计算综合评分。其中BLEU-4和BERTScore为语义相似度指标,而Inform指标衡量系统是否回答出了用户询问的关键信息,最终的综合评分由Score = 0.5 ∗ (BLEU/100 + BERT Score) + Inform计算得到。可以看到基线模型的Inform值比较低,说明该生成任务具有一定的挑战性。


06

总结


FutureDial-RAG Challenge研讨会已于2024年12月4日在IEEE SLT会议上圆满完成,促进了对话系统中RAG的研究。通过构建MobileCS2数据集,定义了两个核心研究问题,并构建了基线系统和评估指标。基线结果表明,这两个任务都非常具有挑战性,对促进社区研究如何更好地利用RAG提升对话系统的性能做出了积极贡献。



希望这篇文章能够帮助你更好地了解FutureDial-RAG Challenge,并激发你对人工智能对话系统新发展的兴趣。如果你对挑战感兴趣,可发送邮件到 FutureDialRAG (at) gmail (dot) com,提交申请获取数据集MobileCS-1,MobileCS-2。


永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章