作者:bhn (已获授权)
链接:https://arxiv.org/abs/2309.17415
背景
这篇文章研究的是大模型生成任务中,出现上下文信息,与模型本身的知识冲突时(常见于rag场景),模型的处理方式。冲突具体分类为,上下文内容正确,但是模型本身知识错误,模型能采取上下文中的事实吗?或者上下文内容错误,模型本身知识是正确的,模型会选择相信本身的知识吗?
在前面冲突分类的基础上,作者基于认知理论,将模型分类为直觉型(即相信知识),依赖型(即相信上下文),理性/非理性型(前两者中间,时而直觉,时而依赖)。
本文的工作
本文工作的主要思想是基于以上的分类,设计了一个完整的benchmark框架,包括数据集,评价pipeline,评价指标。
数据集(KRE)设计
数据集的设计是在MRC和CR数据集上构造冲突答案和冲突上下文,以实现两种冲突构造。评估pipeline 知识(记忆)评估:让模型在数据集上做问答,答案正确则代表模型有这个知识,答案错误则代表没有这个知识。针对每个模型,将数据集分类为知识正确部分,知识错误部分。 事实鲁棒性评估:在知识评估的基础上,对知识正确部分添加错误上下文,评价模型的**Vulnerable Robustness (VR)能力。对知识错误部分,添加正确上下文,评价模型的Resilient Robustness (RR)**能力。 few-shot评估:即在添加上下文的基础上,在添加few-shot,进行模型VR,RR能力评估。few-shot也进行了特殊的设计,分为示例全正确,示例全错误,混合型。 决策风格分析:根据模型前面的评估,认知理论,对模型进行划分。DMSS得分接近1为直觉型,即依靠记忆,接近-1为依靠型,即依赖上下文提示。 角色扮演干涉:即添加“you are a writing assistant”这类prompt,判断模型是否能被影响。prompt分为两类:依赖型,要求模型依赖上下文;直觉型,要求模型依赖模型知识。
实验分析
知识评估:ChatGPT都优于Vicuna-13B ,但是在常识问答上表现都好,大模型能够捕获常识这种常见知识。 事实鲁棒性评估:选取的两个模型在VR评分上都不高,而在RR评分上都挺高。说明上下文对模型的影响程度很大。ChatGPT依旧在各个评分上领先。 few-shot评估:在有上下文的前提下,few shot的影响不是很大,尤其是ChatGPT RR指标。而对于Vicuna模型few shot全正案例的情况下,反而会降低模型VR性能,RR性能也不是像我们直觉上的一样,全正评分>混合>全负。 模型风格划分,以及角色扮演:七个模型中有四个是依赖性,LLaMA-13B是直觉型,猜测原因是没有经过微调。由于模型参数更多,GPT-4和Bard则为理性型(即在VR,RR评分都高)。在角色扮演上,LLaMA-2-13B-chat”具有更好的评分,表面他更擅长遵循指令,但是综合性能不行。
个人评价
虽然一开始觉得这个主题想法很新颖,但是看完一整篇下来,感觉得出的结论并没有得到想要的结果。还是遵循着模型越大,综合能力越好,以及上下文学习和微调是强相关的。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦