10.29-3|知识冲突；对比专家、众包和基于LLM的数据标注优缺点；prompt与内在知识冲突，知识选择，标注错误检测

文摘 2024-10-29 10:23 西藏

大语言模型与知识冲突：知识冲突；对比专家、众包和基于LLM的数据标注优缺点；prompt与内在知识冲突，知识选择，标注错误检测

Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

2024-10-24｜Technion, Google Research|🔺11

http://arxiv.org/abs/2410.18889v1
https://huggingface.co/papers/2410.18889

研究背景与意义

在自然语言处理（NLP）领域，基准测试依赖于标准化的数据集来训练和评估模型，这些数据集对于推动该领域的发展至关重要。传统上，专家注释确保了高质量的标签，但随着现代模型对更大数据集的需求增长，专家注释的成本并不具备可扩展性。尽管众包提供了一种更具可扩展性的解决方案，但往往以牺牲注释的精确性和一致性为代价。

近年来，大型语言模型（LLMs）的进展为改善注释过程提供了新的机会，尤其是在检测现有数据集中的标签错误方面。本文探讨了利用LLM作为评判者的最新方法，通过一个案例研究，分析了来自TRUE基准的四个数据集的标签质量，并比较了专家、众包和基于LLM的注释在一致性、标签质量和效率方面的表现，揭示了每种注释方法的优缺点。

研究方法与创新

本研究提出了一种简单而有效的方法，通过构建一个使用多种提示的LLM集成模型，标记出一组可能被错误标记的示例。具体而言，我们利用多个LLM的预测标签和相应的置信度分数，比较其与原始标签的差异，并将强烈不一致的实例标记为潜在的错误标记案例。

我们不仅探讨了LLMs在检测错误中的作用，还评估了它们作为注释者的表现，比较了它们与专家和众包注释的质量和效率，强调了它们的优缺点。

实验设计与结果分析

在实验中，我们选择了TRUE基准作为案例研究，分析了四个不同任务的数据集。我们随机抽取了每个数据集中的1000个示例，并通过LLMs进行注释。在评估过程中，我们发现LLMs能够检测出6%至21%的标签错误，并且当LLMs对不一致标签的置信度超过95%时，超过三分之二的标签实际上是错误的。我们的实验结果表明，LLM基于的注释不仅在错误检测方面表现优异，而且在质量、规模和效率之间提供了更好的权衡。此外，我们还展示了标签错误对模型训练和评估的负面影响，并提出了处理这些错误的方法，以改善模型性能。

结论与展望

本文的研究表明，标签错误是NLP数据集中普遍存在的问题，严重影响模型的微调和评估。我们的发现显示，LLMs，特别是在高置信度情况下，能够有效地检测这些错误，超越众包工人的准确性、一致性和成本效率。

随着LLM能力的提升，它们在提高数据质量方面的作用将成为改善NLP基准的核心。未来的工作可以探索将基于LLM的错误检测应用于更广泛的数据集和任务，并优化标签修正策略。我们鼓励研究人员采用我们的研究方法，批判性地评估现有数据集，以推动该领域更可靠的结果。

Analysing the Residual Stream of Language Models Under Knowledge Conflicts

2024-10-21｜U Edinburgh, CUHK, Sapienza Uni. Rome, UCL, Miniml｜NeurIPS 2024|🔺5

http://arxiv.org/abs/2410.16090v1
https://huggingface.co/papers/2410.16090

研究背景与意义

在现代自然语言处理（NLP）领域，大型语言模型（LLMs）展示了其在知识存储和处理方面的显著能力。然而，随着对这些模型应用的深入，研究者们发现它们在处理知识冲突时可能会表现出不理想的行为。例如，当模型的参数知识（parametric knowledge）与上下文提供的信息（contextual knowledge）发生冲突时，模型可能会依赖于过时或不准确的信息。这种现象不仅影响模型的生成质量，也可能导致错误的决策。因此，理解LLMs如何识别和管理知识冲突，进而改善其知识选择过程，成为当前研究的一个重要方向。

本研究的目标是探讨LLMs在面对知识冲突时的内部机制，通过分析模型的残差流（residual stream），揭示其在处理知识冲突时的行为特征。这项研究不仅为理解LLMs在知识冲突中的表现提供了新的视角，也为未来开发更高效的知识选择控制方法奠定了基础。

研究方法与创新

本研究提出了一种新的方法，通过对LLMs残差流的探测，分析模型在知识冲突情况下的行为。具体而言，研究者们采用线性探测（linear probing）技术，利用中间层的激活信号来识别知识冲突的存在。通过实验证明，LLMs能够在其残差流中内部注册知识冲突的信号，并通过探测这些信号，准确地判断模型在生成答案时依赖于哪种知识来源（上下文知识或参数知识）。

与现有方法相比，本研究的创新点在于无需对输入或模型参数进行修改，就能实现知识冲突的检测。这一方法的优势在于其高效性和实用性，能够在不增加显著计算开销的情况下，实时识别和管理知识冲突，从而提升模型的生成质量和可靠性。

实验设计与结果分析

本研究的实验设计围绕开放域问答（ODQA）任务展开，具体通过构建包含知识冲突的实例集，分析模型在处理这些实例时的表现。通过对不同层次的激活信号进行探测，研究者们发现，残差流在模型的中间层（如第13层和第14层）表现出显著的知识冲突信号。这一发现表明，模型在处理知识冲突时，能够在其内部机制中有效地识别和区分不同来源的知识。

此外，实验结果显示，模型在使用上下文知识时，残差流的分布模式呈现出明显的偏斜性，而在使用参数知识时则表现出不同的模式。这一现象为预测模型在知识冲突情况下的行为提供了依据，有助于在生成答案之前，提前识别并减轻潜在的错误响应。

结论与展望

本研究深入分析了LLMs在知识冲突情况下的行为机制，揭示了模型如何通过残差流识别和管理知识冲突的内部机制。研究结果表明，LLMs不仅能够检测知识冲突，还能通过不同的激活模式反映出其对知识来源的依赖。这一发现为未来的研究提供了新的思路，尤其是在如何进一步优化模型的知识选择过程和提升其生成质量方面。

未来的工作可以集中在如何将这些发现应用于实际的NLP任务中，尤其是在知识密集型应用场景中，进一步提高模型的可靠性和准确性。同时，探索其他潜在的内部机制，可能为理解和控制LLMs的行为提供更深入的见解。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉