AAAI 2024|大模型论文总结(下)

文摘   2024-06-25 07:42   北京  

上篇介绍前20篇关于大语言模型的文章,本次将继续介绍剩下的55篇文章。(如有疏漏,欢迎大家补充)。

21.Hypothesis, Verification, and Induction: Grounding Large Language Models with Self-driven Skill Learning

作者:Shaohui Peng, Xingui Hu, Qi Yi, Rui Zhang, Jiaming Guo, Di Huang, Zikang Tian, Rui Chen, Zidong Du, Qi Guo, Yunji Chen, Ling Li

摘要:Grounding 问题阻碍了大模型在现实环境的应用,现有的研究尝试通过微调和利用与定义的行为API来桥接现实与大模型,但是比较消耗人力物力。为了自动落地大模型,提出了HYVIN框架和自我驱动的技能学习。Hy:分解任务为子任务,生成检查函数Ve:基于检查函数,为每个子任务训练单独策略,验证可行性。In:将语义相近的可完成的子任务分组强化学习通用的技能De:基于学习到的技能,LLM来生成更复杂的任务

22.Bootstrapping Cognitive Agents with a Large Language Model

作者:Feiyu Zhu, Reid Simmons

摘要:大模型包含有噪声的通用知识,很难训练微调。认知架构包含很强的可解释性,方便更新,但是很难实例化。我们结合了两部分,提出了利用大模型噪声知识编码增强基于认知的模型。实验证明,大模型是认知架构很好的信息源,认知架构反过来可以验证大模型的知识。

23.Improving Automatic VQA Evaluation Using Large Language Models

作者:Oscar Mañas, Benno Krojer, Aishwarya Agrawal

摘要:视觉问答(VQA)任务提出 8 年后,准确性仍然是自动评估的主要指标。迄今为止,VQA Accuracy 在 IID 评估设置中一直有效。然而,我们的社区正在经历向开放式生成模型和 OOD 评估的转变。在这个新范式中,现有的 VQA 准确度指标过于严格,并且低估了 VQA 系统的性能。因此,需要开发更强大的自动 VQA 指标来作为人类判断的代理。在这项工作中,我们建议利用指令调整大语言模型 (LLM) 的上下文学习功能来构建更好的 VQA 指标。我们将 VQA 评估制定为答案评分任务,其中LLM被指示在给定一组参考答案的情况下对候选答案的准确性进行评分。我们证明,与多个 VQA 模型和基准的现有指标相比,所提出的指标与人类判断更好地相关。我们希望我们的指标的广泛采用将有助于更好地估计 VQA 任务的研究进展。我们计划发布评估代码并收集人类的判断。

24.UniGen: A Unified Generative Framework for Retrieval and Question Answering with Large Language Models

作者:Xiaoxi Li, Yujia Zhou, Zhicheng Dou

摘要:生成信息检索包括生成文档检索(GDR)和接地答案生成(GAR)两大任务,在信息检索和自然语言处理领域获得了极大的关注。GDR 和 GAR 的现有方法依赖于单独的检索和阅读器模块,这阻碍了同时优化。为了克服这个问题,我们提出了 \textbf{UniGen},这是一个用于检索和问答的 \textbf{Uni}fied \textbf{Gen} 生成框架,它利用大型语言模型的功能将这两个任务集成到一个生成模型中。UniGen 采用共享编码器和两个不同的解码器来进行生成检索和问题回答。为了促进这两项任务的学习,我们引入了由大型语言模型生成的连接器,以弥合查询输入和生成目标之间以及文档标识符和答案之间的差距。此外,我们提出了一种迭代增强策略,利用生成的答案和检索的文档来迭代改进这两项任务。通过对 MS MARCO 和 NQ 数据集的大量实验,我们证明了 UniGen 的有效性,展示了其在检索和问答任务中的卓越性能。

25. LLMRG: Improving Recommendations through Large Language Model Reasoning Graphs

作者:Yan Wang, Zhixuan Chu, Ouyang Xin, Simeng Wang, Hongyan Hao, Yue Shen, Jinjie Gu, Siqiao Xue, James Y. Zhang, Qing Cui, Longfei Li, Jun Zhou, Sheng Li

摘要:推荐系统旨在为用户提供相关建议,但往往缺乏可解释性,无法捕获用户行为和个人资料之间的更高层次的语义关系。在本文中,我们提出了一种利用大型语言模型(LLM)构建个性化推理图的新颖方法。这些图表通过因果和逻辑推理将用户的个人资料和行为序列联系起来,以可解释的方式表示用户的兴趣。我们的方法,LLM 推理图(LLMRG),有四个组成部分:链式图推理、发散扩展、自我验证和评分以及知识库自我完善。生成的推理图使用图神经网络进行编码,该神经网络可作为改进传统推荐系统的附加输入,而不需要额外的用户或项目信息。我们的方法展示了法学硕士如何通过个性化推理图启用更具逻辑性和可解释性的推荐系统。LLMRG 允许推荐受益于工程推荐系统和 LLM 派生的推理图。我们证明了 LLMRG 在基准和现实场景中增强基本推荐模型的有效性。

26. SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

作者:Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and Kai Yu

摘要:最近,人们对使用大型语言模型 (LLM) 进行科学研究越来越感兴趣。人们提出了许多基准来评估法学硕士的科学研究能力。然而,当前的基准大多基于预先收集的客观问题。该设计存在数据泄露问题,且缺乏主观问答能力的评估。在本文中,我们提出了 SciEval,一个全面的多学科评估基准来解决这些问题。SciEval基于Bloom分类法,涵盖四个维度来系统评价科研能力。特别是,我们根据科学原理设计了一个“动态”子集,以防止评估潜在的数据泄露。SciEval 中包含客观和主观问题。这些特点使得SciEval成为法学硕士科研能力评价更为有效的标杆。对大多数高级 LLM 的综合实验表明,尽管与其他 LLM 相比,GPT-4 实现了 SOTA 性能,但仍然存在很大的改进空间,特别是对于动态问题。代码和数据可在 https://github.com/OpenDFM/SciEval 上公开获取。

27.Tim:Teaching Large Language Models to Translate with Comparison

作者:Jiali Zeng, Fandong Meng, Yongjing Yin, Jie Zhou

摘要:开源大语言模型(LLM)在指令调优的各种任务中表现出了显着的功效。然而,这些模型有时可能会难以完成需要更专业知识的任务,例如翻译。造成这种缺陷的一个可能原因是指令调整的目的是生成流畅且连贯的文本,该文本从给定的指令继续,而不受任何特定于任务的要求的约束。此外,用较低质量的训练数据来调整较小的法学硕士可能更具挑战性。为了解决这个问题,我们提出了一个新颖的框架,使用示例来教法学硕士学习翻译。我们的方法涉及输出比较和偏好比较,为模型提供精心设计的正确和错误翻译的示例,以及额外的偏好损失以实现更好的正则化。对 WMT2022 和 FLORES-200 基准的四个语言方向的实证评估表明,我们提出的方法相对于现有方法的优越性。我们的研究结果为微调法学硕士翻译任务提供了新的视角,并为生成高质量翻译提供了一个有前景的解决方案。更多详情请参考Github:https://github.com/lemon0830/TIM。

28. LLM vs Small Model? Large Language Model based Text Augmentation Enhanced Personality Detection Model

 作者:Linmei Hu, Hongyu He , Duokang Wang , Ziwang Zhao , Yingxia Shao , Liqiang Nie  

摘要:人格检测旨在检测社交媒体帖子中潜在的人格特征。这项任务的一个挑战是缺乏从自我报告问卷中收集的真实人格特征。大多数现有方法在有限的个性标签的监督下,通过微调预训练的语言模型来直接学习帖子中的人格特征。这会导致后期特征质量较差,从而影响性能。此外,大多数方法将人格特质视为热门分类标签,但忽略了其中的语义信息。在本文中,我们提出了一种基于大语言模型(LLM)的文本增强型人格检测模型,即使LLM在此任务中失败了,该模型也能提炼LLM的知识来增强人格检测的小模型。具体来说,我们使LLM能够从语义、情感和语言方面生成(增强过的)后期分析,这对于人格检测至关重要。使用对比学习将它们在嵌入空间中整合在一起,后编码器可以更好地捕获后表示中的心理语言信息,从而改善个性检测效果。此外,我们利用LLM来丰富个性标签的信息,以提高检测性能。基准数据集的实验结果表明,我们的模型在人格检测方面优于最先进的方法。

29. Mitigating Large Language Model Hallucinations via Autonomous Knowledge Graph-based Retrofitting 

作者:Xinyan Guan, Yanjiang Liu, Hongyu Lin, Yaojie Lu1, Ben He, Xianpei Han, Le Sun,  

摘要:利用知识图谱中存储的事实知识被认为是减轻大语言模型(LLMs)幻觉的一种方法。现有方法通常仅使用用户的输入来查询知识图谱,无法解决LLMs在推理过程中产生的幻觉。本文提出了基于知识图谱的改造(KGR),根据知识图谱中存储的事实知识对LLMs的初始响应草案(Draft Response)进行改造,以减轻推理过程中的幻觉。具体来说,KGR 利用 LLM 在模型生成的响应中提取、选择、验证和改进事实陈述,从而实现自主知识验证和提炼过程,无需任何额外的手动操作。实验表明,KGR 可以显著提高 LLM 在事实 QA 基准上的表现,尤其是在涉及复杂推理过程时,这证明了 KGR 在减轻幻觉和增强 LLM 可靠性方面的必要性和有效性。

30. What Makes Quantization for Large Language Model Hard? An Empirical Study from the Lens of Perturbation 

作者:Zhuocheng Gong, Jiahao Liu, Jingang Wang, Xunliang Cai, Dongyan Zhao, Rui Yan  

摘要:量化已成为一种有前景的技术,可提高大型语言模型 (LLM) 的内存和计算效率。尽管性能和效率之间的权衡是众所周知的,但关于量化和 LLM 性能之间的关系,仍有很多东西需要了解。为了阐明这种关系,我们提出了一种关于量化的新视角,将其视为添加到 LLM 的权重和激活中的扰动。我们将这种方法称为“扰动透镜”。使用这个透镜,我们进行了各种人工扰动的实验,以探索它们对LLM表现的影响。我们的研究结果揭示了扰动特性与 LLM 性能之间的多种联系,提供了对均匀量化失败案例的见解,并提出了提高 LLM 量化鲁棒性的潜在解决方案。为了证明我们研究结果的重要性,我们根据我们的见解实施了一种简单的非均匀量化方法。实验表明,这种方法在 4 位权重量化和 8 位权重和激活量化方面实现了最小的性能下降。这些结果验证了我们方法的正确性,并突显了其在不牺牲性能的情况下提高LLM效率的潜力。

31. Large Language Models are Neurosymbolic Reasoners 

作者:Meng Fang1, Shilong Deng, Yudi Zhang, Zijing Shi, Ling Chen, Mykola Pechenizkiy, Jun Wang 

 摘要:现实世界中广泛的应用都具有符号性质,因此需要强大的符号推理能力。本文研究了大型语言模型 (LLM) 作为符号推理器的潜在应用。我们专注于基于文本的游戏,这是具有自然语言能力的智能体的重要基准,特别是在数学、地图阅读、排序和在基于文本的世界中应用常识等符号任务中。为了促进这些代理的发展,我们提出了一个 LLM 代理,旨在解决象征性挑战并实现游戏中的目标。我们首先初始化 LLM 代理并告知其角色。然后代理经由特定的符号模块,从基于文本的游戏接收观察结果和一组有效操作。通过这些输入,LLM 代理可以选择一个操作并与游戏环境进行交互。我们的实验结果表明,我们的方法显著增强了 LLM 作为符号推理自动化代理的能力,并且我们的 LLM 代理在涉及符号任务的基于文本的游戏中非常有效,在所有任务中实现了 88% 的平均性能。

32. LLMEval: A Preliminary Study on How to Evaluate Large Language Models(数据集) 

作者:Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao Gui, Qi Zhang, Xuanjing Huang  

摘要:最近,大型语言模型的评估已成为一个热门的研究领域。LLM评估的三个关键问题是“what、where以及how”。然而,现有的研究主要集中在前两个问题,基本上是LLM在测试过程中要承担哪些任务以及应该处理哪些知识。至于第三个问题,即采用什么标准、评价者的类型、如何评分、如何排名等问题,目前还没有太多讨论。本文通过比较各种标准与评价方法来分析评价方法。手动和自动评估,利用现场、众包(crowd-sourcing)、公共注释者和 GPT4,具有不同的评分方法和排名系统。我们提出了一个新的数据集 LLMEval 并对 20 个LLM进行了评估。共有 2,186 人参与,产生了 243,337 条手动注释和 57,511 条自动评估结果。我们进行比较并分析不同的设置并得出 10 个结论,可以为将来评估 LLM 提供一些见解。

33. Fluctuation-based Adaptive Structured Pruning for Large Language Models 

作者:Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang

摘要:网络剪枝是解决大型语言模型 (LLM) 部署和推理的巨大计算资源需求的一种有前景的方法。免再训练对于LLM的剪枝方法很重要。然而,几乎所有现有的LLM免再训练剪枝方法都侧重于非结构化剪枝,这需要特定的硬件支持来加速。在本文中,我们提出了一种新型的 LLM 免再训练结构化剪枝框架,称为 FLAP(基于 FLuctuation 的自适应结构化剪枝)。它对硬件友好,有效减少存储并提高推理速度。为了对LLM进行有效的结构化修剪,我们强调了最需要关注的三个关键要素:制定结构化重要性指标、自适应搜索全局压缩模型以及实施补偿机制以减轻性能损失。首先,FLAP 根据波动剪枝度量确定当删除一列权重时输出特征图是否可以轻松恢复。然后标准化重要性分数以自适应地确定全局压缩模型结构。最后,FLAP 添加额外的偏差项以使用基线值恢复输出特征图。我们在各种语言基准上彻底评估我们的方法。在没有任何重新训练的情况下,我们的方法明显优于最先进的方法,包括 LLM-Pruner 和 Wanda 在结构化剪枝方面的扩展。

34. Can Large Language Models Understand Real-World Complex Instructions? 

作者:Qianyu He1 , Jie Zeng1 , Wenhao Huang1 , Lina Chen2 , Jin Xiao2 , Qianxi He1 , Xunzhe Zhou1 , Jiaqing Liang2*, Yanghua Xiao1,3* 

 摘要:大型语言模型 (LLM) 可以理解人类指令,显示出它们在传统 NLP 任务之外的实用应用的潜力。然而,它们在处理复杂的指令时仍然存在困难,这些指令可以是需要多个任务和约束的复杂任务描述,也可以是包含长上下文、噪声、异构信息和多轮格式的复杂输入。由于这些特征,LLM经常忽略任务描述中的语义约束,生成不正确的格式,违反长度或样本计数约束,并且不忠实于输入文本。现有的基准不足以评估LLM理解复杂指令的能力,因为现有基准是封闭式且简单的。为了弥补这一差距,我们提出了 CELLO,这是一个评估LLM系统遵循复杂指令的能力的基准。我们为复杂指令设计了八个特征,并根据现实场景构建了综合评估数据集。我们还制定了四个标准并制定了相应的指标,因为现有的指标不够充分、有偏见或过于严格和粗粒度。我们通过大量的实验比较了代表性的面向中文和面向英语的模型在遵循复杂指令方面的性能。

35. STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models 

作者:Mingyu Derek Ma , Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham , Nanyun Peng , Wei Wang 

 摘要:事件提取等信息提取任务需要深入了解输出结构和子任务依赖关系。他们严重依赖(段落、目标结构)对形式的特定任务的训练数据来获得合理的性能。然而,通过人工注释获取此类数据成本高昂,导致紧迫需要低资源信息提取方法,在实际应用中则需要最少的人工标记。使用合成训练数据微调监督模型将是一种可推广的方法,但现有的数据生成方法要么仍然依赖于大规模地面实况数据,要么因为他们的糟糕表现无法应用于复杂的IE任务。为了应对这些挑战,我们提出了 STAR,这是一种数据生成方法,利用大型语言模型 (LLM) 在有限的种子演示的情况下合成数据实例,从而提高低资源信息提取性能。我们的方法包括生成目标结构(Y),然后生成段落(X),所有这些都是在LLM的帮助下完成的。我们设计细粒度的分步指令来获取初始数据实例。我们通过自我反思错误识别和迭代修订的自我完善,进一步减少错误并提高数据质量。我们的实验表明,STAR 生成的数据显着提高了低资源事件提取和关系提取任务的性能,甚至超过了人工整理数据的有效性。人工对数据质量的评估表明,与人工整理的数据相比,STAR 生成的数据表现出更高的迭代质量,并且更符合任务定义。

36. CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models 

作者:Dan Shi , Chaobin You, Jiantao Huang, Taihao Li , Deyi Xiong

摘要:作为智能不可或缺的组成部分,常识推理对于现实场景中的大型语言模型(LLM)至关重要。在本文中, 我们提出了CORECODE,一个包含在二元对话上手动注释的丰富常识知识的数据集,用于评估中文LLM的常识推理和常识冲突检测能力。我们将日常对话中的常识性知识分为三个维度:实体、事件和社交互动。为了方便和一致的标注,我们将开放域对话中常识知识标注的形式标准化为“域:槽=值”。总共定义了9个域和37个槽来捕获不同的常识知识。通过这些预定义的域和槽位,我们从19,700个数据中收集了 76,787 个常识知识注释通过众包进行对话。为了评估和增强法学硕士在精选数据集上的常识推理能力,我们建立了一系列对话级推理和检测任务,包括常识知识填充、常识知识生成、常识冲突短语检测、领域识别、槽位识别和事件 因果推断。我们的数据集上使用这些任务对各种现有的开源中国法学硕士进行了评估。实验结果表明,这些模型无法预测CORECODE丰富的推理内容,甚至ChatGPT在零样本设置下的域识别和槽识别任务上也只能达到0.275和0.084的精度。我们在https://github.com/danshi777/CORECODE发布了CORECODE的数据和代码,以促进LLM在日常对话中的常识推理评估和学习。

37.SECap: Speech Emotion Captioning with Large Language Model

作者:Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu

摘要:语音情感在人类交流中起着至关重要的作用,广泛应用于语音合成、自然语言理解等领域。大多数之前的研究,如语音情感识别,都将语音情感分类为一组固定的类别。然而,人类语言中表达的情感往往是复杂的,将它们归类到预定义的组中可能不足以充分表示言语情感。相反,通过自然语言直接描述言语情感可能是一种更有效的方法。遗憾的是,目前没有多少研究集中在这个方向上。因此,提出了一个语音情感标注框架SECap,旨在利用自然语言有效地描述语音情感。由于大型语言模型在语言理解和文本生成方面的强大能力,SECap使用LLaMA作为文本解码器,以生成连贯的语音情感标题。此外,SECap利用HuBERT作为音频编码器来提取通用语音特征,Q-Former作为桥接网络来为LLaMA提供情感相关的语音特征。为了实现这一目标,Q-Former利用互信息学习来解开与情感相关的语音特征和语音内容,同时实现对比学习来提取更多与情感相关的语音特征。主观和客观评价结果表明:1)SECap框架在所有客观评价中均优于HTSAT-BART基线;2) SECap可以生成高质量的语音情感标题,在主观平均意见得分测试中达到与人类标注者相当的性能。

38.ProAgent: Building Proactive Cooperative AI with Large Language Models

作者:Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang

摘要:在协作任务中构造具有自适应行为的智能体是多智能体系统研究的一个重要目标。目前开发合作智能体的方法主要依赖于基于学习的方法,其策略泛化在很大程度上取决于在训练阶段与其交互的队友的多样性。然而,这种依赖限制了智能体在与不熟悉的队友合作时的战略适应能力,这成为零样本协调场景中的一个重大挑战。为应对这一挑战,本文提出ProAgent,一种新的框架,利用大型语言模型(llm)创建能动态适应其行为的主动代理,以加强与队友的合作。ProAgent可以分析当前状态,并根据观察推断队友的意图。然后,它根据队友随后的实际行为更新自己的信念。此外,ProAgent具有高度的模块化和可解释性,可以方便地集成到各种协同场景中。在overcooded -AI环境下进行的实验评估显示,ProAgent与AI agent合作时,其性能优于5种基于自玩和基于群体训练的方法。与人工代理模型合作时,其性能比当前最先进的方法平均提高了10%以上。

39.Task Contamination in Few-shot Learning for Large Language Models

作者:Changmao Li, Jeffrey Flanigan

摘要:大型语言模型(llm)在各种零样本和少样本任务中提供了令人印象深刻的性能。然而,它们在零样本和少样本设置中的成功可能会受到任务污染的影响,这是一个尚未被彻底研究的潜在限制。本文研究了llm的零样本和少样本性能如何随着时间的推移而变化。利用GPT-3系列模型和其他几个最近的开源LLM,并控制数据集的难度,发现在LLM训练数据创建日期之前发布的数据集上,LLM的表现出乎意料地好于之后发布的数据集。这强烈表明,对于许多llm来说,在llm训练数据创建日期之前发布的数据集的零样本和少样本评估上存在任务污染。利用训练数据检查、任务示例提取和成员推断攻击,揭示了任务污染的进一步证据。对于没有任务污染可能性的分类任务,llm在零次和少次设置中都很少表现出统计上显著的改进。

40.Graph Neural Prompting for Question Answering with Large Language Models

作者:Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu

摘要:大型语言模型(llm)在各种语言建模任务中表现出卓越的泛化能力。然而,它们在精确捕获和返回基础知识方面仍然表现出固有的局限性。虽然现有工作探索了利用知识图谱(KGs)通过联合训练和定制模型架构来增强语言建模,但将其应用于llm是有问题的,因为其参数数量众多和计算成本高。因此,如何使用基础知识来增强预训练的llm,例如检索增强生成,仍然是一个开放问题。本文提出图神经提示(GNP),一种新的即插即用方法,以帮助预训练的llm从知识图谱中学习有益的知识,包括标准的图神经网络编码器、跨模态池化模块、域投影仪和自监督链接预测目标。在多个数据集上的广泛实验证明了GNP在不同LLM大小和设置的常识和生物医学推理任务上的优越性。Code is available at https://github.com/meettyj/GNP。

41.Advancing Spatial Reasoning in Large Language Models: An In-depth Evaluation and Enhancement Using the StepGame Benchmark

作者:Fangjun Li, David C. Hogg, Anthony G. Cohn

摘要:人工智能(AI)在各个领域取得了显著的进展,像ChatGPT这样的大型语言模型因其类似人类的文本生成能力而获得了大量关注。尽管取得了这些成就,空间推理仍然是这些模型的一个重大挑战。像StepGame这样的基准评估了AI空间推理,其中ChatGPT表现出了不令人满意的性能。然而,基准测试中模板误差的存在会对评估结果产生影响。因此,如果解决了这些模板错误,ChatGPT有可能表现得更好,从而对其空间推理能力进行更准确的评估。本文完善了StepGame基准,为模型评估提供了更准确的数据集。分析了GPT在校正基准上的空间推理性能,发现GPT在将自然语言文本映射到空间关系方面很熟练,但在多跳推理方面存在局限性。通过将模板到关系映射与基于逻辑的推理相结合,为该基准提供了一个完美的解决方案。这种组合表明,在不遇到任何错误的情况下,可以熟练地对StepGame进行定性推理。解决了GPT模型在空间推理中的局限性。采用了思维链和思维树激励策略,为GPT的"认知过程"提供了见解,并在准确性方面取得了显著提高。本文的研究不仅揭示了模型的缺陷,还提出了改进,有助于以更强大的空间推理能力推动人工智能的发展。

42. Tree-of-Reasoning Question Decomposition for Complex Question Answering with Large Language Models

作者:Kun Zhang, Jiali Zeng , Fandong Meng , Yuanzhuo Wang, Shiqi Sun , Long Bai , Huawei Shen , Jie Zhou

摘要:大型语言模型(llm)最近在各种自然语言处理任务中表现出了卓越的性能。在多跳推理领域,思维链(CoT)提示方法已成为一种范式,使用策划的逐步推理演示来增强LLM的推理和产生连贯的理性路径的能力。为了确保生成答案的准确性、可靠性和可追溯性,许多研究纳入了信息检索(IR)来为llm提供外部知识。然而,现有的问答组合IR方法将问题分解为基于单一组合类型的子问题,限制了其对涉及多种组合类型问题的有效性。此外,复杂问题往往包含丰富的信息,导致检索到与查询意图不一致的无关信息,检索效率低下。本文提出一种新的问题分解框架TRQA,用于多跳问答,解决了这些限制。该框架引入推理树(RT)来表示复杂问题的结构。它由推理树构造器(RTC)、问题生成器(QG)、检索与LLM交互模块(RAIL)和答案聚合模块(AAM)四部分组成。具体来说,RTC预测不同的子问题结构来构建推理树,允许对复杂问题进行更全面的表示。QG为叶子节点生成子问题,并探索了两种QG的方法:基于提示的方法和基于T5的方法。IR模块检索与子问题对齐的文档,而LLM基于检索的信息制定答案。最后,AAM沿着原因树聚合答案,从下到上产生确定的回答。

43. Is Large Language Model A Good Annotator for Event Extraction

作者:Ruirui Chen , Chengwei Qin , Weifeng Jiang , Dongkyu Choi

摘要:事件抽取是自然语言处理中的一项重要任务,旨在从非结构化文本中挖掘与事件相关的信息。尽管取得了相当大的进展,但要在这项任务中取得令人满意的性能仍然具有挑战性,数据稀缺和不平衡等问题阻碍了进展。本文提出一种创新方法,采用大型语言模型(llm)作为事件抽取的专家标注器。策略性地将训练数据集的样本数据包含在提示中作为参考,确保llm生成样本的数据分布与基准数据集的数据分布之间的对齐。这使我们能够精心制作一个增强的数据集,补充现有的基准,缓解数据不平衡和稀缺的挑战,从而提高微调模型的性能。通过大量实验验证了所提方法的有效性,相信该方法在推动现实场景中更先进、更可靠的事件抽取系统的开发和应用方面具有巨大的潜力。

44. Chain-of-Thought Improves Text Generation with Citations in Large Language Models

作者:Bin Ji, Huijun Liu, Mingzhe Du, See-Kiong Ng

摘要:以往的研究揭示,大型语言模型(llm)在生成文本时产生幻觉,给lic带来了一个新的和具有挑战性的研究主题,其核心是使llm生成具有引用的文本。现有工作暴露了两个局限性,当我们ing llm用所提供的文档生成问题的答案时:答案的正确性不理想和cita质量差。为解决上述问题,本文调查了我们思维链(CoT),以引出llm从多个文档中syn大小正确答案的能力,以及正确引用这些文档的能力。此外,本文提出了Citation保险机制,使llm能够检测和引用那些缺失的引用。我们在6个开源llm的ALCE基准。实验心理结果表明:(1)CoT提示策略egy显著提高了引文文本生成的质量;(2)引文保险机制以较低的成本实现了引文质量的压迫性增长;(3)我们最好的ap方法的表现与之前最好的基于聊天gpt的基线相当。广泛的分析进一步验证了所提方法的有效性。

45.MathAttack: Attacking Large Language Models towards Math Solving Ability

作者:Zihao Zhou, Qiufeng Wang, Mingyu Jin, Jie Yao, Jianan Ye, Wei Liu, Wei Wang, Xiaowei Huang, Kaizhu Huang

摘要:随着大型语言模型(llm)的兴起,求解数学应用题(MWP)的研究近年来取得了很大进展。然而,很少有研究检查llm在数学求解能力方面的安全性。本文提出了一种MathAttack模型来攻击MWP样本,而不是在使用llm时攻击提示符,该模型在解决数学问题时更接近安全的本质。与传统的文本对抗攻击相比,在攻击过程中需要保持原始MWPs的数学逻辑。为此,提出逻辑实体识别来识别逻辑条目,然后对其进行冻结。然后,采用单词级攻击者对剩余文本进行攻击。提出了一个新的数据集RobustMath来评估llm在数学求解能力方面的鲁棒性。在RobustMath以及另外两个数学基准数据集GSM8K和MultiAirth上进行的大量实验表明,MathAttack可以有效地攻击llm的数学求解能力。实验中观察到:(1)来自高精度llm的对抗样本对于攻击精度较低的llm也是有效的(例如,从较大的llm转移到较小的llm,或从少样本提示到零样本提示);(2)复杂的MWPs(如求解步数越多、文本越长、数字越多)更容易受到攻击;(3)通过在少样本提示中使用我们的对抗样本,可以提高llm的鲁棒性。最后,希望我们的实践和观察可以作为增强llm数学求解能力鲁棒性的重要尝试。我们将发布代码和数据集。

46.MindMap: Constructing Evidence Chains for Multi-Step Reasoning in Large Language Models

作者:Yangyu Wu, Xu Han1, Wei Song, Miaomiao Cheng, Fei Li

摘要:本文针对大语言模型在自动化推理,尤其是在涉及多步骤推理的场景中的挑战进行了研究。研究的重点是在一组给定事实和规则的基础上回答问题的逻辑推理问题。尽管已有工作通过生成推理路径来指导LLM进行逻辑思考,但这些工作忽略了可用事实之间的结构。为了解决这个问题,作者提出了MindMap方法,通过引入证据链来支持推理。证据链是指涉及同一主题的一组事实。通过这种方式,可以将相关的事实组织在一起,避免遗漏重要信息。MindMap可以与现有的推理框架集成,例如Chain-of-Thought(CoT)和Selection-Inference(SI),通过让模型选择相关的证据链,而不是独立的事实。在bAbI和ProofWriterOWA数据集上的实验结果表明了MindMap的有效性。它能够显著改善CoT和SI的性能,特别是在多步骤推理任务中。

47.Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales

作者:Taeyoon Kwon, Kai Tzu-iunn Ong, Dongjin Kang, Seungjun Moon, Jeong Ryong Lee, Dosik Hwang, Yongsik Sim, Beomseok Sohn, Dongha Lee, Jinyoung Yeo

只要:近年来,机器推理由于大规模语言模型(LLMs)的进步取得了巨大进展。然而,在临床领域,大多数由自然语言处理(NLP)驱动的项目主要集中于临床分类或阅读理解,而对疾病诊断的临床推理研究较少,这是由于与临床医生一起进行推理注释的成本高昂。在这项工作中,我们提出了一种“推理感知”的诊断框架,该框架通过基于提示的学习以时间和劳力高效的方式使诊断过程合理化,并学习基于提示生成的理由进行推理。具体来说,我们解决了疾病诊断的临床推理问题,其中LLM生成诊断理由,提供其对所展示的患者数据的见解以及通向诊断的推理路径,即临床链式思维(Clinical CoT)。我们通过广泛的实验和分析,实证展示了LLMs/LMs在不同设置下生成理由和疾病诊断的临床推理能力。我们进一步提出了一套新的标准,用于评估机器生成的理由在真实临床环境中的潜力,以促进和有益于该领域的未来研究。

48.Generative Multi-Modal Knowledge Retrieval with Large Language Models

作者:Xinwei Long, Jiali Zeng, Fandong Meng, Zhiyuan Ma, Kaiyan Zhang, Bowen Zhou, Jie Zhou

摘要:多模态查询的知识检索在支持知识密集型的多模态应用中起着至关重要的作用。然而,现有的方法在处理多模态查询时在效果和训练效率方面面临挑战,尤其是在训练和整合多个检索器时。在本文中,我们提出了一种创新的端到端生成框架用于多模态知识检索。我们的框架利用了大规模语言模型(LLMs)即使在有限数据训练情况下,也能有效充当虚拟知识库的优势。我们通过两步过程进行知识检索:1)生成与查询相关的知识线索,2)使用知识线索搜索数据库以获取相关文档。具体来说,我们首先引入了一种对象感知的前缀调优技术来指导多粒度的视觉学习。然后,我们将多粒度的视觉特征对齐到LLM的文本特征空间,利用LLM捕捉跨模态交互。随后,我们构建了具有统一格式的指令数据用于模型训练。最后,我们提出了知识引导生成策略,在解码步骤中施加先验约束,从而促进生成独特的知识线索。通过在三个基准测试上的实验,我们展示了在所有评估指标上相比于强基线方法显著的改进,提升幅度从3.0%到14.6%不等。

49.Narrowing the Gap between Supervised and Unsupervised Sentence

作者:Mingxin Li, Richong Zhang, Zhijie Nie, Yongyi Mao

摘要:自然语言处理(NLP)中的任务中,句子嵌入的对比学习(Contrastive Learning of Sentence Embeddings,CSE)由于其卓越的性能成为主流技术。一个有趣的现象是在CSE中,有监督方法和无监督方法之间存在显著的性能差距,而它们唯一的区别在于训练数据。先前的工作将这种性能差距归因于两种表示属性(对齐性和均匀性)的差异。然而,由于对齐性和均匀性只衡量结果,它们无法回答“训练数据的哪些方面导致了性能差距?”以及“如何缩小性能差距?”在本文中,我们通过实证实验来回答这些“是什么”和“如何”问题。我们首先通过全面比较有监督和无监督CSE在各自训练过程中的表现来回答“是什么”问题。从比较中,我们确定了相似性模式是导致性能差距的关键因素,并引入了一个度量标准,称为相对拟合难度(Relative Fitting Difficulty,RFD),以衡量相似性模式的复杂性。然后,基于从“是什么”问题中获得的见解,我们通过增加训练数据的模式复杂性来解决“如何”问题。我们利用大规模语言模型(LLM)的上下文学习(In-Context Learning,ICL)能力生成模拟复杂模式的数据。通过利用LLM生成数据中的层次模式,我们有效地缩小了有监督和无监督CSE之间的差距。我们在 https://github.com/BDBC-KG-NLP/NGCSE 发布了我们的代码和附录。

50.Representation Learning with Large Language Model

作者:Xubin Ren, Wei Wei, Lianghao Xia, Lixin Su, Suqi Cheng, Junfeng Wang, Dawei Yin, Chao Huang

摘要:推荐系统在深度学习和图神经网络的辅助下取得了显著的进展,特别是在捕捉复杂的用户-物品关系方面。然而,一些基于图的推荐系统严重依赖基于ID的数据,可能忽视与用户和物品相关的有价值的文本信息,导致学到的表示不够信息丰富。此外,使用隐式反馈数据可能引入潜在的噪声和偏差,对用户偏好学习的有效性构成挑战。虽然在传统的基于ID的推荐系统中整合大型语言模型(LLMs)引起了广泛关注,但在实际推荐系统中的有效实施还需要解决可扩展性、文本依赖的局限性以及提示输入的限制等问题。为了解决这些问题,本文提出了一个模型不可知的框架RLMRec,旨在通过LLM强化表示学习来增强现有的推荐系统。本文提出了一种集成表示学习和LLMs的推荐范式,以捕捉用户行为和偏好的复杂语义方面。RLMRec整合辅助文本信号,利用LLMs进行用户/物品建模,并通过交叉视图对齐将LLMs的语义空间与协作关系信号对齐。该工作进一步通过最大化互信息展示了通过文本信号的理论基础,提高了表示的质量。本文通过将RLMRec与最先进的推荐模型集成,并分析了其对噪声数据的效率和稳健性。

51.EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce

作者:Yangning Li, Shirong Ma, Xiaobin Wang, Shen Huang, Chengyue Jiang, Hai-Tao Zheng, Pengjun Xie, Fei Huang, Yong Jiang

摘要:近年来,以ChatGPT为代表的遵循指令的大型语言模型(LLMs)在一般的自然语言处理(NLP)任务中表现出了卓越的性能。然而,电子商务数据的独特特性对通用LLMs提出了显著的挑战。为电子商务场景专门定制的LLM,具备强大的跨数据集/任务的泛化能力,是一个迫切的需求。为了解决这个问题,在这项工作中,我们提出了首个电子商务指令数据集EcomInstruct,总计包含250万条指令数据。EcomInstruct通过构建包含电子商务基本数据类型(如产品信息、用户评论)的原子任务,扩大了数据规模和任务多样性。原子任务被定义为解决最终任务(也称为任务链任务)时隐含涉及的中间任务。我们通过使用EcomInstruct训练骨干模型BLOOMZ,开发了不同参数规模的EcomGPT。受益于从任务链任务中获得的基础语义理解能力,EcomGPT展示了出色的零样本泛化能力。广泛的实验和人工评估表明,EcomGPT在电子商务任务的跨数据集/任务泛化方面优于ChatGPT。EcomGPT将在 https://github.com/Alibaba-NLP/EcomGPT 公布。

52.SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding

作者:Tianyu Yu, Chengyue Jiang, Chao Lou, Shen Huang, Xiaobin Wang, Wei Liu, Jiong Cai, Yangning Li, Yinghui Li, Kewei Tu, Hai-Tao Zheng, Ningyu Zhang, Pengjun Xie, Fei Huang, Yong Jiang

摘要:大型语言模型(LLMs)在开放域的自然语言处理(NLP)任务中表现出色。然而,LLMs 有时在自然语言理解(NLU)任务中显得过于随意,而NLU任务通常对输入和输出格式有严格要求。它们在NLU任务中的表现高度依赖于提示或示例,且在执行一些代表性的NLU任务(如事件抽取和实体类型标注)时表现不佳。为此,我们提出了SeqGPT,这是一种双语(即英语和中文)的开源自回归模型,特别增强了对开放域自然语言理解的能力。我们使用两个原子任务来表达所有的NLU任务,这些原子任务定义了固定的指令,以限制输入和输出格式,但仍然对任意变化的标签集保持“开放”。该模型首先通过ChatGPT合成的极其细粒度的标注数据进行指令微调,然后通过来自不同领域的152个数据集中的233个原子任务进一步微调。实验结果表明,SeqGPT具有良好的分类和抽取能力,能够在未知领域上执行语言理解任务。我们还对数据和模型规模的扩展以及任务之间的迁移进行了实证研究。我们的模型可在 https://github.com/Alibaba-NLP/SeqGPT 访问。

53:NavGPT: Explicit Reasoning in Vision-and- Language Navigation with Large Language Models

作者:Gengze Zhou, Yicong Hong, Qi Wu

摘要:经过前所未有的数据规模训练,像ChatGPT和GPT-4这样的大型语言模型(LLM)表现出了从模型扩展中产生的显著推理能力。这样的趋势强调了用无限的语言数据训练LLM的潜力,推动了通用内含代理的发展。在这项工作中,我们引入了NavGPT,一种纯粹基于LLM的指令跟随导航代理,通过对视觉和语言导航(VLN)执行零样本顺序动作预测,揭示了GPT模型在复杂的具体场景中的推理能力。在每一步中,NavGPT都会将视觉观测、导航历史和未来可探索方向的实际描述作为输入,以推断代理的当前状态,并做出接近目标的决定。通过全面的实验,我们证明NavGPT可以显式地对导航进行高级规划,包括将指令分解为子目标,集成与导航任务分辨率相关的常识知识,从观测场景中识别地标,跟踪导航进度,并通过计划调整适应异常情况。此外,我们还表明,LLM能够根据路径上的观测和操作生成高质量的导航指令,并在给定代理的导航历史的情况下绘制准确的自上而下的度量轨迹。尽管将NavGPT用于零样本R2R任务的性能仍然低于训练模型,但我们建议调整LLM的多模态输入以用作视觉导航代理,并应用LLM的显式推理以有益于基于学习的模型。

54:RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting

作者:Lei Shu, Liangchen Luo, Jayakumar Hoskere, Yun Zhu, Yinxiao Liu, Simon Tong, Jindong Chen, Lei Meng

摘要:大型语言模型(LLM)在讲故事和生成电子邮件等创造性任务中表现出了令人印象深刻的能力。然而,由于LLM主要根据最终文本结果而不是中间修订进行训练,因此它们执行文本重写任务可能具有挑战性。重写任务中的大多数研究都集中在单句边界内的特定转换类型上。在这项工作中,我们开发了新的教学调整和强化学习策略,以更好地协调LLM,使用通过自然语言表达的不同措辞和结构进行跨句重写任务,包括1)通过教学生成和思维链提示,从Wiki编辑和公共语料库中生成重写教学数据;2) 通过新的排名函数收集比较数据用于奖励模型训练。为了促进这项研究,我们引入了OPENREWRITEEVAL,这是一种新的基准测试,涵盖了通过自然语言指令表达的各种重写类型。我们的结果显示,在各种基线上都有显著的改进。公共存储库可在谷歌研究下的GitHub上获得

55:OWQ: outlier-aware weight quantization for efficient fine-tuning and inference of large language models

作者:Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park

摘要:具有数千亿个参数的大型语言模型(LLM)需要强大的服务器级GPU来进行引用,这限制了它们的实际部署。为了应对这一挑战,我们引入了异常值感知权重量化(OWQ)方法,该方法旨在通过低精度表示最小化LLM的足迹。OWQ对对量化敏感的结构化权重的一小部分进行优先排序,以高精度存储它们,同时对剩余的密集权重应用高度调谐的量化。这种灵敏度感知的混合精度方案显著降低了量化误差,大量实验表明,使用OWQ的3.1位模型的性能与使用OPTQ优化的4位模型相当。此外,OWQ为特定任务的adap-station引入了一种参数有效的微调,称为弱列调整(WCT),以优化的格式实现了精确的特定任务LLM自适应,同时具有最小的内存开销。OWQ代表了LLM优化文献在灵活性、效率和实用性方面的显著进步。源代码位于https://github.com/xvyaward/owq.

最后,感谢实验室的师弟师妹对这些工作的整理。


推荐阅读:

AAAI 2024 | 大模型论文总结

AAAI 2024| 知识图谱论文总结

2024年TKDE期刊【首篇综述】大模型遇上知识图谱

                                                       如果觉得有帮助还请分享,在看,点赞

时空探索之旅
分享时空数据和时间序列前沿文献。偶尔聊聊影视剧。
 最新文章