大语言模型作为近期最火热的研究点,热度至今居高不下。特别是近期,arxiv上每个月都发表很多关于大语言模型的文章。对此,我只想吐槽一句,根本读不完。倒不如来看看在AAAI-2024会议上关于大语言模型的研究工作。经过"老字号"AAAI会议审核过的,质量是杠杠的。
本次以Large language Model为关键字搜索AAAI-2024的录取论文,搜索相关的文章一共55篇。看到这个数字不禁感慨,不入坑是不可能的。言归正传,大语言模型总结将分为两篇文章介绍,本次先介绍前20篇(如有疏漏,欢迎大家补充)。
(如果对您有用,还请您点赞。感谢您的支持!)
1. Bootstrapping Large Language Models for Radiology Report Generation
作者:Chang Liu, Yuanhe Tian, Weidong Chen, Yan Song, Yongdong Zhang
摘要:放射学报告生成(RRG)旨在根据特定的临床放射照片(如胸部 X 光图像)自动生成自由文本描述。现有方法倾向于使用在有限的公共数据上从头开始训练的特定模型来执行 RRG,由于在对齐视觉和文本特征以及生成相应的信息报告方面的能力不足,这些方法往往导致性能低下。目前,大语言模型(LLMs)凭借其从大数据中学习的能力,为文本生成提供了一种前景广阔的解决方案,尤其是在RRG等跨模态场景中。然而,现有的大多数 LLM 都是在普通数据基础上预先训练的,如果将其应用于 RRG,同样会面临普通领域和医疗领域知识差距所造成的传统方法所面临的问题。因此,在本文中,我们提出了一种通过域内实例归纳和从粗到细的解码过程为 RRG 引导 LLM 的方法。具体来说,域内实例归纳过程通过对比学习,将 LLM 与一般文本中的放射学报告对齐。从粗到细的解码过程则是对这些来自排序器的报告进行文本提升,并通过视觉特征和细化提示进一步增强。在两个常用的 RRG 数据集(即 IU X-Ray 和 MIMIC-CXR)上的实验结果表明,我们的方法优于以前的先进解决方案。进一步的分析表明,就 LLM 而言,归纳过程使其能够更好地与医疗领域保持一致,而从粗到细的生成过程则使其能够进行更精确的文本生成。
2.Benchmarking Large Language Models on Controllable Generation under Diversified Instructions
作者:Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao
摘要:虽然大型语言模型(LLMs)已经展示出了令人印象深刻的指令遵循能力,但它们能否以及在多大程度上能够对各种指令中可能包含的明确约束做出响应,目前仍不清楚。因此,作为 LLM 对齐的一个重要方面,制定这样一组专门的指令并研究 LLM 由此产生的行为非常重要。针对这一空缺,我们提出了一个新的基准 CoDI-Eval,以系统、全面地评估 LLM 对带有各种约束的指令的响应。我们构建了一个大型的约束条件指令集合,作为一个测试套件,重点关注通用性和覆盖性。具体来说,我们提倡指令多样化流程,以合成各种形式的约束表达,同时斟酌候选任务分类法,使其具有更精细的子类别。最后,我们将整个评估过程自动化,以促进进一步发展。与现有的可控文本生成研究不同,CoDI-Eval 首次将研究范围扩展到流行的指令遵循范式。我们在 CoDI-Eval 上对具有代表性的 LLM(如 ChatGPT、Vicuna)进行了广泛的评估,揭示了它们在遵循具有特定约束的指令方面的局限性,以及开源 LLM 与商业闭源 LLM 之间仍然存在的巨大差距。我们相信,这一基准将有助于研究如何提高 LLM 对指令响应的可控性。我们的数据和代码见 https://github.com/Xt-cyh/CoDI-Eval
3.Norm Tweaking: High-Performance Low-Bit Quantization of Large Language Models
作者:Liang Li, Qingyuan Li, Bo Zhang, Xiangxiang Chu
摘要:随着大型语言模型(LLM)规模的不断扩大,在不牺牲准确性的前提下压缩模型已成为部署工作中的一项重要挑战。虽然一些量化方法(如 GPTQ)在实现可接受的仅 4 位权重量化方面取得了进展,但尝试更低位量化往往会导致严重的性能下降。在本文中,我们介绍了一种名为 "规范调整"(norm tweaking)的技术,它可以作为当前 PTQ 方法的插件,在实现高精度的同时还具有成本效益。我们的方法受到以下观察结果的启发:矫正量化的激活分布,使其与浮动分布相匹配,可以轻松恢复 LLM 的精度。为此,我们精心设计了一种调整策略,包括生成校准数据和信道距离约束,以更新归一化层的权重,从而获得更好的泛化效果。我们使用多个开源 LLM 在各种数据集上进行了广泛的实验。我们的方法在仅权重量化和权重与激活联合量化方面都有显著改进,超越了现有的 PTQ 方法。在 GLM-130B 和OPT-66B上,我们的方法甚至在 2 位量化时达到了与它们的浮点量化方法相同的精度水平。我们的方法简单有效,因此在实际应用中更加实用。
4. Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations
作者:Likang Wu, Zhaopeng Qiu, Zhi Zheng, Hengshu Zhu, Enhong Chen
摘要:大型语言模型(LLM)已经彻底改变了自然语言处理任务,在各个领域都展现出了非凡的能力。然而,它们在工作推荐中进行图语义挖掘的潜力在很大程度上仍未得到开发。本文的重点是揭示大型语言模型在理解行为图方面的能力,并利用这种理解来增强在线招聘中的推荐,包括促进分布外(OOD)应用。我们提出了一个新颖的框架,该框架利用大型语言模型提供的丰富上下文信息和语义表征来分析行为图并揭示潜在的模式和关系。具体来说,我们提出了一种元路径提示构造器,帮助 LLM 推荐器首次掌握行为图的语义,并设计了一个相应的路径增强模块,以减轻基于路径的序列输入所带来的提示偏差。通过促进这种能力,我们的框架可以为个人用户提供个性化和准确的工作推荐。我们在综合现实世界数据集上评估了我们方法的有效性,并证明了它能够提高推荐结果的相关性和质量。这项研究不仅揭示了大型语言模型尚未开发的潜力,还为在招聘市场开发先进的推荐系统提供了宝贵的见解。这些研究成果为不断发展的自然语言处理领域做出了贡献,并为提升求职体验提供了实际意义。
5.A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators
作者:Chen Zhang, Luis Fernando D’Haro, Yiming Chen, Malu Zhang, Haizhou Li
摘要:自动评估是对话系统研究不可或缺的一个方面。人们普遍认为,传统的基于参考的 NLG 指标不适合对话评估。因此,最近的研究提出了各种独特的、无参考的神经指标,它们能更好地与人类评估相一致。其中,大型语言模型(LLMs),尤其是 ChatGPT 等经过指令调整的变体,被证明有望替代人类评委。然而,利用 LLMs 进行自动对话评估的现有工作在元评估数据集的数量、评估模式、LLMs 的覆盖范围等方面都受到了限制。因此,这些 LLM 的有效性如何仍无定论。为此,我们对 LLM 在自动对话评估中的应用进行了全面研究。具体来说,我们利用 12 个元评价数据集,分析了最近出现的 30 种 LLM 在转折和对话层面的多维评价能力。此外,我们还探究了 LLM 在回合和对话层面处理各种对抗性扰动时的鲁棒性。最后,我们探讨了模型级和维度级集合对评估性能的影响。所有资源请访问 https://github.com/e0397123/comp-analysis
6.Generalized Planning in PDDL Domains with Pretrained Large Language Models
作者:Tom Silver, Soham Dan, Kavitha Srinivas, Joshua B. Tenenbaum, Leslie Kaelbling, Michael Katz
摘要:最近的工作考虑了大型语言模型(LLMs)能否作为规划器发挥作用:给定一个任务,生成一个计划。我们研究了 LLM 是否可以作为通用规划器:给定一个领域和训练任务,生成一个程序,为该领域中的其他任务有效地生成规划。我们特别考虑了 PDDL 领域,并使用 GPT-4 来合成 Python 程序。我们还考虑了(1)思维链(CoT)总结,即在合成程序之前,提示 LLM 对领域进行总结,并以文字形式提出策略;以及(2)自动调试,即根据训练任务对程序进行验证,如果出现错误,LLM 会收到四种类型的反馈。我们在七个 PDDL 领域对这种方法进行了评估,并将其与四种消融方法和四种基线方法进行了比较。总之,我们发现 GPT-4 是一种功能强大的通用规划器,令人惊讶。我们还得出结论:自动调试非常重要;CoT总结会产生不均匀的影响;GPT-4 远远优于 GPT3.5;仅两个训练任务通常就足以实现强大的泛化。
7.Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models
作者:Yuqi Zhu, Jia Li, Ge Li, YunFei Zhao, Jia Li, Zhi Jin, Hong Mei
摘要:最近,大型语言模型(LLM)在代码生成方面表现出了令人印象深刻的能力。然而,现有 LLM 的解码策略是为自然语言(NL)生成而设计的,忽略了 NL 与编程语言(PL)之间的差异。由于这一疏忽,如何为代码生成找到更好的解码策略仍是一个悬而未决的问题。在本文中,我们首次系统地研究了专门用于代码生成的解码策略。通过分析代码令牌的损失分布,我们发现代码令牌可分为两类:难以预测的挑战令牌和容易推断的自信令牌。其中,具有挑战性的标记主要出现在代码块的开头。受上述发现的启发,我们提出了一种简单而有效的方法:自适应温度(AdapT)采样法可在解码不同标记时动态调整温度系数。在对具有挑战性的标记进行采样时,我们采用较大的温度系数,使 LLM 能够探索不同的选择。对于有把握的标记,我们采用较小的温度,以避免尾部随机性噪声的影响。我们将 AdapT 采样应用于不同规模的 LLM,并在两个流行的数据集上进行了评估。结果表明,AdapT 采样明显优于最先进的解码策略。
8.T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering
作者:Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen
摘要:大型语言模型(LLM)最近在各种自然语言处理(NLP)任务中表现出了卓越的性能。它们还显示出执行思维链(CoT)推理以解决复杂问题的能力。最近的研究探索了在复杂的多模态场景(如科学问题回答任务)中进行 CoT 推理的方法,即利用高质量的人类注释 CoT 理由对多模态模型进行微调。然而,收集高质量的 COT 理由通常既费时又费钱。此外,由于遗漏了外部基本信息,注释的理由很难准确。为了解决这些问题,我们提出了一种名为 T-SciQ 的新方法,旨在利用 LLM 信号教授科学问题解答。T-SciQ 方法可生成高质量的 CoT 推理作为教学信号,并可用于训练更小的模型,以执行复杂模式下的 CoT 推理。此外,我们还引入了一种新颖的数据混合策略,为简单和复杂的科学问题解答问题生成更有效的教学数据样本。广泛的实验结果表明,我们的 T-SciQ 方法在 ScienceQA 基准测试中取得了全新的先进性能,准确率高达 96.18%。此外,我们的方法比最强大的微调基线高出 4.5%。代码可在 https://github.com/T-SciQ/T-SciQ 公开获取。
9.How to Protect Copyright Data in Optimization of Large Language Models?
作者:Timothy Chu, Zhao Song, Chiwun Yang
摘要:大型语言模型(LLM)和生成式人工智能在计算机研究和应用中发挥了变革性作用。关于这些模型是否会输出受版权保护的数据(如果模型所训练的数据受版权保护,则可能出现这种情况),一直存在争议。LLM 建立在transformer神经网络架构之上,而transformer神经网络架构又依赖于一种名为 Attention 的数学计算,它使用 softmax 函数。在本文中,我们发现大型语言模型的训练和优化可以看作是一个softmax回归问题。然后,我们建立了一种高效执行 softmax 回归的方法,这种方法可以防止回归函数产生版权数据。这就从理论上建立了一种以避免产生版权数据的方式训练大型语言模型的方法。
10. Quantifying and Analyzing Entity-level Memorization in Large Language Models
作者:Zhenhong Zhou, Jiuyang Xiang, Chaomeng Chen, Sen Su
摘要: 大型语言模型(LLM)已被证明能够记忆其训练数据,这些数据可以通过专门设计的提示提取出来。随着数据集规模的不断扩大,因记忆而产生的隐私风险引起了越来越多的关注。量化语言模型记忆有助于评估潜在的隐私风险。然而,之前关于量化记忆的工作需要访问精确的原始数据或产生大量的计算开销,因此很难在真实世界的语言模型中应用。为此,我们提出了一种细粒度的实体级定义,用更接近真实世界场景的条件和指标来量化记忆。此外,我们还提出了一种从自回归语言模型中高效提取敏感实体的方法。我们根据所提出的方法进行了大量实验,探究语言模型在不同环境下重构敏感实体的能力。我们发现,语言模型在实体层面具有很强的记忆能力,即使在部分泄漏的情况下也能重现训练数据。结果表明,语言模型不仅能记忆训练数据,还能理解实体之间的关联。
11. Medical-Eval: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models
作者:Yan Cai, Linlin Wang, Ye Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, Liang He
摘要: 由于人工评估医学大语言模型(LLM)耗时耗力,因此医学领域出现了各种医学大语言模型(LLM),这凸显了对统一评估标准的需求。为了解决这个问题,我们引入了 MedBench,这是一个针对中国医学领域的综合基准,由 40,041 个问题组成,这些问题来自真实的考试练习和不同医学分支的医学报告。具体而言,该基准由四个关键部分组成:中医执业医师资格考试、住院医师规范化培训考试、主治医师资格考试以及包含检查、诊断和治疗的真实临床病例。MedBench复制了中国大陆医生的教育进展和临床实践经验,从而成为评估医学语言学习模型中知识掌握和推理能力的可靠基准。我们进行了广泛的实验,并从不同角度进行了深入分析,最终得出以下结论:(1) 中医LLM在这一基准上表现不佳,凸显了在临床知识和诊断精确度方面取得重大进步的必要性。(2)一些通用领域的 LLM 令人惊讶地拥有相当多的医学知识。这些发现阐明了MedBench背景下LLMs的能力和局限性,最终目的是为医学研究界提供帮助。
12. Exploring Equation as a better Intermediate Meaning Representation for Numerical Reasoning of Large Language Models
作者:Dingzirui Wang, Longxu Dou, Wenbin Zhang, Junyu Zeng, Wanxiang Che
摘要:数值推理是自然语言处理模型在真实世界场景中理解和处理数字信息的重要能力。目前的大多数方法都是先生成问题的中间意义表示(IMR),然后再生成答案。当前的 SOTA 方法将程序生成为带有大型语言模型 (LLM) 的 IMR。直观地说,与程序相比,方程的限制更少,语义更接近问题,因此生成准确率更高。然而,目前的 LLM 生成的方程比程序差,我们假设方程数据在预训练数据中比程序少。因此,在本文中,我们尝试使用方程作为 IMR 来解决数字推理任务,主要解决两个问题:(1)理论上,如何证明方程是 IMR,且生成精度高于程序;(2)经验上,如何使用 LLMs 提高方程的生成精度。针对第一个问题,我们提出并证明了从理论上比较不同 IMR 生成精度的命题。对于第二个问题,我们提出了一种名为 "通过分解方程生成桥提高数值推理能力"(Boosting Numerical ReasonIng by Decomposing the Generation of Equations Bridge)的方法,该方法可以通过减少生成常量表达式和程序的倾向来提高 LLMs 作为 IMR 生成方程的准确性。
13. Benchmarking Large Language Models in Retrieval-Augmented Generation
作者:Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun
摘要:检索增强生成(RAG)是减轻大型语言模型(LLM)幻觉的一种有前途的方法。然而,现有研究缺乏对检索增强生成对不同大型语言模型影响的严格评估,这使得识别 RAG 对不同 LLM 的潜在能力瓶颈具有挑战性。在本文中,我们系统地研究了检索增强生成对大型语言模型的影响。我们分析了不同大型语言模型在 RAG 所需的 4 项基本能力方面的表现,包括噪声鲁棒性、负排斥、信息整合和反事实鲁棒性。为此,我们建立了检索增强生成基准(RGB),这是一个新的语料库,用于评估中英文 RAG。RGB 根据上述解决案例所需的基本能力,将基准中的实例分为 4 个独立的测试平台。然后,我们在 RGB 上评估了 6 个具有代表性的 LLM,以诊断当前 LLM 在应用 RAG 时所面临的挑战。评估结果表明,虽然 LLM 具有一定程度的噪声鲁棒性,但它们在负面剔除、信息整合和处理虚假信息方面仍有很大的困难。
14. Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
作者:Songhua Yang, Hanjie Zhao, Senbin Zhu, Guangyu Zhou, Hongfei Xu, Yuxiang Jia, Hongying Zan
摘要:大语言模型(LLM)的最新进展在理解和响应用户意图方面取得了显著突破。然而,在某些专业领域,如中医领域,它们的性能却落后于一般用例。将中医纳入 LLM 的现有努力依赖于使用单轮和精炼对话数据的监督微调(SFT)。这些模型缺乏类似医生的主动询问和多轮理解能力,也无法使回答与专家的意图保持一致。在这项工作中,我们介绍了首个基于中文医学 LLaMA 的 LLM--"仲景",它实现了从持续预训练、SFT 到从人类反馈强化学习(RLHF)的整个训练流水线。此外,我们还构建了一个包含 70,000 个真实医患对话的中文多轮医疗对话数据集 CMtMedQA,这大大增强了模型处理复杂对话和主动发起询问的能力。鉴于生物医学领域的独特性,我们还定义了细化的注释规则和评估标准。广泛的实验结果表明,尽管参数是 ChatGPT 的 100 倍,但仲景在各种能力上都优于基线,并在某些能力上与 ChatGPT 不相上下。消融研究也证明了每个组件的贡献:预培训增强了医学知识,而 RLHF 则进一步提高了遵从指令的能力和安全性。
15. Graph of Thoughts: Solving Elaborate Problems with Large Language Models
作者:Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, MichałPodstawski, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Hubert Niewiadomski, Piotr Nyczyk, Torsten Hoefler
摘要:我们介绍了 "思维图"(GoT):这是一个在大型语言模型(LLM)中提高提示能力的框架,它超越了诸如 "思维链"(Chain-of-Thought)或 "思维树"(ToT)等范式所提供的能力。GoT 的关键理念和主要优势在于能够将 LLM 生成的信息建模为任意图,其中信息单位("LLM 想法")是顶点,而边则对应于这些顶点之间的依赖关系。这种方法可以将任意的 LLM 思想组合成协同结果,提炼出整个思想网络的精髓,或利用反馈回路增强思想。我们展示了 GoT 在不同任务中的优势,例如,与 ToT 相比,排序质量提高了 62%,同时成本降低了 31%。我们确保 GoT 可通过新的思维转换进行扩展,因此可用于引领新的提示方案。这项工作使 LLM 推理更接近人类思维或大脑机制(如递归),而这两种机制都会形成复杂的网络。
16. Hypothesis, Verification, and Induction: Grounding Large Language Models with Self-driven Skill Learning
作者:Shaohui Peng, Xing Hu, Qi Yi, Rui Zhang, Jiaming Guo, Di Huang, Zikang Tian, Ruizhi Chen, Zidong Du, Qi Guo, Yunji Chen, Ling Li
摘要:大语言模型(LLMs)凭借丰富的人类世界语义知识,展示了其强大的自动推理和规划能力。然而,接地问题仍然阻碍着 LLM 在现实环境中的应用。现有的研究试图对 LLM 进行微调,或利用预定义的行为应用程序接口(API)来连接 LLM 与环境,这不仅需要花费大量人力物力为每项任务进行定制,还削弱了 LLM 的通用性优势。为了让 LLM 自主地与环境接轨,我们提出了假设、验证和归纳(HYVIN)框架,通过自我驱动的技能学习,自动、逐步地将 LLM 与环境接轨。HYVIN 首先利用 LLM 提出实现任务的子目标假设,然后通过与底层环境交互来验证假设的可行性。一旦验证成功,HYVIN 就能在这些成功实现的子目标的指导下学习通用技能。这些技能可进一步用于完成未能通过验证阶段的更复杂任务。经过著名的指令跟踪任务集 BabyAI 的验证,HYVIN 在最具挑战性的任务中取得了与模仿学习方法相当的性能,而模仿学习方法需要花费数百万的演示费用,这证明了所学技能的有效性,也展示了我们框架的可行性和效率。
17. Can Large Language Models Serve as Rational Players in Game Theory? A Systematic Analysis
作者:Caoyun Fan, Jindou Chen, Yaohui Jin, Hao He
摘要:博弈论作为一种分析工具,在社会科学研究中经常被用来分析人类行为。由于大型语言模型(LLMs)的行为与人类高度一致,一个有前途的研究方向是在博弈实验中使用 LLMs 作为人类的替代品,从而实现社会科学研究。然而,尽管对大型语言模型与博弈论的结合进行了大量实证研究,但大型语言模型在博弈论中的能力边界仍不清晰。在本研究中,我们致力于系统地分析博弈论背景下的 LLMs。具体来说,理性作为博弈论的基本原则,是评价博弈者行为的尺度--建立明确的愿望、完善对不确定性的信念以及采取最优行动。因此,我们选择了三个经典博弈(独裁者博弈、石头剪刀布和环网博弈)来分析 LLM 在这三个方面的理性程度。实验结果表明,即使是目前最先进的 LLM(GPT-4),在博弈论方面与人类相比也有很大差距。例如,LLMs 难以建立基于不常见偏好的欲望,无法从许多简单模式中提炼出信念,并且在采取行动时可能会忽略或修改提炼出的信念。因此,我们认为在社会科学领域的博弈实验中引入 LLM 应更加谨慎。
18. SayCanPay: Heuristic Planning with Large Language Models using Learnable Domain Knowledge
作者:Rishi Hazra, Pedro Zuidberg Dos Martires, Luc De Raedt
摘要:大型语言模型(LLMs)凭借其丰富的 "世界知识",展现出了令人印象深刻的规划能力。然而,尽管最近取得了一些进展,但要获得既可行(基于承受能力)又经济(计划长度)的计划仍然是一项挑战。这与启发式规划方法形成了鲜明对比,后者利用领域知识(在行动模型(如 PDDL)中形式化)和启发式搜索来生成可行的最优计划。受此启发,我们建议利用 LLMs 的世界知识和启发式搜索原理,将 LLMs 和启发式规划结合起来。我们的方法是 SayCanPay,它利用 LLMs 在可学习领域知识的指导下生成行动(Say),评估行动的可行性(Can)和长期回报/报酬(Pay),并利用启发式搜索选择最佳行动序列。我们的贡献在于:(1) 在启发式规划的背景下对 LLM 规划问题进行了新颖的构架;(2) 将基础和成本效益元素整合到生成的规划中;(3) 对行动使用启发式搜索。广泛的评估表明,我们的模型超越了其他 LLM 规划方法。
19. History Matters: Temporal Knowledge Editing in Large Language Model
作者:Xunjian Yin, Jin Jiang, Liming Yang, Xiaojun Wan
摘要:由于过时的知识和知识库原有的错误,出现了修改或更新大模型知识库的任务。目前大部分做法将这两种原因混为一谈,简单的将原有知识全部替换成现有知识,但本文认为保留过时的知识也是有必要的。因此本文引入了TKE(Temporal Knowledge Editing)任务并且提出了一种新的基准ATOKE(Assessment of TempOral Knowledge Editing)来测试现有模型。同时,还提出了一个新的框架METO(Multi-Editing with Time Objective),同时编辑历史知识与现有知识,优化了模型对事件的时间预测。TKE指的是:假设模型现在只有2016年的知识,经过多次的编辑,可以逐渐获取到现在的知识,同时保留过去的知识。METO是利用query获取模型知识Cm(2016年美国总统是Obama),获取现有知识Cm+(2017到现在的美国总统),将这两种组合得到Ct(2016到现在的美国总统),而后利用任意的现有编辑方法同时进行知识查询优化(问总统)和时间查询优化(问时间)。
20: Fine-tuning Large Language Model based Explainable Recommendation with Explainable Quality Reward LLM
作者:Mengyuan Yang, Mengying Zhu, Yan Wang, Lin Chen, Yilei Zhao, Xiuyuan Wang, Bing Han, Xiaolin Zheng, Jianwei Yin
摘要:可解释推荐目前具有三个问题:缺乏个性化,不一致性,有问题的解释数据。我们提出了backbone:LLM2ER,提出了两种reward机制,微调出了LLM2ER-EQR模型。LLM2ER可以分为三个Module。Rating Prediction Module:user-item对经过concept graph,用HGT学习user与item嵌入,然后经过MLP获取rating。Personalized Prompt Learning Module:将几个部分按照组合起来,包括嵌入,rating,推理路径等。组成prompt Explanation Generation Module:Prompt输入PLM EQR有两种reward机制。Concept Consistent Reward Model:计算生成的解释与候选概念(Candidate Concept)相似度。High-Quality Alignment Reward Model:基于GAN将生成的解释与训练过程中的高质量不配对的解释进行对齐。
最后,感谢实验室的师弟师妹对于这些工作的整理。
推荐阅读:
如果觉得有帮助还请分享,在看,点赞