点击蓝字 关注我们
论文分享 | 大语言模型相关研究进展
Automated, LLM enabled extraction of synthesis details for reticular materials from scientific literature Privacy Risks of Speculative Decoding in Large Language Models The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models Evolving Alignment via Asymmetric Self-Play Sample-Efficient Alignment for LLMs
1.Automated, LLM enabled extraction of synthesis details for reticular materials from scientific literature
Authors: Viviane Torres da Silva, Alexandre Rademaker, Krystelle Lionti, Ronaldo Giro, Geisa Lima, Sandro Fiorini, Marcelo Archanjo, Breno W. Carvalho, Rodrigo Neumann, Anaximandro Souza, João Pedro Souza, Gabriela de Valnisio, Carmen Nilda Paz, Renato Cerqueira, Mathias Steiner
https://arxiv.org/abs/2411.03484
论文摘要
自动化知识提取自科学文献有可能加速材料发现。我们研究了一种从科学文献中提取网状材料合成方案的方法,采用大型语言模型(LLMs)。为此,我们引入了知识提取管道(KEP),该管道自动化了基于LLM的段落分类和信息提取。通过在一组开源LLM上应用提示工程与上下文学习(ICL),我们证明了LLM能够从PDF文档中提取化学信息,无需微调或训练,并且降低了幻觉的风险。通过比较五个开源LLM在段落分类和信息提取任务中的性能,我们观察到了出色的模型表现,即使在ICL提示中仅包含少量示例段落。结果显示了KEP方法在自动化科学知识提取中减少人工标注和数据管理努力的潜力。
论文简评
综上所述,这篇论文提出了一个名为知识提取管道(KEP)的知识提取管道,该管道利用大型语言模型(LLM)自动提取材料科学领域的合成协议。研究者强调了提示工程和语境学习的重要性,以提高性能而无需额外训练。通过与不同LLM的实验结果对比,证明了这种方法的有效性,并显示即使使用较少的数据也可以取得高绩效。此外,作者还展示了多个LLM之间的比较,进一步增强了对模型能力的理解。总的来说,这篇论文为知识提取领域提供了新的思路和方法,具有重要的理论价值和应用潜力。
2.Privacy Risks of Speculative Decoding in Large Language Models
Authors: Jiankun Wei, Abdulrahman Abdulrazzag, Tianchen Zhang, Adel Muursepp, Gururaj Saileshwar
https://arxiv.org/abs/2411.01076
论文摘要
在大型语言模型(LLMs)中,推测解码通过廉价地预测多个标记并并行验证,从而加速了标记生成,已被广泛应用。本文提供了首次研究,展示了推测解码的隐私风险。我们观察到,正确和错误预测的输入依赖模式可以被监视标记生成时间和数据包大小的对手所利用,导致隐私泄露。通过观察正确和错误推测标记的模式,我们表明,恶意对手可以对查询进行指纹识别,并在三种不同的推测解码技术中以超过90%的准确率学习私密用户输入——REST(几乎100%的准确率)、LADE(最高92%的准确率)和BiLD(最高95%的准确率)。我们还表明,对手能够泄露用于设计这些技术的机密知识产权,例如在REST中用于预测的数据存储的数据,泄露速率超过每秒25个标记,甚至包括在LADE中用于预测的超参数。我们讨论了一些缓解策略,例如在多个迭代中聚合标记和用额外字节填充数据包,以避免此类隐私或机密泄露。
此外,我们揭示了REST机制如何利用预构建的句子数据存储,迭代性地重建句子,从而暴露用于创建这些数据的知识产权或机密数据。即使输入经过释义,其准确率仍显著高于随机基线,显示出信息泄露的持续威胁。我们还强调了使用较小模型进行推测解码时的安全性和偏见问题,例如与Llama 2结合使用的TinyLlama,那里不足的安全检测可能导致有害输出和响应质量的不一致。最后,当使用较小的草稿模型进行预测时,例如在BiLD中,我们强调了安全风险,较大目标模型的安全训练可能会被忽略,从而导致有害或不安全的输出。我们的发现强调了在部署推测解码等加速技术时,平衡性能与隐私和安全性的重要性。
论文简评
这篇论文主要探讨了大型语言模型(LLM)中推测解码的隐私风险,并揭示了模式化的标记预测可能泄露敏感信息。通过指纹攻击等方法,研究者成功地实现了对用户输入的有效识别,同时讨论了潜在的缓解策略。该文提出的攻击方法具有高度准确度,能够有效发现用户查询,为解决AI领域中的隐私问题提供了新的思路和方案。总体而言,该文不仅提出了一个重要的理论问题,也提供了一种实用的研究方向,对于推动人工智能领域的健康发展具有重要意义。
3.The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models
Authors: Anaelia Ovalle, Krunoslav Lehman Pavasovic, Louis Martin, Luke Zettlemoyer, Eric Michael Smith, Adina Williams, Levent Sagun
https://arxiv.org/abs/2411.03700
论文摘要
自然语言助手旨在为用户提供有用的响应,同时避免产生有害输出,这主要通过与人类偏好的对齐来实现。然而,目前对对齐技术是否可能不经意间延续甚至增强其预对齐基础模型中继承的有害偏见的理解仍然有限。这个问题因流行的偏见评估基准的选择而变得更加复杂,这些基准主要集中在主导社会类别上,例如二元性别,从而限制了对影响弱势群体的偏见的洞察。为了解决这一差距,我们将焦点放在变性人、非二元和其他性别多样性身份上,研究对齐过程如何与大型语言模型中的预存性别多样性偏见相互作用。我们的主要贡献包括:对领先的偏好微调大型语言模型中的偏见评估方式进行了全面调查,突出显示了性别多样性表现中的关键缺口;对跨越直接偏好优化(DPO)阶段的12个模型进行系统的性别多样性偏见评估,揭示了流行偏见基准未能检测到的危害;提出了一种灵活的框架,用于测量隐性奖励信号中的有害偏见,适用于其他社会背景。我们的研究发现,DPO对齐模型对监督微调(SFT)特别敏感,并且可以放大其基础模型中存在的两种现实世界性别多样性危害:污名化和非肯定性别语言。我们最后提出了针对DPO和更广泛对齐实践的建议,倡导采用社区知情的偏见评估框架,以更有效地识别和解决大型语言模型中的弱势危害。
论文简评
该论文主要聚焦于AI模型在语义处理过程中的性别多样性偏差问题,并通过实证研究揭示了偏见放大现象。论文对现有评估方法进行了全面梳理,并提出了一种新的框架来衡量人工智能系统中的隐性偏见信号。研究表明,直接偏好优化(DPO)算法可能导致模型对跨性别者和非二元个体产生有害偏见,这一结果在当前的评估中被广泛忽视。论文为理解并克服此类问题提供了宝贵的见解和理论基础。
4.Evolving Alignment via Asymmetric Self-Play
Authors: Ziyu Ye, Rishabh Agarwal, Tianqi Liu, Rishabh Joshi, Sarmishta Velury, Quoc V. Le, Qijun Tan, Yuan Liu
https://arxiv.org/abs/2411.00062
论文摘要
我们提出了“通过不对称自我对弈演变对齐”(Evolving Alignment via Asymmetric Self-Play,简称\method)这一新框架,以将大型语言模型(LLMs)与强化学习(RLHF)进行对齐。当前的RLHF框架通常假设固定的提示分布,这种假设是不理想的,并且限制了对齐的可扩展性和模型的泛化能力。为了解决这个问题,我们提出了一个通用的开放式RLHF框架,将对齐视为两个参与者之间的不对称游戏:(i)一个“创造者”,使用奖励模型生成越来越具有信息量的提示分布;(ii)一个“解决者”,学习在创造者生成的提示上输出更优选的响应。这一演变对齐框架eva提供了一种简单而高效的方法,可以利用任何现有的RLHF算法来实现可扩展的对齐。我们的eva在广泛使用的基准测试中超过了最新的技术方法,无需任何额外的人工设计提示。具体而言,eva使Gemma2-9b-it在Arena-Hard上的胜率从51.6%提高到60.1%(使用DPO),从55.7%提高到58.9%(使用SPPO),从52.3%提高到60.7%(使用SimPO),以及从54.8%提高到60.3%(使用ORPO),超越了其27B版本,并与claude-3-opus持平。即使引入新的人工设计提示,这一改进依然长久有效。最后,我们展示了eva在各种消融设置下的有效性和稳健性。
论文简评
在这篇论文中,作者提出了一个名为"eva"的新框架,旨在解决固定提示分布限制了RLHF模型对齐问题。该方法通过将对齐过程视为由创造者生成有启发性的提示与求解器生成偏好响应之间的不对称游戏,提出了这一创新概念。通过实验表明,这种方法在多个基准上优于现有对齐技术,并能够在不依赖静态人类定制提示的情况下取得显著性能提升。
论文的关键点在于它引入了一个独特的框架来分析和改进大语言模型(LLM)对齐问题。该方法强调了不对称的游戏性质,即创造者(或用户)提供信息性提示,而求解器则根据这些提示生成最佳响应。这种不对称性不仅为研究提供了新的视角,也带来了显著的性能提升。
此外,论文还讨论了如何动态地调整提示分发以增强可扩展性和适应性。这意味着即使在大规模任务中,模型也能快速调整其对齐策略,从而保持良好的性能。这种灵活性对于处理复杂任务和应对数据波动至关重要。
总的来说,这篇论文展示了对对齐问题的新颖理解以及其在实际应用中的成功实践。它的贡献不仅仅局限于对对齐技术的研究,更是在理论上丰富了对齐领域的知识,同时也在实践中证明了其有效性。因此,我认为这篇论文是一个非常有价值的学术成果。
5.Sample-Efficient Alignment for LLMs
Authors: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
https://arxiv.org/abs/2411.01493
论文摘要
我们研究了在预算有限的在线反馈下,如何有效地将大型语言模型(LLMs)与人类偏好对齐的方法。我们首先在上下文对抗赌博机的框架内描述了LLM对齐问题。这一表述涵盖了最新的在线强化学习人类反馈(RLHF)和在线直接偏好优化(DPO)等范式,内在地结合了“在线主动探索”的样本高效算法。利用赌博理论的洞见,我们介绍了一种基于汤普森采样的统一算法,并强调其在两个不同的LLM对齐场景中的应用。我们提出的高效实现该算法的智能体,被命名为SEA(样本高效对齐),通过在三个模型规模(1B、2.8B、6.9B)和三种偏好学习算法(DPO、IPO、SLiC)的广泛实验进行了实证验证。结果表明,SEA在与oracle的偏好对齐方面实现了高度的样本效率,超越了近期针对LLMs的主动探索方法。此外,我们发布了SEA的实现以及一个高效的代码库,旨在加速该领域未来的研究。
论文简评
该篇论文旨在提出一种通过样本高效方法实现大型语言模型(LLM)与人类偏好之间对齐的新颖方法。研究者引入了一个创新的框架,并基于此提出了SEA算法(样本效率型对齐),通过验证实验展示了其性能,尤其是在处理不同规模和学习方法时的表现。此外,论文还强调了该方法的有效性,特别是当用于解决大规模数据集中的问题时,能够提供有效的解决方案。总的来说,这篇论文为LLMs与人类偏好的对齐提供了新的思路,并通过实验证明了其有效性。
我们欢迎您在评论区中留下宝贵的建议!包括但不限于:
可以提出推文中论文简评的不足! 可以分享最近更值得推荐的论文并给出理由!
END