近日,EMNLP 2024(Empirical Methods in Natural Language Processing)论文录用结果公布,THUNLP 7 篇论文被 EMNLP 2024 录用。
EMNLP 是计算机语言学和自然语言处理领域的顶级国际会议,在相关领域享有较高的学术声誉,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向。该会议计划于2024年11月12日至11月16日在美国佛罗里达州迈阿密召开。我组共有7篇学术论文被EMNLP 2024录用,其中,5篇主会,2篇Findings。
我组录用论文信息
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
尽管基于大规模语料库训练的大语言模型(LLMs)所具有的强大能力已经有目共睹,但为了开发出符合人类偏好的强大模型,如何让语言模型与多维度的人类偏好和价值观“对齐”是值得深入研究的课题。在人类偏好的多目标优化过程中,在一个目标(例如,无害性)的对齐效果的提升可能会导致其他目标(例如,帮助性)性能的降低,这种权衡被称为“对齐税”。现有的对齐技术大多是单维度或者直接混合对齐数据进行训练,因此并未从本质上缓解对齐目标之间的关系,导致了次优的权衡和对于不同维度的优化存在灵活性差等问题。为了应对这一挑战,论文提出了可控偏好优化(CPO)算法,其核心理念是可控,通过多目标偏好标记(preference token)来确定优化方向,从而将多目标优化问题转化为条件化的多目标优化问题。研究基于HHH指标(Helpfulness、Honesty、Harmlessness)展开,通过偏好标记控制不同维度的偏好分数,从而减少需要最大化期望的维度的数量,有效缓解对齐目标之间的冲突。同时研究提出了UltraSafety数据集,弥补了UltraFeedback在安全方面的数据的空缺。
作者: 郭一驹*,崔淦渠*,袁立凡,丁宁,孙泽旭,孙博闻,陈慧敏,谢若冰,周杰,林衍凯,刘知远,孙茂松
合作方: 中国人民大学,腾讯
收录类型: 主会
📑 https://arxiv.org/abs/2402.19085
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding
投机采样是一种广泛使用的方法,可以在不损害模型效果的情况下加速大语言模型(LLM)的生成过程。它使用现有的小模型进行起草,然后使用目标模型低成本地并行验证。在这种起草验证的框架下,起草效率是目前投机采样的加速瓶颈。因此,以更低的成本生成更长的草稿可以显著提高解码速度。为了实现这一点,我们提出了 Ouroboros,它可以生成草稿短语来并行化起草过程,同时以无需训练的方式用短语延长草稿。在各种典型文本生成任务上的实验结果表明,Ouroboros 可以在不对模型进行任何微调的前提下实现较投机采样 2.4 倍的加速,较传统自回归生成 3.9 倍的加速。代码已开源于 https://github.com/thunlp/Ouroboros
作者: 赵威霖*,黄宇翔*,韩旭,徐旺,肖朝军,张新荣,方晔玮,张开活,刘知远,孙茂松
合作方: 面壁智能
收录类型: 主会
📑 https://arxiv.org/abs/2402.13720
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models
随着大型语言模型(LLMs)日益渗透到日常生活中,人们对能够模拟人类对话的实时交互的需求不断增加。传统的基于回合制的LLMs聊天系统抑制用户在系统生成响应时进行即时互动。为了克服这些限制,我们将现有的LLMs改造为双工模型,使其能够在生成输出的同时聆听用户,并动态调整自己以提供即时反馈。
具体来说,我们将对话中的查询和响应分割成若干时间切片,然后采用时分复用(TDM)编码-解码策略,伪同步处理这些切片。此外,为了使LLMs能够足够熟练地处理实时对话,我们构建了一个微调数据集,该数据集由交替的查询和响应时间切片组成,涵盖了即时交互中的典型打断类型。我们的实验表明,尽管对话的查询和响应被分割成不完整的切片进行处理,但通过对我们的数据集进行少量微调,LLMs在标准基准上的原有性能得以保留。自动化评估和人工评估结果表明,与原始的LLMs相比,双工模型使用户与AI的交互更加自然和拟人,并大大提高了用户满意度。
作者: 张新荣,陈英发,胡声鼎,韩旭,徐子航,许缘伟,赵威霖,孙茂松,刘知远
合作方: 面壁智能
收录类型: 主会
📑 https://arxiv.org/abs/2406.15718
Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs
类案检索旨在为给定的案件基本事实提供相似案例作为参考,这一任务对于促进相似案例的判决一致性、增强司法公正以及提高法官工作效率至关重要。然而,现有研究在现实应用中面临两大挑战:现有研究主要关注使用长查询进行的检索,这与现实世界的场景并不匹配;此外,当前类案检索数据集通常仅包含数百个查询,不足以满足神经模型的训练需求。为解决这些问题,我们引入了一种自动化的方法来构建非对称的查询-候选对,并构造了迄今为止最大的类案检索数据集,其规模是现有数据集的数百倍,该数据集能够为类案检索模型提供丰富的训练信号,实验结果表明,使用我们的数据集进行训练的模型在两个广泛使用的类案检索测评数据集上取得了最先进的结果。此外,我们的构建方法也可以应用于民事案件并取得优秀的结果。
作者: 高骋*,肖朝军*,刘正皓,陈慧敏,刘知远,孙茂松
收录类型: 主会
DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models
大型语言模型(LLMs)的性能在很大程度上受预训练语料库的影响,而该语料库包含大量由模型处理的未标注数据。尽管其在模型性能中扮演关键角色,但由于数据量庞大且缺乏样本级别的质量标注和改进,数据质量的保障极具挑战性。本文介绍了DecorateLM,一种通过数据评分(Rating)、标签(Tagging)和编辑(Editing)来优化预训练语料库的数据工程方法。具体而言,DecorateLM根据质量标准对文本进行评分,使用层次标签对文本进行标记,并将文本编辑成更规范化的格式。鉴于预训练语料库的巨大规模,使用LLM来装饰整个语料库效率较低。因此,为平衡性能与效率,我们利用大型语言模型精心标注了一个训练语料库,并将数据工程专业知识蒸馏到一个参数量为1.2 B的小语言模型(SLM)中。随后,我们应用DecorateLM提升了训练语料库中100 B个词元,选取了45 B个代表高质量和多样性的词元,用于进一步训练另一个参数量为1.2 B的LLM。结果表明,使用这种高质量数据可以显著提升模型性能,从而验证了这一方法在提升预训练语料库质量方面的强大效力。
作者: 赵元乾*,戴振宁*,张祎凡*,胡声鼎*,周界,巴云琦,蔡杰,刘知远,孙茂松
合作方: 面壁智能
收录类型: 主会
Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication
自然语言长期以来一直是人类认知和交流的主要形式,因此在大型语言模型(LLMs)的发展和应用中同样起着关键作用。然而,除了自然语言之外,LLMs在预训练过程中还接触过各种非自然语言格式,如代码和逻辑表达式。自然语言作为LLMs的最佳格式,特别是在单一LLM推理和多代理通信中的地位尚未得到充分研究。在本研究中,我们通过探索非自然语言格式在这些情境中的效用,挑战了自然语言的默认使用。我们表明,允许LLMs在推理或通信之前自主选择最合适的格式,可以使不同LLMs的推理效率提高3.3%到5.7%,并在多代理通信中将令牌使用量减少高达72.7%,同时保持通信效果。我们的全面分析进一步揭示,LLMs能够从有限的任务指令中设计出一种格式,且该设计的格式可以有效地在不同的LLMs之间转移。有趣的是,LLMs决定的结构化通信格式与既定的代理通信语言表现出显著的相似性,这表明在代理通信中自然地演化出高效、结构化的通信方式。
作者: 陈纬泽,袁辰飞,原嘉锐,苏裕胜,钱忱,杨成,谢若冰,刘知远,孙茂松
合作方: 北京邮电大学,腾讯
收录类型: Findings
📑 https://arxiv.org/abs/2402.18439
Large Language Model-based Human-Agent Collaboration for Complex Task Solving
近年来,学术界对将大模型应用于自主智能体的构建产生了浓厚的兴趣。然而,基于大模型的智能体在应对动态环境变化和深入理解人类需求方面,仍存在明显的不足。在本文中,我们提出了基于大模型的人机协作问题,旨在探讨其在解决复杂任务时的协同潜力。在此基础上,我们提出了一种基于强化学习的人机协作方法,称为ReHAC。该方法引入了一个策略模型,用以判断在任务解决过程中最适合进行人类干预的关键节点,并构建了一个人机协作数据集,在离线强化学习环境中训练该策略模型。实验验证结果表明ReHAC模型的有效性。研究结果展示了人类与基于大模型的智能体在协作中的协同效应,尤其是在有计划、有限度的人类干预下,显著提升了复杂任务的完成表现。
作者: 冯雪扬*,陈志远*,秦禹嘉,林衍凯,陈旭,刘知远,文继荣
合作方: 中国人民大学
收录类型: Findings
📑 https://arxiv.org/abs/2402.12914
关于我们
清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为等企业建立密切的学术合作关系。
Website:http://nlp.csai.tsinghua.edu.cn/
Email:thunlp@163.com
GitHub:https://github.com/thunlp
https://github.com/OpenBMB
Twitter:https://twitter.com/TsinghuaNLP