当地时间8月11日至16日,为期6天的国际计算语言学年会(ACL2024)在泰国曼谷举办。ACL是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,迄今为止共举办了62次会议。
蚂蚁集团有14篇论文被ACL2024收录,研究课题涉及自然语言处理、知识推理、大模型、知识图谱等领域,其中5篇被主会(Main)收录。
以下是论文摘要:
IEPile: Unearthing Large Scale Schema-Conditioned Information Extraction Corpus / 构建大规模schema约束的信息抽取语料库
论文链接:
https://arxiv.org/pdf/2402.14710
论文来源:蚂蚁集团联合实验室
涉及领域:LLM,信息抽取,NLP
论文收录:Main of ACL
论文摘要:
大型语言模型(LLMs)在多个领域展示出巨大潜力,然而,它们在信息抽取(IE)方面表现出明显的性能差距。需要注意的是,高质量的指令数据是提升LLMs特定能力的关键,而当前的IE数据集往往规模较小、碎片化,且缺乏标准的schema模式。
为此,我们提出了一个叫IEPILE的综合中英文双语IE指令语料库,它包含约0.32B的tokens。我们通过收集和清洗33个现有的IE数据集构建了IEPILE,并引入了基于schema模式的指令生成,构建出大规模的语料库。在LLaMA和Baichuan上的实验结果表明,使用IEPILE可提升LLMs在IE任务中,尤其是在零样本泛化抽取上的性能。我们开源了语料资源和预训练模型,希望为NLP社区提供有价值的支持。
D2LLM: Decomposed and Distilled Large Language Models for Semantic Search / 分解与蒸馏大语言模型用于语义搜索
论文链接:
http://arxiv.org/abs/2406.17262
论文来源:蚂蚁集团研究型实习生
涉及领域:大语言模型,语义搜索,知识蒸馏
论文收录:Main of ACL
论文摘要:
语义搜索任务的主要挑战是,创建既准确又高效的模型来精准定位与用户查询相关的句子。由于可以使用预先计算的嵌入表示,基于BERT风格的双编码器的效率很高,但它们往往会错过句子对的微妙关系。基于GPT风格的大语言模型(LLM)采用交叉编码器的设计能捕捉到这些微妙关系,但它们的计算量通常很大,阻碍了实际应用。
本文结合这两者的优点,提出一种用于语义搜索的分解和蒸馏大型语言模型D2LLM。本文将交叉编码器分解为一个高效的双编码器,双编码器集成了多头注意力池化模块;另外,通过一个交互模拟模块,模型实现了对细微语义关系的理解。
本文使用对比、排序和特征模仿技术,将LLM的知识蒸馏到该模型中。实验表明,D2LLM在三项任务的指标上超过了五个领先的基准模型,尤其在自然语言推理(NLI)任务的性能上,至少提高了6.45%。
Unified Hallucination Detection for Multimodal Large Language Models / 统一的多模态大型语言模型幻觉检测
论文链接:
https://arxiv.org/abs/2402.03190
论文来源:蚂蚁集团联合实验室
涉及领域:多模态大模型,幻觉检测与评估
论文收录:Main of ACL
论文摘要:
在人工智能领域,多模态大语言模型(MLLMs)已经取得了突破性进展,为人工通用智能(AGI)的未来带来了前所未有的可能性。然而,尽管MLLMs在处理复杂任务时表现出色,它们仍然容易产生幻觉。这指的是模型生成的内容虽然看似可信,但实际上与输入数据或已有知识是矛盾的。幻觉不仅妨碍了MLLMs的实际部署,还可能导致错误信息的传播,影响大模型的可靠性和安全性。
因此,开发出能够检测MLLMs幻觉的检测器迫在眉睫,以能够向用户警示潜在风险,提高MLLMs的可靠性。
为了应对这一挑战,本文提出了一个工具增强的统一多模态幻觉检测框架UNIHD。该框架通过一系列辅助工具来验证幻觉的发生,并提出一个多模态基准新测试MHaluBench,用于评估幻觉检测方法的有效性。本文通过详尽的评估和分析,展示了UNIHD的有效性,并阐释了针对不同幻觉类别应用特定工具的见解。
CoCA: Fusing Position Embedding with Collinear Constrained Attention in Transformers for Long Context Window Extending / CoCA:融合位置编码和共线约束的注意力机制以实现长文本扩展
论文链接:
https://arxiv.org/abs/2309.08646
论文来源:蚂蚁集团研究型实习生
涉及领域:大模型,位置编码,注意力机制
论文收录:Main of ACL
论文摘要:
自注意和位置嵌入是基于transformer的大型语言模型(LLM)中的两个关键模块。然而,它们之间的潜在关系还远没有得到很好的研究,特别是对于长上下文窗口扩展。本文揭示了旋转位置嵌入(RoPE)和原始的自注意机制之间存在损害长上下文外推的异常行为。为了解决这个问题,本文提出了一种新的注意力机制:CoCA(共线约束注意力)。
具体来说,本文在Q和K之间实施共线约束,以无缝集成RoPE和自注意力机制。在只增加很小的计算和空间复杂性的条件下,这种集成显着增强了长上下文窗口外推能力。
大量实验表明,CoCA在扩展上下文窗口方面表现得非常好。一个基于CoCA的GPT模型,在上下文长度为512的情况下训练,可无缝将上下文窗口扩展到32K(60倍),并且无需任何微调。此外,通过在LLaMA 7B中融入CoCA,我们在仅2K的训练长度内实现了高达32K的外推。
Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale / 可高效预训练的无监督句法Transformer语言模型
论文链接:
https://arxiv.org/abs/2403.08293
论文来源:CCF-蚂蚁科研基金
涉及领域:人工智能,NLP,生成式语言模型
论文收录:Main of ACL
论文摘要:
本文提出一种可以无监督预训练的句法语言模型GPST。句法语言模型的特性在于类似人类语言理解一样还原字到词,词到短语,短语到句子的组合过程(图1), 同时还保留Transformer模型强大的拟合能力。
句法语言模型的概念提出至今已有几十年,但一直需要人工标注的句法树来提供结构监督信号,而人工标注的句法树数据量有限,导致句法语言模型预训练语料规模受限,无法scale up。
本文不仅提出一种全新的生成式句法语言模型生成范式,同时还提出基于该范式的高效无监督预训练方法,首次实现句法语言模型在10B数据量级的预训练。其核心技术在于应用一种log N复杂度的组合语言模型R2D2来构造结构化表征, 并通过"先理解,再背诵"的方式重建语言组合理解的过程(图2)。
实验结果显式,在同等预训练语料规模下,GPST在文本理解,摘要,句法泛化等下游任务显著领先GPT-2,并且在训练时间上相比之前无监督句法语言模型提高50倍以上。
相关工作链接:
https://github.com/ant-research/StructuredLM_RTDT
图一
图二
CR-LLM: A Dataset and Optimization for Concept Reasoning of Large Language Models / 一种用于大模型概念推理能力的评测基准及混合推理框架
论文链接:
https://github.com/Nianqi-Li/Concept-Reasoning-for-LLMs
论文来源:蚂蚁集团研究型实习生
涉及领域:知识推理
论文收录:Findings of ACL
论文摘要:
概念推理是模型理解世界的一项重要能力,它要求模型基于上下文信息推理出新的实体概念。然而,现有的数据集,比如概念提取和概念生成,存在模型知识泄露和上下文泄露的风险。
为解决这些问题,本文构建了一个用于大语言模型概念推理的数据集CR-LLM,该数据集包含了防止模型知识泄露和上下文泄露的机制,涵盖了8种不同类型的概念。此外,本文还提出一种混合推理框架,包含归纳推理、演绎推理和控制器等三个模块。该方法允许大语言模型自适应地为每个输入样本选择最佳推理方法。
我们在CR-LLM上使用不同模型和方法进行了广泛的实验。结果显示,本文提出的方法显著提高了性能,相较于CoT,准确率提高了7%,并展示了更好的细粒度概念生成能力。
Efficient Knowledge Infusion via KG-LLM Alignment / 通过知识图谱-大模型对齐实现高效知识注入
论文链接:
https://arxiv.org/abs/2406.03746
论文来源:蚂蚁集团独立完成
涉及领域:知识增强大模型、检索增强生成、知识图谱
论文收录:Findings of ACL
论文摘要:
为解决大型语言模型中特定领域知识匮乏的问题,基于知识图谱的检索增强方法已被证明是一种有效且高效的知识注入技术。然而,现有方法面临两个主要挑战:公开可用的知识图谱与当前任务所属特定领域之间的知识不匹配,以及大模型对图谱的信息服从性差。
本文利用小型标注样本集和大规模语料库,通过大模型高效构建特定领域的知识图谱,从而解决知识不匹配的问题。此外,本文还提出了一种三阶段“图谱-大模型”对齐策略,以增强大模型利用知识图谱信息的能力。我们在两个生物医学问答数据集上进行了基于有限样本设置的实验,结果表明我们的方法优于现有的基线方法。
HOTVCOM: Generating Buzzworthy Comments for Videos / 视频热门评论生成
论文来源:蚂蚁研究型实习生
涉及领域:基于多模态大模型的视频评论生成
论文收录:Findings of ACL
论文摘要:
在社交媒体视频平台的时代,热门“热评”在吸引用户对短视频的印象方面起着至关重要的作用,使其成为营销和品牌推广的重要工具。然而,现有研究主要集中于生成描述性评论或弹幕式评论,即对特定视频片段的即时反应。
为填补这一空白,本文引入目前最大的中文视频热评数据集HOTVCOM,包含94,000个多样化视频和1.37亿条评论。本文还提出ComHeat框架,该框架综合了视觉、听觉和文本数据,以生成在中文视频数据集中有影响力的热评。实证评估突显了该框架的有效性,展示了其在新构建和现有数据集上的优异表现。
Context-Aware Tracking and Dynamic Introduction for Incomplete Utterance Rewriting in Extended Multi-Turn Dialogues / 基于上下文的感知跟踪与动态引入的超长多轮对话场景下的不完整文本改写
论文链接:https://openreview.net/pdf?id=jrIqqu3Wbu
论文来源:蚂蚁集团独立完成
涉及领域:大模型、自然语言处理、不完整文本改写
论文收录:Findings of ACL
论文摘要:
不完整文本改写(Incomplete Utterance Rewriting,IUR)旨在根据上下文将省略信息和代词的话语重建为独立完整的话语。现有研究主要关注简短多轮对话中的简单省略和共指消解问题。但在实际场景中,对话的上下文通常包含多个相似的省略和共指消解候选,容易造成混淆;其次,对话轮次的数量趋于冗长,从而可能包含各种主题之间的切换,内容也变得更加复杂。
本文提出了一种称为CAT的新方法来解决这些问题。具体而言,我们首先设计了一个基于GPT4-turbo蒸馏得到的 tacker 模型,采用上下文跟踪,逐轮动态更新关键短语列表,作为省略和共指消解的更精确的候选。
其次,我们进一步提出了动态上下文引入机制,以过滤关键短语列表中任何元素都不依赖的无关的上文,以压缩改写时所需要输入的上文对话轮次数。
最终使用rewriter模型完成改写,其中tracker和rewriter模型均使用t5-base(考虑到实际场景中响应时间和资源问题)。
综合实验表明,该解决方案比现有基线方法有了明显提升,并在三个数据集上达到了最先进水平(特别是轮数较长的数据集)。
Are U a Joke Master? Pun Generation via Multi-Stage Curriculum Learning towards a Humor LLM / 通过多阶段课程学习框架生成双关语来实现幽默大模型
论文链接:
https://github.com/cubenlp/PGCL/blob/main/PunGeneration.pdf
论文来源:蚂蚁集团定向专项合作
涉及领域:偏好对齐
论文收录:Findings of ACL
论文摘要:
尽管大语言模型(LLMs)掌握了广泛的世界知识和一定的推理能力,但其生成幽默句子的能力仍是一个挑战。现有研究表明,ChatGPT生成幽默句子的能力仅限于生成25个独特的笑话。
本文通过偏好学习方法,赋予LLM生成幽默双关语的能力,提出一个多阶段课程偏好学习框架,以优化双关语结构偏好和幽默偏好。本文还改进了直接偏好优化(DPO)算法,以应对多目标对齐问题的挑战。
具体来说,本文在第二阶段(幽默偏好对齐)中采用我们所提出的偏好三元组优化算法,即添加第一阶段满足结构偏好的样本(Rumination),与第二阶段中的正样本(Positive)和负样本(Negative)组成偏好三元组,并将传统的DPO损失函数改进为三元组DPO损失函数。
实验结果表明,本文提出的三元组损失可减缓多目标对齐中存在的灾难性遗忘问题。通过上述多阶段课程偏好学习的训练过程,可得到同时符合结构偏好和幽默偏好的 LLM,有效提升大模型生成双关语的成功率。
此外,为促进该领域进一步发展,我们收集了一个中文双关语数据集ChinesePun,其中包含2.1k个双关语和相应的标注。
在中文(ChinesePun)和英文(SemEval)基准数据集上的综合实验结果表明,该方法(PGCL)明显优于所有基线模型。
VAEGPT-Sim: Improving Sentence Representation with Limited Corpus Using Gradually-Denoising VAE / 使用逐层去噪的变分自编码器结构优化有限语料训练下的句子表示
论文链接:
https://openreview.net/pdf?id=6MWQHxWNMS
论文来源:蚂蚁集团独立完成
涉及领域:文本嵌入、文本检索、小样本训练
论文收录:Findings of ACL
论文摘要:
文本嵌入技术广泛服务于检索、召回、聚类等众多场景。尽管近年来多种通过百万量级句子训练的文本嵌入模型已经取得了突出的效果,但在专门业务领域及专业领域中,通用语料训练的模型由于缺乏专业词汇及习语表达的输入往往表现较差,仍然需要一种高效的方法,利用专门领域的少量语料即可训练出效果突出的垂类句子表示模型。
本文提出了一种新的句子表示模型的无监督训练框架(Generate-CSE)。具体而言,这种训练框架中镶嵌了一组通用同义句生成模块,包含随机打乱、随机删除、随机重复、同义生成模型四种组件,对于每个输入句随机抽取一种方法生成对应的同义句作为正样本对,使模型在训练的不同轮次可以学到不同风格的丰富同义句子对,以达到小样本上高效的训练效果。其中,对于同义生成模型组件,我们推荐加入变分自编码器和句子相似度判别器改装GPT模型结构,经过少量样本训练后形成专门服务同义生成的模型(VAEGPT-Sim)。
改造后的VAEGPT-Sim比较其他生成模型,在同义生成任务中,能够在句子语义一致性和生成词汇多样性上达成理想平衡,更接近于人类撰写的同义句,在综合评价中取得最高指标。
结果表明,使用结合了VAEGPT-Sim的Generate-CSE框架训练文本表示模型,在小样本无监督训练中相较其他方法取得突出效果。
CharPoet: A Chinese Classical Poetry Generation System Based on Token-free LLM / CharPoet: 基于token-free大模型的中国古典诗词生成系统
论文链接:
https://arxiv.org/abs/2401.03512
论文来源:蚂蚁集团独立完成
涉及领域:大模型、AIGC
论文收录:System Demonstration of ACL
论文摘要:
自动生成中文古典诗词引起了很多研究兴趣,但同时实现格式和内容的有效控制仍然具有挑战性。传统的大模型采用token序列的生成模式,在字符敏感型任务上(例如诗歌格式控制)表现不佳。这篇论文中,我们提出了CharPoet,基token-free(无token)大模型的中文古典诗词创作系统。token-free架构采用逐字生成的方式,可以实现字符生成数量的精准控制。
我们提出了一种剪裁方法,可以将任意的传统大模型剪裁为token-free LLM。在格式准确性方面,不经任何后处理,CharPoet的整体准确率超过0.96,超过Jiuge-GPT-2(0.91) 和GPT-4(0.38)。在内容质量方面,CharPoet大幅超越了包括Jiuge在内的传统诗词生成模型 (尤其在“相关性”维度),且与其他大语言模型相当。
我们的项目页面:
https://modelscope. cn/models/CharPoet/CharPoet
系统演示视频:
https://youtu.be/voZ25qEp3Dc