七篇顶会顶刊!中科闻歌AI研究团队学术成果发表,深度参与AI前沿技术研究

科技   2024-12-16 17:10   北京  

近日,中科闻歌研究团队在大模型领域取得一系列技术成果,在ACL、NAACL、COLING、CVPR、AAAI等人工智能领域顶尖学术会议上发表多篇论文,研究方向涵盖大模型嵌入、知识增强、可解释性、对抗攻击等,对于提升AI大模型性能、确保模型安全性与可控性等方面有重要意义,积极参与和布局AI前沿研究。



2024 闻歌论文亮点解析


01. 3D-RPE:通过三维旋转位置编码增强长文本建模(AAAI '24)

Xindian Ma, Wenyuan Liu, Peng Zhang, Nan Xu. 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding. In Proceedings of the AAAI 2024.

受布洛赫球(Bloch Sphere)启发,本文提出了3D旋转位置编码(3D-RPE),作为2D旋转位置编码(RoPE)的创新升级。3D-RPE在长文本建模中展现了两大优势:可控的长期衰减和更高的位置分辨率。它能调节长期衰减,精确捕捉远距离token间的相对位置信息;同时,解决了RoPE在位置插值中分辨率下降的问题。

实验结果表明,3D-RPE在长文本自然语言理解(NLU)和长序列语言建模(LM)任务中,尤其在长文本NLU任务中,表现出显著的性能提升。


图 1:2D旋转位置编码(RoPE)与3D旋转位置编码(3D-RPE)的对比


表 1:在长文本自然语言理解任务上对开源模型的比较。我们的模型3D-RPE-LlaMA2-7B-Chat是基于LLaMA-2-7b-chat微调得到的,将其上下文长度从4k扩展到了16k


02. 对偶复数知识图谱嵌入(COLING '24)

Yao Dong, Qingchao Kong, Lei Wang, Yin Luo. Dual Complex Number Knowledge Graph Embeddings. In Proceedings of the COLING 2024.

知识图谱嵌入是学习实体和关系表示的关键技术。现有方法在建模复杂关系模式(如非交换组合)时存在局限。本文提出了一种新型知识图谱嵌入方法——对偶复数知识图谱嵌入(DCNE),通过将实体映射到对偶复数空间,利用对偶复数乘法在二维空间中将关系表示为旋转,从而有效建模非交换组合模式。


与传统方法相比,DCNE在提升建模能力的同时,通过二维空间的旋转表示,显著提高了参数效率。广泛的实验结果表明,DCNE在链接预测和路径查询任务上表现出了显著的性能提升。


图 1:以人物 Jack 为例, "Father-in-law"和"spouse"构成了一个非交换组合模式

图 2:RotatE (a) 和 DCNE (b) 的示意图。RotatE将关系r建模为复平面中绕原点的旋转。DCNE将关系r建模为欧几里得平面中绕任意点的旋转


表 1:在 WN18 和 FB15 上的链路预测结果



03. PromISe:基于提示内省搜索释放LLMs潜力(COLING '24)

Minzheng Wang, Nan Xu, Jiahao Zhao, Yin Luo, Wenji Mao. PromISe: Releasing the Capabilities of LLMs with Prompt Introspective Search. In Proceedings of the COLING 2024.

大语言模型(LLMs)的发展对评估基准提出了更高要求。现有的评测方法主要使用统一的人工编写Prompt,可能低估模型性能。

为此,本文提出PromISe框架,通过自动Prompt搜索方法,将Prompt优化转化为明确的思维链。该方法强调自我内省和自我完善,广泛搜索并发现多样化Prompt。在73个任务上的实验显示,PromISe显著提升了12个主流大语言模型的性能,并为人机交互提供了更深入的洞察。


图 1:PromISe 框架从通过广泛搜索发现多样化Prompt开始,通过基于LLM的选择和自省优化迭代式地找到最佳Prompt


图 2:经过PromISe优化后的Prompt显著提升主流的LLMs在MMLU 57个子任务上的性能



04. 利用分析层次过程 (AHP) 增强大型语言模型的对抗鲁棒性(COLM '24)

Jiahao Zhao, Minzheng Wang, Nan Xu, Yin Luo, Wenji Mao. Enhancing Adversarial Robustness of LLMs with Analytic Hierarchy Process. In Proceedings of the COLM 2024.

随着大型语言模型(LLMs)在各类应用中的影响力增加,确保其鲁棒性变得愈发重要。现有的防御策略通常定制化,训练成本高且难以应对新威胁。

为此,本文将LLMs的防御视为处理复杂用户查询的认知过程,借鉴认知理论,引入了一种创新的层次分析过程(AHP)推理框架。通过将任务分解为子任务并优先排序,该框架基于AI反馈,消除了训练和优化的必要性。通过使用代表性LLMs(包括GPT-3.5和Llama2)对越狱攻击的有效性和下游任务中的鲁棒性进行评估,结果表明,该方法显著提高了LLMs的对抗鲁棒性。


图 1:分析层次过程(AHP)框架将复杂任务分解为可管理的子任务,对其进行优先级排序,并系统化地逐步解决每个步骤,同时进行反思性调整。其中,AHP 的安全性和有效性评估步骤是一个强化学习过程;安全响应生成步骤则对输出内容进行推理和修正


表 1:AdvGLUE 基准上的对抗性鲁棒性结果。在对抗性示例下的准确率,鲁棒性越强



05. MMA-Diffusion:扩散模型的多模态攻击框架(CVPR '24)

Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu. MMA-Diffusion: MultiModal Attack on Diffusion Models. In Proceedings of the CVPR 2024.

近年来,AIGC技术迅速发展,特别是文本到图像(T2I)模型的进展,已在多个应用场景中得到广泛使用。然而,扩散模型的引入也带来了滥用风险,一些不法分子通过操控输入诱导模型生成不安全内容。

本文提出了一种多模态攻击框架MMA-Diffusion,利用文本和视觉模态来规避诸如提示过滤器和后处理安全检查器这样主流的生成式模型安全检测措施,从而暴露并揭示了现有主流扩散模型的一种安全漏洞。在实际生产中,本方法能够有效绕过并攻击现有文生图领域主流的offline模型(e.g. SD, DALLE)和online产品(e.g. Midjourney, Leonardo.Ai)的安全防护机制,为AIGC技术的安全机制升级提供了一些思路。


图 1:主流T2I模型采用的安全机制,包括:(a) 提示过滤器,用于禁止不安全的提示/词语,例如“裸露”;(b) 后安全检查器,用于防止生成显式内容。(c) 我们的MMA-Diffusion攻击框架通过针对文本和图像模态的攻击来测试这些安全机制的鲁棒性,揭示了 T2I 模型在涉及未经授权编辑真实个人影像并生成不适宜内容(NSFW)时的脆弱性


图 2:MMA-Diffusion 成功攻破 Midjourney 和 Leonardo.Ai 的安全策略诱导生成NSFW内容(红色标记单词是online平台使用敏感单词)



06. 基于可解释领域挖掘的词对与词元级隐喻检测融合方法(ACL '24)

Tian Yuan, Ruike Zhang, Nan Xu, Wenji Mao. Bridging Word-Pair and Token-Level Metaphor Detection with Explainable Domain Mining. In Proceedings of ACL. 2024.

隐喻检测旨在识别文本中的隐喻与字面意义,现有研究大多将词对和词级隐喻检测视为不同任务,虽然词对方法提供了可解释的中间线索,但词级隐喻检测仍面临挑战。


本文提出了一种基于词对的领域挖掘(WPDM)方法,结合词对和词级隐喻检测,特别关注词级动词隐喻检测。受概念隐喻理论(CMT)启发,本方法设计了一个语义角色映射和认知、常识、词汇资源的概念域挖掘方法,通过源域和目标域不一致性进行核心词对建模,以促进可解释性。实验结果证明了该方法在四个数据集上的有效性,并提供了隐喻检测的可解释线索。


图 1:用于词级隐喻检测方法的总体结构图


表 1:我们的方法与对比方法在隐喻数据任务上的实验结果



07. 基于隐喻理论指导的大模型隐喻推理框架 (NAACL '24)

Tian Yuan, Nan Xu, Wenji Mao. A Theory Guided Scaffolding Instruction Framework for LLM-Enabled Metaphor Reasoning. In Proceedings of NAACL. 2024.

隐喻识别旨在区分隐喻表达和字面表达,但现有方法难以解释隐喻判断的推理过程。大规模语言模型(LLMs)在语言推理中展现潜力,但如何结合可解释的隐喻推理概念仍是挑战。

本文提出了一个新颖的基于隐喻理论指导的推理(TSI)框架,增强大规模语言模型在隐喻理论的引导下推断隐喻识别的底层推理过程。借鉴支架式教学方法,团队首先构建了一个基于隐喻理论的知识图谱,作为教学结构来获取一系列支架式问题,引导大规模语言模型通过对话交互递进式生成隐喻理解的推理过程。实验表明,该方法在隐喻识别任务上显著优于现有方法,证明了隐喻理论和教学策略对LLMs推理过程的促进作用。


图 1:TSI的整体架构,该框架在概念隐喻理论的指导下实现基于LLM的隐喻推理


表 1:我们的方法与对比方法在隐喻数据任务上的实验结果


论文列表

1.《3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding》

论文地址:https://arxiv.org/abs/2406.09897

2.《Dual Complex Number Knowledge Graph Embeddings》

论文地址:https://aclanthology.org/2024.lrec-main.479/

3.《PromISe: Releasing the Capabilities of LLMs with Prompt Introspective Search》

论文地址:https://aclanthology.org/2024.lrec-main.1149/

4.《Enhancing Adversarial Robustness of LLMs with Analytic Hierarchy Process》

论文地址:https://openreview.net/forum?id=DMUGTMWrKZ#discussion

5.《MMA-Diffusion: MultiModal Attack on Diffusion Models》

论文地址:https://arxiv.org/abs/2311.17516

6.《Bridging Word-Pair and Token-Level Metaphor Detection with Explainable Domain Mining》

论文地址:https://aclanthology.org/2024.acl-long.719/

7.A Theory Guided Scaffolding Instruction Framework for LLM-Enabled Metaphor Reasoning

论文地址:https://aclanthology.org/2024.naacl-long.428/


面对如此专业、丰富的学术成果
如何才能在短时间内抓住重点
 高效地获取论文的核心信息?

中科闻歌基于雅意大模型推出的YaYi-File知识库,专门针对论文研读场景,定制了深度文件解读策略,支持智能总结论文内容主题、关键词、研究目的、核心观点、相关论据、合理性、结论、应用前景以及影响,并可以智能生成论文脑图,辅助用户快速掌握核心知识要点


YaYi-File学术论文阅读


不仅是学术论文研读,YaYi-File知识库全面增强领域专业知识速读与多轮对话能力,还支持法律文书专利文献研究报告招投标等各类专业场景的文档解读,快速完成单篇或多篇文档的专业解析、内容检索及智能问答,有效提升场景阅读效率。


YaYi-File 你的知识阅读AI助手

快快登录雅意Web端体验吧!

https://yayi.wenge.com/file/

(或点击“阅读原文”登录体验)



中科闻歌
中科闻歌是中国科学院自动化所孵化企业,领先的决策智能企业,聚焦复杂数据解析和AI辅助决策,提供数据与决策智能基础平台DIOS,以及媒宣、金融、治理等领域应用产品,助力各行业数智化转型。
 最新文章