新闻|我组5篇论文成果被 COLING 2025 收录

学术   2024-12-17 15:00   北京  
近日,第30届国际计算语言学大会(International  Conference on Computational Linguistics,COLING)公布论文录用结果,我组 5 篇论文被录用

COLING 是自然语言处理和计算语言学领域的顶级国际会议,每两年召开一次,在人工智能及自然语言处理领域享有较高学术声誉,该会议涉及领域包括但不限于文本推理、语言模型、视觉、高效NLP方法、语义解析等研究方向1965年第一届召开以来,COLING已成功地举办了30届。COLING 2025将于2025年1月19日至24日在阿联酋阿布扎比的国家展览中心举行。



我组中稿论文信息

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

稀疏激活现象,指给定输入的情况下,在模型的激活层输出中,存在大量对最终结果贡献微弱的元素。这一现象在使用ReLU激活函数的模型中普遍存在,而现有工作也证明,稀疏激活对于模型推理加速十分有效。然而,目前多数大模型仍然采用没有内生稀疏激活特性的激活函数(如GELU、Swish)。一些近期工作尝试用ReLU或其变式替代原有的激活函数,以在现有大模型的基础上取得较高的稀疏激活和推理加速效果,但是它们难以在取得较高稀疏度的同时,保持可比的模型性能。

本论文提出了一种名为ProSparse的简单有效的稀疏化训练方法,能够提高现有大模型的稀疏激活度,同时维持可比的模型性能。具体来说,在将大模型的激活函数替换为ReLU后,ProSparse采用了渐进式增长的稀疏约束,其约束系数会缓慢地沿正弦曲线多阶段增长。这一方法可以在提高稀疏激活的同时,也能缓解由激活分布变化导致的性能损失。

通过ProSparse,我们将LLaMA2-7B、LLaMA2-13B、MiniCPM-1B的稀疏度分别提升至89.32%、88.80%和87.89%,同时模型的下游任务性能与其相对应Swish激活的原模型可比。这三个稀疏化后的模型,也是目前开源LLaMA版本和端侧模型中最稀疏的,显著超过了ReluLLaMA-7B (66.98%)和ReluLLaMA-13B (71.56%)。我们的推理加速试验进一步证明,更高稀疏激活度可以带来更显著的推理加速效果,加速比最高达到4.52倍。


作者: 宋晨阳,韩旭,张正彦,胡声鼎,石曦予,李快,陈晨,刘知远,李广力,杨韬,孙茂松

合作单位: 中国科学院计算技术研究所、腾讯机器学习平台部

 ➤  论文链接 

 📑 https://arxiv.org/abs/2402.13516




Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slips

本研究提出了一种专为分析中国古代文字设计的多模态多粒度分词器,重点针对春秋战国时期(公元前771年至公元前256年)使用的楚简文字。鉴于古代汉字的复杂层级结构,其中一个字可能由多个子字符组合而成,我们的分词器首先通过字符检测定位字符边界,然后在字符和子字符两个层级进行字符识别。此外,为了支持学术研究,我们构建了首个大规模楚简数据集,包含超过10万条带标注的字符图像扫描。在基于该数据集的词性标注任务中,与主流子词分词器相比,我们的分词器在F1分数上相对提升了5.5%。我们的工作不仅有助于进一步研究这一特定文字,还可能推动对其他古代汉字形式的研究。


作者: 陈英发,胡晨龙,冯聪,宋晨阳,于是,韩旭,刘知远,孙茂松

 ➤  论文链接 

 📑 https://arxiv.org/abs/2409.01011v1




Leveraging Language-based Representations for Better Solving Symbol-related Problems with Large Language Models

符号,如数字序列、化学式和表格分隔符等广泛存在,在符号相关任务中扮演着重要角色,如抽象推理、化学性质预测和表格问题回答。与基于自然语言表达的任务相比,大型语言模型在理解和推理基于符号的表示方面存在局限性,这使它们难以处理符号相关问题。在本文中,我们提出了一种名为符号到语言转换的方法,将基于符号的表示转换为基于语言的表示,在推理过程中为语言模型提供有用信息。我们发现,对于闭源和开源的大语言模型,通过整合这种基于语言的表示,解决符号相关问题的能力可以得到很大增强。例如,通过将提出方法应用于GPT-4,可以在1D-ARC和Dyck语言任务中分别提高21.9%和9.5%的准确率。在其他六个常见的符号相关任务(如表格理解和推文情感分析)中也有一致的改进。


作者: 王祎乐,程思婕,孙梓馨,李鹏,刘洋

合作单位: 深圳大学、清华大学智能产业研究院(AIR)

 ➤  论文链接 

 📑 https://arxiv.org/abs/2401.11725




Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models

最新的多模态大模型(LMMs)在视觉-语言任务中展现了卓越的能力。尽管这些模型具备先进的功能,但在需要复杂推理、涉及多层次视觉信息的挑战性场景下仍有待提高。现有的提示工程技术主要集中于改进文本推理或利用工具进行图像预处理,缺乏一种简单且通用的视觉提示方案来促进视觉与语言的协同。在本研究中,我们提出了一种名为 SCAFFOLD 的视觉提示方法,通过引入坐标系统来提升视觉与语言的协作性。具体而言,SCAFFOLD在图像中叠加点矩阵作为视觉信息锚点,并利用多维坐标作为文本的位置信息参考。在一系列具有挑战性的视觉-语言任务中进行的广泛实验表明,与基于文本链式推理(CoT)的 GPT-4V 提示方法相比,SCAFFOLD 具有显著的优势。


作者: 雷轩宇,杨宗瀚,陈鑫睿,李鹏,刘洋
合作单位: 清华大学智能产业研究院(AIR)

 ➤  论文链接 

 📑 https://arxiv.org/abs/2402.12058




Rethinking Long Context Generation from the Continual Learning Perspective

由于上下文窗口的限制,大型语言模型(LLMs)在处理长上下文时存在困难。尽管通过微调可以扩展上下文窗口,但这会带来巨大的计算成本。相比之下,最近的一些无需微调的方法通过重新分配注意力机制或引入临时可训练参数来应对这一问题。在本研究中,我们通过在有限上下文窗口内联合建模实例级生成,并在序列数据上进行学习,从持续学习的视角重新思考LLMs的长上下文生成能力。在实践中,我们审视了现有的代表性方法,并分析了它们与持续学习策略的协同作用。此外,我们将这些策略整合到当前方法中,以进一步提升LLMs在处理长上下文时的效率。实验和分析显示持续学习的洞见对于改善长上下文处理具有可行性。


作者: 杨泽远,熊方舟,李鹏,刘洋

合作单位: 清华大学智能产业研究院(AIR)




关于我们

清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为等企业建立密切的学术合作关系。


Website:http://nlp.csai.tsinghua.edu.cn/

Email:thunlp@163.com

GitHub:https://github.com/thunlp

               https://github.com/OpenBMB

Twitter:https://twitter.com/TsinghuaNLP

TsinghuaNLP
清华大学自然语言处理与社会人文计算实验室,是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授,核心骨干为刘洋教授,刘知远副教授。
 最新文章