5月1日,第42届国际机器学习大会ICML 2024 公布录用结果,组委会于 9473 篇论文中录用了 2609 篇论文(中稿率为 27.5%),其中我组 6 篇论文入选。
国际机器学习大会(International Conference on Machine Learning,简称 ICML)是机器学习领域最权威的会议之一,与 NeurIPS、ICLR 并列为最具影响力的三个会议。此外,ICML 在谷歌学术指标中的排名在所有AI顶会中的第四位,仅次于CVPR、ICLR、NeurIPS。
我组中稿论文信息
ULTRAFEEDBACK: Boosting Language Models with Scaled Al Feedback
基于人类反馈的强化学习(RLHF)被OpenAI、Anthropic和Google DeepMind等业界领先公司广泛研究并应用。然而,由于缺乏高质量、公开可用的偏好数据集,开源社区在偏好对齐的研究和实践上仍然处于落后状态。为了解决这一问题,我们构建了UltraFeedback,一个大规模、多样化、细粒度的偏好数据集,包括25万条对话数据以及相应的偏好标注数据,每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。这一数据规模在非社区标注的偏好数据集中排在首位。目前,UltraFeedback已被Apple, NVIDIA, HuggingFace等机构采用,所对齐模型超200个,月均下载量共超100万次。
作者: 崔淦渠*,袁立凡*,丁宁,姚冠名,何秉翔,Wei Zhu,Yuan Ni,Guotong Xie,谢若冰,林衍凯,刘知远,孙茂松
合作单位: 平安科技、中国人民大学
➤ 论文链接
📑 https://arxiv.org/abs/2310.01377
Exploring the Benefit of Activation Sparsity in Pre-training
基于Transformer的预训练语言模型具有稀疏激活的特性,即每个输入只会激活少量神经元。尽管现有工作已探索如何以后处理的方式提高稀疏模型推理效率,但尚未有工作在训练中进一步挖掘稀疏激活的潜力。本工作首先研究了预训练过程中模型激活性质的变化,发现模型在预训练过程的大部分时间均具有稀疏激活性质,然而激活的相关性(每对神经元之间的共激活概率)会随着训练不断演变。基于此观察,我们提出了动态模块化预训练,在预训练过程中自适应地在MoE稀疏训练与传统稠密训练中切换,提升训练效率并充分利用模型参数。与稠密训练相比,动态模块化预训练在相同的模型大小和更低的训练成本(最高加速1.44倍)下取得了相当的性能。此外,动态预训练的模型可以直接作为稀疏MoE模型用于推理,与其他基线方法相比,在同样的开销下取得了更好的性能,实现了性能与效率之间最佳的权衡。
作者: 张正彦,肖朝军,覃秋杰栎,林衍凯,曾致远,韩旭,刘知远,谢若冰,孙茂松,周杰
合作单位: 腾讯微信、中国人民大学
NExT-Chat: An LMM for Chat, Detection and Segmentation
大模型的发展极大地推动了多模态理解领域的进展。然而,现在的多模态大模型主要集中在图片整体理解,而在区域理解方面仍然有所欠缺。为了缓解这一问题,我们提出了一种名为 pix2emb 的新范式,可以通过统一的嵌入接口对现有多模态大模型的输入、输出格式进行扩展。通过 pix2emb 方法,我们训练了多模态大模型 NExT-Chat。该模型首次实现了区域描述、对话、检测、分割能力一体化,并在多个数据集上取得了SOTA。此外,模型发布之后,受到了社区广泛关注,被收录为HuggingFace的daily paper。
作者: 张傲,姚远,吉炜,刘知远,Tat-Seng Chua
合作单位: 新加坡国立大学
➤ 论文链接
📑 https://arxiv.org/abs/2311.04498
➤ 项目链接
🗳️ https://github.com/NExT-ChatV/NExT-Chat
Equivariant Diffusion for Crystal Structure Prediction
为了解决晶体结构预测(Crystal Structure Prediction, CSP)任务的执行效率和精度挑战,几何对称性可感知的深度学习模型已经被广泛研究。其中,基于扩散模型的方法通过把CSP转化为基于条件生成的任务,取得了良好的进展。然而,如何在扩散过程中保证置换、旋转和周期平移的等变性问题,仍然没有被完全解决。在这项工作中,我们提出了EDCSP,一种新颖的等变扩散生成模型。我们首先关注已有工作忽略的晶格置换等变性问题,并提出了一种考虑训练约束的解决方法;此外,我们还提出了一种独特的加噪方法,确保扩散模型在推理和训练过程中严格遵循周期平移等变性。我们的实验表明,EDCSP在生成精确结构方面显著优于现有模型,并且在训练过程中表现出更快的收敛速度。
作者: 林沛佳,陈品,矫瑞,莫晴,岑鉴焕,黄文炳,刘洋,黄聃,卢宇彤
合作单位: 中山大学、中国人民大学
Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning
生物学和药物发现中的许多过程涉及分子之间的各种3D相互作用,例如蛋白质与蛋白质、蛋白质与小分子等。由于不同的分子通常以不同的粒度进行表示,现有方法通常使用不同的模型独立编码每种类型的分子,从而无法有效学习普遍的相互作用物理原理。在本文中,我们首先提出将任意3D复合物通用地表示为一个集合的几何图,揭示了用一种模型编码所有类型分子的方法。然后,我们提出了一种通用等变Transformer(Generalist Equivariant Transformer,GET),以有效捕捉特定领域的层次结构和通用领域的相互作用物理特性。具体来说,GET由双层注意力模块、前馈模块和层归一化模块组成,每个模块都是E(3)等变的,并且可以用于处理大小动态改变的集合。值得注意的是,与传统的基于池化的分层模型不同,我们的GET能够保留所有层次的细粒度信息。我们在蛋白质、小分子和RNA/DNA之间的相互作用上进行了广泛的实验,验证了我们所提出的方法在不同领域中的有效性和通用性。
作者: 孔祥哲,黄文炳,刘洋
合作单位: 中国人民大学
➤ 论文链接
📑 https://arxiv.org/abs/2306.01474
Towards Unified Alignment Between Agents, Humans, and Environment
近期有大量工作构造了基于基础模型的智能体,但是,其中的许多工作在现实场景部署时都会面临效率问题。本工作中,我们提出 UA2(Unified Alignment for Agents)法则,强调在一个高效的智能体的设计中应当同时考虑智能体与人类意图、环境动态和自身约束的统一对齐。从 UA2的视角,我们对现有的智能体及Benchmark 相关工作做了总结梳理。为了进行 UA2的概念验证,我们对 WebShop 环境做了增量修改,以引入更多环境变化因素及任务相关的人类意图因素, 在对现有的主流语言模型智能体算法的测试下,我们发现现有方法在人类意图、环境动态及自身约束都无法做到很好的平衡,表明 UA2所强调的问题的确存在。我们基于检索增强的基本思路,对 ReAct 方法做了扩展,实验结果表明我们的初步方法与现有工作相比做到了更好的人类意图、环境动态及自身约束的统一对齐,表明 UA2 所强调的问题是可处理的。
作者: 杨宗瀚,刘安,刘子君,刘铠铭,熊方舟,王祎乐,杨泽远,胡清源,陈鑫睿,张真赫,罗富文,郭至诚,李鹏,刘洋
合作单位: 清华大学智能产业研究院(AIR)
➤ 论文链接
📑 https://arxiv.org/abs/2402.07744
关于我们
清华大学自然语言处理与社会人文计算实验室(TsinghuaNLP)成立于 20 世纪七十年代末,是国内开展自然语言处理研究最早、深具影响力的科研单位,也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下,围绕以中文为核心的自然语言处理,在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究,在国内外具有较大的学术影响。近年来,实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务,并与腾讯、华为、搜狗等企业建立密切的学术合作关系。
Website:http://nlp.csai.tsinghua.edu.cn/
Email:thunlp@163.com
GitHub:https://github.com/thunlp
https://github.com/OpenBMB
Twitter:https://twitter.com/TsinghuaNLP
THUNLP 长期开放招聘