近日,中国计算机学会(CCF)推荐的A类国际学术会议NeurIPS 2024论文接收结果公布。西湖大学人工智能系19篇论文被录用。其中,李子青老师实验室录用8篇,郑冶枫老师指导学生录用3篇,MAPLE实验室、杨林老师实验室、李晓飞老师实验室、刘沛东老师实验室、林涛老师实验室、吴泰霖老师实验室、蓝振忠老师实验室各录用1篇,于开丞老师指导学生录用1篇。
神经信息处理系统大会(Neural Information Processing Systems,简称NeurIPS)与国际机器学习大会(ICML)、国际学习表征会议(ICLR)并称“机器学习三大顶会”。据悉,第38届NeurIPS会议,将于2024年12月9日-15日在加拿大温哥华会议中心召开。
本文将介绍西湖大学人工智能系在NeurIPS 2024中收录的19篇论文(排序不分先后):
01
利用基于后验采样的节点级残差模块实现的深层图神经网络
Deep Graph Neural Networks via Posteriori-Sampling-based Node-Adaptive Residual Module
周靖博
李子青实验室2024级博士生
【科普一下】
近年来,图神经网络(GNN)已成为处理图结构数据的强大模型,并在社交网络、推荐系统和药物发现等各个领域展示了卓越的性能。GNN通过传播和聚合相邻节点信息的消息传递机制,为图结构信息的学习提供了一个有效的通用框架。尽管取得了显著的成功,但根据先前的研究,随着层数的增加,GNN的性能会显著下降。造成这种情况的主要原因之一是过平滑问题。过平滑是指随着GNN递归地聚合更多的邻域信息,节点表示之间变得越来越相似的现象。这种节点间的不可区分性将不可避免地降低深层GNN的性能,限制了它们有效地建模远距离邻居之间的长程依赖的能力。
【技术介绍】
在本文中,我们从邻域子图聚合的角度重新解释了为什么残差方法能够缓解过平滑现象,同时指出了先前方法利用多阶邻域子图信息时往往缺乏节点自适应能力,同时在处理高阶邻域子图时仍然难以减轻信息损失的问题。在此之上,我们提出了一种基于后验采样的节点自适应残差模块(PSNR)。更具体地说,该模块引入了一个图后验编码器,以较小的开销学习不同层中每个节点对应残差系数的后验分布。然后,通过采样得到特定的节点自适应残差系数。大量的实验验证了PSNR模块可以有效地缓解过平滑,进一步提高GNN的性能,特别是在需要深层GNN的特征缺失的情况下。
论文地址:https://neurips.cc/virtual/2024/poster/94864
代码地址:https://github.com/Westlake-OmicsAI/PSNR-GNN
02
NovoBench:基于深度学习的蛋白质组学从头测序方法基准测试
NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics
周靖博 李子青实验室2024级博士生
陈少荣 李子青实验室2023级博士生
夏俊 李子青实验室2020级博士生
【科普一下】
蛋白质组学是对生物系统中的蛋白质的研究,在很大程度上依赖于质谱来进行蛋白质鉴定。传统方法利用现有数据库将观察到的肽片段与已知序列进行匹配。然而,这些方法可能会遗漏数据库中没有出现的新或修改过的多肽。从头测序(De novo peptide sequencing)提供了一种不依赖数据库,直接通过质谱标注来重建肽序列的解决方案。通过绕过对预定义数据库的需求,从头测序使研究人员能够发现新的多肽并研究翻译后修饰(PTMs),有助于更深入地了解细胞过程和疾病机制。在这里,PTMs是指20种天然氨基酸的化学修饰版本,影响许多关键的生物分子过程,包括中心酶活性、蛋白质周转和DNA修复。深度学习已被广泛应用于肽从头测序中,研究人员使用编码器-解码器架构将观察到的质谱"翻译"为肽序列。
【技术介绍】
本文提出了第一个用于从头测序的统一基准测试novbench,包括不同的质谱数据、集成模型和全面的评估指标。最近令人印象深刻的方法,包括DeepNovo, PointNovo, Casanovo, InstaNovo, AdaNovo和π-HelixNovo集成到我们的框架中。除了氨基酸水平和肽水平的准确率和召回率外,我们还从识别翻译后修饰(PTMs)、效率和对肽长度、噪声峰值和缺失片段率的鲁棒性等方面评估了模型的性能,这些是很少被考虑的重要影响因素。利用这个基准,对当前方法进行了大规模研究,报告了许多有洞察力的发现,为未来发展开辟了新的可能性。该基准将是开源的,以促进未来的研究和应用。
论文地址:https://arxiv.org/abs/2406.11906
代码地址:https://github.com/Westlake-OmicsAI/NovoBench
03
FlexMol:用于分子关系学习基准测试的工具包
FlexMol: A Flexible Toolkit for Benchmarking Molecular Relational Learning
刘思哲 李子青实验室访问学生 美国南加州大学本科生
张乐程 西湖大学2022级本科生
夏俊 李子青实验室2020级博士生
【科普一下】
分子关系学习主要研究三种重要的分子相互作用:药物-靶标相互作用(DTIs),帮助识别药物与蛋白质靶标的结合,用于新药开发和副作用预测;蛋白质-蛋白质相互作用(PPIs),揭示蛋白质间的相互作用,从而发现潜在的治疗靶点;药物-药物相互作用(DDIs),分析多种药物同时使用时的影响,预防不良反应,保障用药安全。这三类相互作用在药物研发和生物医学研究中都具有至关重要的作用。
【技术介绍】
分子关系学习(MRL)对于理解分子对之间的相互作用行为至关重要,这是药物发现与开发的重要方面。然而,MRL的广泛模型空间给基准测试带来了显著挑战,现有的MRL框架在灵活性和范围上存在局限性。为了解决这些挑战,避免重复编码工作并确保模型的公平比较,我们推出了FlexMol,这是一款全面的工具包,旨在帮助构建和评估多种模型架构,适用于各类数据集和性能指标。FlexMol提供了强大的预设模型组件,包括16种药物编码器、13种蛋白质序列编码器、9种蛋白质结构编码器和7种相互作用层。凭借其易于使用的API和灵活性,FlexMol支持动态构建超过70,000种不同的模型架构组合。
论文地址:https://nips.cc/virtual/2024/poster/97484
代码地址:https://github.com/Westlake-OmicsAI/FlexMol
04
AdaNovo: 面向翻译后修饰鉴定的蛋白质从头测序方法
Towards Robust De Novo Peptide Sequencing in Proteomics against Data Biases
夏俊 李子青实验室2020级博士生
陈少荣 李子青实验室2023级博士生
周靖博 李子青实验室2024级博士生
【科普一下】
蛋白质组学研究的重点是通过大规模分析来表征生物体内的全部蛋白质。串联质谱技术是唯一的高通量蛋白质鉴定方法,用于分析复杂生物样本中的蛋白质组成,在药物靶点发现、翻译后修饰(PTMs)研究和精准医学中发挥着关键作用。肽段测序,即为每个观察到的质谱预测对应的肽段序列,是蛋白质组学的核心任务。目前,肽段测序的主流方法有两种:数据库搜索和从头测序。
1.数据库搜索法:通过比较观察到的质谱与预先构建的谱库中的质谱,选择最相似的肽段序列作为识别结果。然而,这种方法无法识别不在数据库中的肽段。
2.从头测序:无需依赖数据库,直接从质谱推导肽段序列,因此在缺少数据库的应用场景中尤为重要,例如抗体测序、人类白细胞新抗原测序,以及数据库中缺失的新蛋白质的发现。
【技术介绍】
我们提出了一个新颖的框架,AdaNovo,用于计算光谱与其肽段标签中每个氨基酸之间的条件互信息(CMI)。这一想法来源于领域知识,即翻译后修饰(PTMs)相对于常规氨基酸的质量变化仅体现在质谱中。CMI 可以通过光谱与目标氨基酸之间的依赖关系来衡量不同氨基酸的重要性。基于氨基酸级别的 CMI,我们可以获得光谱与整个肽段之间的互信息(MI),用于衡量每个光谱-肽段对在训练的 PSM(肽段-光谱匹配)数据中的匹配程度。随后,我们设计了一种基于氨基酸级别和 PSM 级别的 CMI 或 MI 的鲁棒训练方法,自适应地重新加权对应氨基酸的训练损失。
论文地址:https://arxiv.org/abs/2403.07013
代码地址:https://github.com/Westlake-OmicsAI/adanovo_v1
05
ProtGO:功能指导的统一蛋白质表征学习建模
ProtGO: Function-Guided Protein Modeling for Unified Representation Learning
胡博振 李子青实验室2021级博士生
谭铖 李子青实验室2021级博士生
【科普一下】
蛋白质是细胞和生物体不可缺少的生物分子。这些生物分子由氨基酸的线性序列组成,通过肽键连接在一起,复杂地折叠成复杂的三维(3D)结构,即序列决定结构,结构决定功能。蛋白质表征学习对于药物设计和结构预测等下游应用是必不可少的。然而,由于涉及到不同的数据模态,包括序列、结构和功能注释,实现有效的统一的蛋白质表征学习仍然面临挑战。尽管大型语言模型在建模生物医学文本方面具有令人印象深刻的能力,但迫切需要一个统一的框架来无缝集成这些不同的模式,特别是关注蛋白质信息的三个关键方面:序列、结构和功能。在建模过程中,解决这些模态之间固有的数据规模差异至关重要,即模态缺失的问题。
【技术介绍】
我们提出了ProtGO,这是一个统一的蛋白质表征学习模型。它利用定制的图神经网络(GNN)和基因本体(GO)编码器的教师网络来学习蛋白质序列-结构-功能的混合嵌入。值得注意的是,针对模态缺失的问题,学生网络采用和教师网络同样的图神经网络编码器编码序列和结构,消除了学生网络模型对功能输入的需求,同时为了保证学生模型能够学习到功能信息,我们利用域自适应方法来促进学生模型和教师模型隐空间表征的分布的近似,以指导学生模型的训练。这种方法利用从潜在表征中学习到的分布来避免单个样本的对齐。基准实验强调,ProtGO显著优于最先进的基线,清楚地展示了所提出的统一框架的优势。
论文地址:https://neurips.cc/virtual/2024/poster/96904
06
通过序列和结构的动态耦合学习完整的蛋白质表征
Learning Complete Protein Representation by Dynamically Coupling of Sequence and Structure
胡博振 李子青实验室2021级博士生
谭铖 李子青实验室2021级博士生
【科普一下】
蛋白质是生命的基本组成部分,在从治疗到材料的各种应用中发挥着至关重要的作用。蛋白质由20种不同的氨基酸组成,通过肽键连接,形成复杂的序列,决定了它们的一维(1D)结构,最终决定了它们的生化功能。由于蛋白质测序的最新进展,现在可以获得大量的蛋白质序列。由于AI在三维(3D)结构预测方面取得了重大进展,现在可以从他们的序列数据中获得大量蛋白质结构。针对大量的序列和结构数据,学习有效的表征对于理解蛋白质和破译它们的生物学功能是必不可少的。语言模型和图神经网络的最新进展使蛋白质模型能够利用初级或三级结构信息进行表示学习。然而,缺乏实用的方法来适当地模拟蛋白质序列和结构之间复杂的相互依赖关系,导致嵌入在蛋白质功能预测等任务中表现出较低的性能。
【技术介绍】
在这项研究中,我们引入了CoupleNet,这是一个新的框架,旨在将蛋白质序列和结构进行深度的耦合连接,以获得信息丰富的蛋白质表示。CoupleNet集成了蛋白质的多个层次和尺度的特征,包括序列的残基名称和位置,生物化学性质,以及从局部和全局角度对三级结构的几何表示。构建了两种类型的动态图来捕获相邻和遥远的序列特征和结构几何形状特征,在氨基酸和骨架水平上实现结构的完备性表达。在网络中,我们同时在节点和边缘上执行卷积以生成深度的蛋白质嵌入。在基准数据集上的实验结果表明,CoupleNet优于最先进的方法,在低序列相似性场景中表现出特别优越的性能,熟练地识别不经常遇到的功能,并有效地捕获蛋白质中的远程同源关系。
论文地址:https://neurips.cc/virtual/2024/poster/96915
07
PhyloGen:通过生成图结构进行语言模型增强的进化推论
PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation
段晨瑞 李子青实验室2020级博士生
臧泽林 李子青实验室博后
【科普一下】
系统发育树阐明了物种之间的进化关系,但由于连续参数(分支长度)和离散参数(树拓扑结构)的复杂组合,系统发育推断仍然具有挑战性。传统的马尔可夫链蒙特卡罗方法面临收敛缓慢和计算负担过重的问题。现有的变分推断方法需要预先生成拓扑结构,并且通常独立处理树结构和分支长度,可能会忽略关键的序列特征,从而限制了它们的准确性和灵活性。
【技术介绍】
我们提出了一种名为PhyloGen的新方法,该方法利用预先训练的基因组语言模型来生成和优化系统发育树,而不依赖于进化模型或对齐序列约束。PhyloGen将系统发育推断视为一个有条件的约束树结构生成问题,通过三个核心模块共同优化树拓扑和分支长度:(1)特征提取;(2)PhyloTree构建;(3)PhyloTree结构建模。同时,我们引入一个评分函数来引导模型实现更稳定的梯度下降。我们在八个真实基准数据集上证明了PhyloGen的有效性和稳健性。可视化结果证实PhyloGen能够更深入地揭示系统发育关系。
论文地址:https://neurips.cc/virtual/2024/poster/95863
08
UniIF:统一的分子序列设计方法
UniIF: Unified molecule inverse folding
高张阳 李子青实验室2020级博士生
王珏 李子青实验室2024级博士生
【科普一下】
以往不同分子,如蛋白质,RNA,小分子采用不同的建模方式,最新的AlphaFold3模型探索了统一分子建模的潜力。针对AlphaFold的逆向问题,分子序列设计任务,我们提出了统一的建模模型和方法,统一不同分子的建模和设计。
【技术介绍】
我们提出了统一分子结构建模的网络架构,并基于此架构做了不同分子的设计任务,包括蛋白质设计,RNA设计和小分子设计。在不同的任务上,我们的模型均取得了良好的结果。有望为未来的分子统一模型奠定基础。
论文地址:https://arxiv.org/pdf/2405.18968
代码地址:https://github.com/A4Bio/ProteinInvBench
09
稀疏控制的高斯-网格混合表示用于视频到4D内容生成
DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation
李治琦 刘沛东实验室2022级博士生
陈一鸣 刘沛东实验室2024级博士生
【科普一下】
4D内容(动态3D内容)的生成是生成式人工智能(GenAI)中一项重要任务,在AR/VR,3D动画/电影以及游戏等领域具有巨大的应用潜力。然而,4D内容往往具有较高的时间-空间复杂度,为算法的设计提出了更高的要求。现有的方法难以根据用户提供的条件(例如视频)恢复出光滑、清晰的3D表面,从而严重阻碍了生成纹理的质量以及动态运动的学习。为了解决这一挑战,本文尝试将一种基于3D网格的表示应用于4D内容生成中,并使用传统图形学管线中的几何蒙皮算法来控制所生成3D内容的运动,从而大幅度提高了所生成4D内容的时空一致性。
【技术介绍】
本工作提出了DreamMesh4D,一种新型的以固定视角视频为控制条件的4D内容生成框架。它分为静态优化和动态优化两个阶段。在整体上,我们采用了高斯-网格混合表示(Gaussian-mesh hybrid),去约束所生成物体的表面。在静态优化阶段,我们同时优化物体的几何和纹理,使其成为动态阶段的良好起点。在动态阶段,我们使用测地距离在物体表面构建变形图(deformation graph)。随后,通过一种名为自适应混合蒙皮的新型几何蒙皮算法,利用稀疏控制节点驱动整个网格和表面高斯点的运动。该算法结合了线性混合蒙皮(LBS)和双四元数蒙皮(DQS)的优点,实现了更强的变形能力。大量实验表明,我们的方法在生成高保真4D对象方面表现优异,显著超越了以往的方法,在渲染质量和时空一致性上设立了新标杆。此外,我们的方法与现代几何管线的兼容性展示了其在3D游戏和电影行业中的潜在应用前景。
论文地址:https://arxiv.org/abs/2410.06756
代码地址:https://github.com/WU-CVGL/DreamMesh4D
10
面向动态语音增强和定位的实录带标注麦克风音频数据集
RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization
杨冰 李晓飞实验室助理研究员
【科普一下】
由于大规模实录多通道音频数据集的匮乏,基于深度学习的多通道语音增强和声源定位非常依赖于房间冲激响应以及多通道扩散噪声的仿真。然而,仿真数据与实录数据的声学特性差异会使得模型在泛化到真实场景中时增强与定位性能下降。为了降低仿真到真实泛化带来的影响,本文开源了一个规模较大、实录、带标注的多通道麦克风语音与噪声数据集( RealMAN)。该数据集具有两方面重要价值:1)提供评估真实场景下语音增强和定位算法的基准;2)提供大量的实录多通道音频数据用于模型训练,潜在地提高了模型泛化到真实场景下的性能。
【技术介绍】
RealMAN是一个面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集。该数据集使用32通道高精度麦克风阵列进行录音,使用扬声器播放语音源信号。总共包括32个场景下录制的语音信号83小时(其中48小时为静态扬声器,35小时为移动扬声器),31个场景下录制的背景噪声144小时。RealMAN语音和噪声录制场景覆盖了各种常见的室内、室外、半室外和交通环境。借助于全向鱼眼摄像机标注扬声器相较于麦克风阵列的水平角,该标注可用于声源定位网络的训练。使用估计得到的直达路径滤波器对播放的语音源信号进行滤波,进而得到直达路径信号,方便语音增强网络的训练。实验表明:1)相比模拟数据,使用RealMAN数据集能够训练出更好的语音增强和声源定位网络;2)使用32通道麦克风阵列组成的不同子阵列可以训练出直接用于未见阵列的变阵列网络。
论文地址:https://arxiv.org/abs/2406.19959
代码地址:https://github.com/Audio-WestlakeU/RealMAN
复杂物理系统的生成控制
A Generative Approach to Control Complex Physical Systems
魏龙 吴泰霖实验室博士后
胡佩炎 吴泰霖实验室访问学生
冯睿骐 吴泰霖实验室2024级博士生
【科普一下】
复杂物理系统控制任务旨在通过优化每个时刻施加给物理系统的外界控制变量,来实现特定控制目标的最优化。这是科学和工程领域的一项重要任务,广泛应用于流体控制、航天控制、水下机器人控制、可控核聚变控制等领域。该问题的难点是如何在满足高维物理约束的条件下,实现最优的控制目标。传统控制技术存在适用性有限或计算成本巨大的问题,而近期出现的基于深度学习和强化学习的方法在优化长时间范围轨迹时往往难以应对系统动力学的约束,并且难以得到接近最优的控制序列。
【技术介绍】
本工作提成了一种面向复杂物理系统的生成式控制方法,创新点在于:(1)通过同时最小化学习到的能量函数和定义在整条系统轨迹及控制序列上的控制目标,能够进行全局探索并识别接近最优的控制序列。(2)由于训练集中的控制序列通常是远非最优的,我们进一步提出了一种先验重加权技术,能够发现显著优于训练集的控制序列。我们在一维Burgers方程、二维流体环境中的水母控制、烟雾控制中测试了我们的方法。结果表明,我们的方法优于经典控制方法以及最新的深度学习和强化学习方法。特别地,我们的方法重新揭示了水母的“快速闭合-慢速开启”模式,这与流体动力学领域的已知发现相一致。
论文地址:https://arxiv.org/abs/2407.06494
代码地址:https://github.com/AI4Science-WestlakeU/diffphycon
12
LongMIL: 重新思考用于2D长序列病理全场图的Transformer架构
Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis
李虹林 杨林实验室2022级博士生
【科普一下】
在医学领域,组织病理学全切片图像(WSI)的分析被认为是癌症诊断的金标准,医生在日常工作中广泛使用这一技术。为了开发基于计算机辅助诊断的模型,之前的方法通常采用多实例学习(MIL),使得即使只有全切片标签,模型也能进行切片级预测。然而,传统的注意力机制往往缺乏对上下文信息的建模能力。最近,自注意力Transformer模型被引入以解决这一问题,但是WSI是2D长序列 (token > 10k),导致 1)Transformer计算复杂度高;2)attention矩阵产生低秩问题,模型性能差。
【技术介绍】
在处理大规模WSI时,由于Transformer在长序列的计算复杂性,以往的算法使用区域切片逐步处理或者使用线性attention来近似全自注意力。但这两种方法由于关键信息的丢失,性能并不理想。此外,它们使用的绝对位置嵌入也难以有效处理形状变化的WSI中的长上下文依赖关系。本研究首先分析了长序列注意力矩阵的低秩特性如何限制了WSI建模的表示能力。接着,我们提出通过局部注意力掩码专注于局部交互来提高注意力矩阵的秩。我们的分析显示,局部掩码与Transformer底层的注意力模式相吻合。此外,局部注意力掩码可以在分块注意力计算中实现,从而将平方级的计算复杂性降低为线性,并且只需小的局部带宽。这种局部性还有助于模型更好地推广到未见或拟合不足的位置。基于此,我们提出了一种局部-全局混合Transformer模型,旨在加速计算并建模局部与全局信息的交互。我们的方法称为长上下文多实例学习(LongMIL),通过在各种WSI任务上的广泛实验,验证了其在整体性能、内存使用和速度,以及外推能力方面相较于以往方法的优越性。
论文地址:https://neurips.cc/virtual/2024/poster/94232
代码地址:https://github.com/invoker-LL/Long-MIL
13
通过理想数据加速表征学习
Efficiency for Free: Ideal Data Are Transportable Representations
孙鹏 林涛实验室2023级博士生
【科普一下】
数据是现代机器学习中的核心机遇和挑战,然而它目前限制了表征学习的可扩展性,并阻碍了模型演进的速度。
【技术介绍】
在这项工作中,我们从优化和泛化的角度研究了数据的效率特性。我们的理论和实证分析揭示了一个意想不到的发现:针对某一特定任务,使用一个公开可用且与任务和架构无关的模型可以有效地产生高效数据。基于这一洞见,我们提出了表征学习加速器,该方法促进了高效数据的生成和利用,从而加速了表征学习的过程。
论文地址:https://arxiv.org/abs/2405.14669
14
严重等级感知的循环建模用于跨域医疗图像分级
Samba: Severity-aware Recurrent Modeling for Cross-domain Medical Image Grading
毕奇 郑冶枫实验室访问学生
备注:由郑冶枫老师指导,郑老师为共同通讯作者
【科普一下】
选择状态模型(Selective State Model,SMM)以其线性复杂度的循环编码特性,近年来展示了在深度表示学习领域的极大潜力。跨域医疗图像分级任务旨在只通过目标域训练数据,学习一个可泛化至任意目标域的医疗分级模型。不同于分类任务中类别标签是离散互斥的,医疗分级任务中的等级标签是渐进且互相关联的。这使得在面对跨域特征分布偏移时,来自不同域而非不同等级的样本更容易在特征空间中聚拢。
【技术介绍】
本工作提出一种严重等级感知的循环编码方法,将选择状态模型应用于跨域医疗图像分级任务中。其基本思想是,提出一种期望最大化状态校正策略,用以优化双向选择状态建模的表示。这项策略使得状态分布在特征空间中更加紧促,从而提升了跨域风格变化的鲁棒性。在跨域疲劳骨折分级、跨域眼底糖网分级和跨域乳腺癌分级任务中均显著优于选择状态模型的表现。
论文地址:https://neurips.cc/virtual/2024/poster/94567
代码地址:https://github.com/BiQiWHU/Samba
15
频域适应的视觉基础模型用于跨域语义分割
Learning Frequency-Adapted Vision Foundation Model for Domain Generalized Semantic Segmentation
毕奇 郑冶枫实验室访问学生
备注:由郑冶枫老师指导,郑老师为共同通讯作者
【科普一下】
域泛化语义分割旨在仅通过源域数据学习可泛化至任意未见过的目标域的语义分割模型。由于跨域风格变化对单个像素的预测会产生较大扰动,这是一项具有挑战的视觉任务。视觉基础模型则天然具有更强的分布外泛化能力,具有应用于这项任务中的潜能。
【技术介绍】
本工作提出了一种频率域的参数高效微调策略,用于视觉基础模型的跨域语义分割任务。其基本思想是通过Haar小波分解,将基础模型冻结特征分解为低频和高频分量。其中,低频分量与域不变的场景内容信息高度关联,高频分量与域相关的场景风格高度关联。针对以上特性,分别设置低频和高频的微调器(Adapter),获得更适合跨域像素级语义任务的基础模型表征。在多项跨域实验中,所提出的方法均显著优于大模型基线的表现。
论文地址:https://nips.cc/virtual/2024/poster/94511
代码地址:https://github.com/BiQiWHU/FADA
16
通过得分函数隐式匹配的单步扩散模型蒸馏
One-Step Diffusion Distillation through Score Implicit Matching
罗维俭 MAPLE实验室合作顾问
备注:由齐国君老师指导,齐老师为通讯作者
【科普一下】
扩散模型在生成任务中表现优异,但需要大量采样步骤才能生成逼真的样本,这限制了它们的实际应用。为了提高效率,研究人员开发了蒸馏方法,但通常需要多步推理或性能下降。本文提出了一种新方法"Score Implicit Matching(SIM)"。它可以将预训练的扩散模型蒸馏为单步生成模型,同时保持与原模型几乎相同的生成能力,而且无需训练数据。SIM 利用了一些条件下可高效计算扩散模型和生成器之间得分距离的梯度的特性。
【技术介绍】
尽管扩散模型在许多生成任务中表现出色,但为了生成高质量的图像,它们需要大量的采样步数。本文提出了一种新方法——得分隐式匹配(SIM),旨在将预训练的扩散模型蒸馏为单步生成模型,同时几乎保持与原模型相同的图像生成能力,并且不需要训练样本进行训练。SIM的核心在于,尽管传统的基于得分函数的损失在生成模型中难以优化,但在特定条件下,我们可以高效计算扩散模型与生成器之间的一类得分基准的梯度。实验证明,SIM在单步生成器上表现优异:在CIFAR10数据集上,它在无条件生成实现了 2.17 的 FID,类别标签生成达到了 1.96 的 FID。此外,通过将 SIM 应用于领先的基于 Transformer 的扩散模型,我们训练出了一个用于文本到图像生成的单步生成器,其美学评分达到 6.42,且与原多步模型相比性能几乎没有下降,明显优于其他单步生成器,如SDXL-TURBO(5.33)、SDXL-LIGHTNING(5.34)和HYPER-SDXL(5.85)。
论文地址:https://neurips.cc/virtual/2024/poster/93608
代码地址:https://github.com/maple-research-lab/SIM
17
MedJourney:患者临床旅程中的大型语言模型的基准测试和评估
MedJourney: Benchmark and Evaluation of Large Language Models over Patient Clinical Journey
吴贤 腾讯优图实验室
备注:由郑冶枫老师指导,郑老师为通讯作者
【科普一下】
大型语言模型 (LLM),例如 ChatGPT 和 GPT-4,在理解用户意图和生成连贯响应方面表现出色 。它们灵活的输入要求使它们适用于各个领域的广泛任务。其中,医疗领域是 LLM 应用的一个特别合适的领域。同时,医疗领域对 LLM 应用的需求也很大,例如在线问诊、诊断辅助、用药建议和出院总结。然而,鉴于患者护理的关键性,医疗领域对 LLM 输出的错误容忍度很低。因此,在部署之前对这些模型进行全面评估至关重要。现有医学基准的一个局限性是它们要么按问题类型(多项选择、问答)组织,要么按任务类型(医学命名实体识别、分类等)组织,其中许多不包括从现实世界的临床实践中生成的临床文本数据。此外,现有数据集不是根据患者护理中的临床过程步骤构建的。因此,很难评估LLM在实际诊所中协助患者的表现。为了解决这一问题,我们引入了一个新的基准数据集MedJourney,该数据集涵盖了患者临床旅程的整个工作流程。
【技术介绍】
大型语言模型(LLM)在语言理解和生成方面表现出卓越的能力,因此在各个领域得到广泛应用。其中,医疗领域尤其适合应用 LLM,因为这些模型可以增强许多医疗任务的能力。尽管在医学问题解答和考试中已经有了评估 LLM 的基准,但在评估 LLM 在实际临床实践中为患者提供医院就诊全程支持的性能方面仍存在明显差距。在本文中,我们将典型患者的临床旅程分为四个阶段:计划、就诊、交付和持续护理,从而弥补了这一不足。针对每个阶段,我们都引入了多个任务,并提供了相应的数据集。拟议的基准总共包括 12 个数据集,其中 5 个是新引入的,7 个是根据现有数据集构建的。我们提出的这一基准涵盖了患者的整个患者旅程,从而全面评估了 LLM 在实际临床环境中的有效性。除了引入这一基准外,我们还根据这一基准对三类 LLM 进行了评估:1)专有 LLM 服务,如 GPT-4;2)公共 LLM,如 QWen;3)专业医疗 LLM,如 HuatuoGPT2。通过这一综合评估,我们旨在更好地了解 LLM 在医疗领域的性能,最终促进其在医疗环境中的更有效部署。
18
LiT: 统一激光雷达“语言”的激光雷达翻译器
LiT: Unifying Lidar "Languages" With Lidar Translator
劳逸星 原阿里巴巴达摩院自动驾驶实验室实习生
备注:由于开丞老师指导,于老师为共同通讯作者
【科普一下】
在激光雷达的数据集中,由于激光雷达的型号、车辆配置和采集场景的不同,采集到的激光雷达数据存在显著的领域差异。这些差异阻碍了不同激光雷达数据集的协同使用,限制了感知模型的扩展和统一。为了解决这一挑战,我们提出了激光雷达翻译器(LiT,即“LiDAR Translator”),旨在将不同类型的激光雷达数据统一成一致的风格。通过激光雷达翻译器的翻译,不同来源的激光雷达数据能够有效地消除这些领域差异,实现在同一个模型中的联合训练和零样本检测,从而显著提升模型的泛化能力和检测性能。
【技术介绍】
我们提出了激光雷达翻译器(LiT),旨在将不同来源的激光雷达数据统一成一种标准的“语言”。LiT 通过通用场景建模、真实的激光雷达模拟以及高效的 GPU 加速光线投射引擎,实现了这一目标。首先,LiT 使用神经隐式表示方法重建场景,包括静态背景和动态前景元素,捕捉到不同场景中的关键特征。其次,LiT 通过统计建模和光线丢失建模,模拟目标域的激光雷达传感器特性,确保翻译后的激光雷达数据能够真实反映目标域的特性。最后,LiT 使用定制的 GPU 加速光线投射引擎,生成翻译后的激光雷达扫描数据。实验表明,LiT 能够在多样化的激光雷达数据集上实现高效的零样本和统一域检测能力,显著提升了模型的泛化能力和检测性能。
论文地址:https://yxlao.github.io/lit
代码地址: https://yxlao.github.io/lit
Agentboard:一个评测多轮LLM agent的分析平台
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
(NeurIPS 2024 Oral)
马畅 HKUST NLP 访问学生
张军磊 西湖大学蓝振忠实验室博士生,HKUST NLP 访问学生
祝志豪 HKUST NLP 访问学生
扬程 HKUST NLP 访问学生
【科普一下】
AGENTBOARD 是一个用来测试大语言模型(LLM)的小帮手。传统的评测方法通常只看最终结果,这样一旦在多轮推理中某一轮出错,模型的得分就会变成0。这导致很多模型的表现看起来差不多,让我们难以区分它们的优劣和进步。
AGENTBOARD 改进了这一点:它在多个维度上设置了“必经之路”作为中间得分点。这样,我们可以更细致地看到模型在每一步的表现,评估结果更有区分度,也更容易发现模型是否有进步。
【技术介绍】
AGENTBOARD是一个细粒度的多维度的多轮Agent评测平台,专为测试大型语言模型(LL
M)代理而设计。它通过9种任务和1013个多样化环境,覆盖从体现智能到网络及工具代理等多个领域,每个环境均经具备多轮互动和部分可观测性的特点。AGENTBOARD引入了子目标和进度率指标,提供了一种超越简单成功率的细致评估方法。
该平台还发展了一个开源的分析框架和工具包,配备了能够交互式探索代理能力多个维度的网络面板。这些工具支持细粒度的进展跟踪、性能分析和长期互动评估等功能,旨在深入理解LLM代理的能力和进步。
通过AGENTBOARD的综合评估,我们发现GPT-4等顶尖模型表现出卓越的跨任务能力,而开源模型如DeepSeek LLM和Lemur正在紧追其后。评估结果强调了多轮互动能力的重要性,同时揭示了开源模型在某些关键能力上的不足。AGENTBOARD的推出标志着对LLM代理深度分析评估的新时代,预计将推动该领域的进一步发展。
论文地址: https://neurips.cc/virtual/2024/oral/98026
文章来源:西湖大学人工智能系
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。西湖大学工学院以学术领军人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设三个系和一个中心——电子信息工程系、材料科学与工程系、人工智能系和先进工程科学与技术中心。围绕三个系和一个中心,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,建立微纳光电系统集成浙江省工程研究中心。同时,工学院联合生命科学学院和理学院,共同建立西湖大学合成生物学与生物智造中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University