论文回顾 | 港科广数据科学与分析学域12篇论文入选国际学术会议ICML 2024&ACL 2024

文摘 2024-08-20 21:32 广东

近日，国际学术会议ICML 2024 和ACL 2024 相继圆满落幕。数据科学与分析学域共计有12篇论文入选ICML 2024和ACL 2024。

ICML 2024

国际机器学习大会（International Conference on Machine Learning，简称 ICML）是机器学习领域最权威的会议之一，与 NeurIPS、ICLR 并列为最具影响力的三个会议。

会议涵盖了机器学习领域的各个方面，包括理论、方法、应用和实践，吸引了来自全球学术界和工业界的顶尖研究人员和从业者参与，交流最新研究成果、讨论前沿技术并且探讨未来趋势。此外，ICML 在谷歌学术指标中的排名在所有AI顶会中的第四位，仅次于CVPR、ICLR、NeurIPS。

Title: GeoReasoner: 基于大型视觉语言模型的街景地理定位与推理

Author:

Ling Li, The Hong Kong University of Science and Technology (Guangzhou);

Yu Ye, Tongji University;

Bingchuan Jiang, Strategic Support Force Information Engineering University;

Wei Zeng, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou)

这项工作采用了一种新范式，结合了人类推理知识和大型视觉-语言模型（LVLM），以解决地理定位的问题。主要挑战在于训练LVLM的数据稀缺 —— 现有的街景数据集通常包含大量缺乏视觉线索的低质量图像，并且缺乏任何推理能力。为了解决数据质量问题，我们设计了一个基于CLIP的网络来量化街景图像的可定位程度，从而创建了一个包含高度可定位街景的新数据集。为了增强推理能力，我们整合了从真实地理定位游戏中获得的外部知识，借鉴了宝贵的人类推理能力。我们利用这些数据训练了GeoReasoner，并通过专门的推理和位置调优阶段进行微调。定性和定量评估表明，GeoReasoner在国家级别和城市级别地理定位任务中，分别比其他LVLM提高了超过25%和38%的准确率，并且在需要较少训练资源的情况下，性能超越了StreetCLIP。

Title: Skip-Tuning方法对扩散模型生成质量的惊人提升

Author:

Jiajun Ma, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology(Guangzhou);

Shuchen Xue, University of Chinese Academy of Sciences & Academy of Mathematics and Systems Science;

Tianyang Hu, Huawei Noah’s Ark Lab;

Wenjia Wang, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology(Guangzhou);

Zhaoqiang Liu, University of Electronic Science and Technology of China;

Zhenguo Li, Huawei Noah’s Ark Lab;

Zhi-Ming Ma, University of Chinese Academy of Sciences & Academy of Mathematics and Systems Science;

Kenji Kawaguchi, National University of Singapore

UNet架构是图像生成扩散概率模型的主流选择。UNet中的一个关键设计是编码器和解码器块之间的长连接(long-skip connection)。虽然过去的研究表明长连接可以提高训练稳定性和模型性能，但我们指出这种长连接方式可能会限制模型的复杂性和表达能力。随着采样步骤的减少，生成过程和UNet的作用逐渐趋近于从高斯分布到目标样本的映射，这对模型的复杂性和表达能力提出要求和挑战。为解决这一挑战，我们提出了Skip-Tuning，这是一种简单且无需训练的基于长连接的调整方法；Skip-Tuning有效的提升模型表达能力并大幅提升生成质量。例如，Skip-Tuning可以在仅使用19个推理步骤(NFEs)的情况下，为ImageNet64x64上的预训练EDM实现100%的FID改进(1.75)并突破ODE采样器的极限。令人欣喜的是，当我们增加采样步骤的数量时，改进仍然持续存在，并且甚至可以用仅39个NFEs的EDM(FID: 1.57) 超越EDM-2 (1.58)的最佳结果。我们进行了全面的探索性实验，以揭示Skip-Tuning的提升来源。我们观察到，虽然Skip-Tuning增加了像素空间中的分数匹配损失，但一致性的减少在特征空间下的分数匹配损失；特别是在中等噪声水平下，这与负责图像质量改进的最有效范围相符。

Title: Pruner-Zero: 从零开始演化的大型语言模型符号剪枝指标

Author:

Peijie Dong, Hong Kong University of Science and Technology (Guangzhou);

Lujun Li, Hong Kong University of Science and Technology;

Zhenheng Tang, Hong Kong Baptist University;

Xiang Liu, Hong Kong University of Science and Technology (Guangzhou);

Xinglin Pan, Hong Kong University of Science and Technology (Guangzhou);

Qiang Wang, Harbin Institute of Technology, Shenzhen;

Xiaowen Chu, Hong Kong University of Science and Technology (Guangzhou)&Hong Kong University of Science and Technology

大型语言模型 (LLMs) 虽然拥有强大的能力，但其庞大的规模限制了部署应用。剪枝方法可以通过丢弃部分权重来加速模型，但许多方法都需要昂贵的重新训练过程。最近，训练后剪枝方法引入了新的指标，使 LLMs 能够在不进行重新训练的情况下进行剪枝。然而，这些指标的设计往往依赖于人类专家的经验和反复的试错过程。为了更高效地发现优越的剪枝指标，我们开发了一个自动搜索符号剪枝指标的框架——Pruner-Zero。该框架利用遗传编程技术，并设计了一个包含现有剪枝指标的复杂搜索空间，以探索潜在的新指标。此外，我们还提出了一种对立操作简化策略来增加搜索的多样性。通过 Pruner-Zero，我们可以自动生成符号剪枝指标。基于搜索结果，我们分析了剪枝指标与模型性能之间的关系，并总结了一些重要的原则。在 LLaMA 和 LLaMA-2 上的语言建模和零样本任务的实验表明，Pruner-Zero 比最先进的训练后剪枝方法取得了更好的性能。

Title: GST：融合语义与拓扑先验的图稀疏训练加速方法

Author:

Guibin Zhang, Tongji University&The Hong Kong University of Science and Technology (Guangzhou);

Yanwei Yue, Tongji University;

Kun Wang, University of Science and Technology of China;

Junfeng Fang, University of Science and Technology of China;

Yongduo Sui, University of Science and Technology of China;

Kai Wang, National University of Singapore;

Yuxuan Liang, The Hong Kong University of Science and Technology (Guangzhou);

Dawei Cheng, Tongji University;

Shirui Pan, Griffith University;

Tianlong Chen, Massachusetts Institute of Technology

图神经网络在各种图学习任务中表现出色，但在应用于大规模图时面临相当严峻的计算挑战。一种有前景的解决方案是去除非必要的边，以减少图网络中的计算开销。先前的研究线通常分为两类：拓扑引导和语义引导。前者保持某些图的拓扑属性，但通常在图神经网络上表现不佳，这是因为它不能很好地整合到神经网络的训练过程；后者在应用到图神经网络的低稀疏度下表现良好，但在高稀疏度下面临性能崩溃。基于此，我们提出了一个新的研究方向和概念，称为图稀疏训练（Graph Sparse Training，GST），它在数据层面动态操控稀疏度。具体来说，GST最初以较低的训练成本构建一个拓扑和语义锚点，随后执行动态稀疏训练，使稀疏图与锚点对齐。我们引入平衡拓扑和语义信息保存的均衡稀疏化原则来指导这一过程。最终，GST生成一个拓扑完整性最大且无性能退化的稀疏图。在6个数据集和5个GNN骨干框架上的广泛实验表明，GST（I）识别出的子图在更高图稀疏度水平（1.67% ∼ 15.85%↑）超过现有的最先进稀疏化方法，（II）保留了更多关键的谱图属性，（III）在图神经网络推理中实现了1.27 − 3.42×的加速，（IV）成功帮助图对抗防御和图彩票等主流图学习任务。

Title: 立场：关于时间序列分析，大语言模型可以告诉我们什么

Author:

Ming Jin, Griffith University;

Yifan Zhang, Chinese Academy of Sciences;

Wei Chen, The Hong Kong University of Science and Technology (Guangzhou);

Kexin Zhang, Zhejiang University;

Yuxuan Liang, The Hong Kong University of Science and Technology (Guangzhou);

Bin Yang, East China Normal University;

Jindong Wang, Microsoft Research Asia;

Shirui Pan, Griffith University;

Qingsong Wen, Squirrel AI.

时间序列分析对于理解各种现实世界系统和应用程序中固有的复杂性至关重要。尽管大型语言模型（LLMs）最近取得了长足的进步，但配备时间序列分析能力的通用人工智能（AGI）的发展仍处于起步阶段。大多数现有的时间序列模型严重依赖领域知识和广泛的模型调优，主要侧重于预测任务。在本文中，我们认为当前的LLM有可能彻底改变时间序列分析，从而促进高效的决策，并朝着更普遍的时间序列分析智能形式发展。这种进步可以带来广泛的可能性，包括时间序列模态切换和时序问题分析解答。我们鼓励研究人员和从业人员认识到 LLM 在推进时间序列分析方面的潜力，并强调需要关注这些相关工作。此外，我们详细介绍了时间序列分析与现有LLM技术的无缝集成的三类技术路线，并概述了未来研究的有希望的途径。

Title: 驾驭复杂性：通过扩展窗口匹配迈向无损图压缩

Author:

Yuchen Zhang, National University of Singapore;

Tianle Zhang; National University of Singapore;

Kai Wang, National University of Singapore;

Ziyao Guo, National University of Singapore;

Yuxuan Liang, The Hong Kong University of Science and Technology (Guangzhou);

Xavier Bresson, National University of Singapore;

Wei Jin, Emory University;

Yang You, National University of Singapore

图压缩旨在通过合成一个紧凑的压缩图数据集来减少现实世界图数据集的规模，同时不牺牲在该图数据集上训练的图神经网络的性能，为降低训练图神经网络的计算成本提供了新的思路。然而，现有的方法在某些大规模数据集上往往难以准确复刻原始图，无法实现无损图压缩的目标。为了理解这一现象，我们研究了潜在的原因，并揭示了之前最先进的轨迹匹配方法在优化压缩图时，从原始图中接收了有偏和受限的监督信号。这显著限制了压缩图的规模和性能。在本文中，我们首次尝试通过弥合之前被忽视的监督信号，实现无损图压缩。具体而言，我们采用课程学习策略，使得训练出的专家轨迹能够包含原始图中更多样化的监督信号，然后通过扩展窗口匹配将这些信息有效地转移到压缩图中。此外，我们设计了一个简单损失函数，以全新的角度进一步从专家轨迹中提取知识。理论分析证明了我们方法设计的合理性，广泛的实验验证了其在不同数据集上的优越性。

Title:Referee Can Play:一种通过模型反演实现条件图像生成的方法

Author:

Xuantong Liu, Hong Kong University of Science and Technology;

Tianyang Hu, Huawei Noah’s Ark Lab;

Wenjia Wang, Hong Kong University of Science and Technology&Hong Kong University of Science and Technology (Guangzhou)

Kenji Kawaguchi, National University of Singapore.

Yuan Yao, Hong Kong University of Science and Technology

作为文本生成图像任务中的主导力量，扩散概率模型（DPMs）在可控性方面面临着关键挑战，难以严格遵循复杂、多方面的指令。在这项工作中，我们旨在解决条件图像生成任务中的这一对齐挑战。首先，我们从一种全新的视角来看待最先进的DPMs，将其视为学习出来的先进视觉语言模型（VLMs）的逆方程。在这种表述下，我们随之自然地提出了一种无需训练的方法，绕过了与DPMs相关的传统采样过程。通过在判别性VLMs的监督下直接优化图像，有潜力实现更好的文本图像对齐。作为概念验证，我们展示了基于预训练BLIP-2模型的流程，并确定了几个关键设计以改进图像生成。为了进一步提高图像的保真度，我们引入了基于Stable Diffusion的Score Distillation Sampling模块。通过在优化过程中平衡这两个模块，我们的方法可以生成高质量的图像，并在T2I-CompBench上实现接近最先进性能的表现。

Title: 基于离散傅里叶变换的参数高效微调

Author:

Ziqi Gao, Hong Kong University of Science and Technology (Guangzhou);

Qichao Wang, Sun Yat-sen University;

Aochuan Chen, Hong Kong University of Science and Technology (Guangzhou);

Zijing Liu, International Digital Economy Academy;

Bingzhe Wu, Tencent;

Liang Chen, Sun Yat-sen University;

Jia Li, Hong Kong University of Science and Technology (Guangzhou)

低秩适应（LoRA）最近在微调基础模型方面引起了广泛关注。它通过引入低秩矩阵A和B来表示权重变化，从而有效减少可训练参数的数量，即 ∆W = BA。尽管LoRA取得了一定进展，但在处理大规模定制化微调或更大基础模型时仍面临挑战。在本研究中，我们旨在通过利用傅里叶变换的强大表达能力进一步压缩可训练参数。具体而言，我们提出了FourierFT，它将∆W视为空间域中的一个矩阵，并仅学习其极其少量的谱系数。通过学到的谱系数，我们采用逆离散傅里叶变换以恢复∆W。实验结果表明，我们的FourierFT方法在多个任务上（包括自然语言理解、自然语言生成、指令微调和图像分类）表现出与LoRA相当或更好的性能，同时参数更少。例如，在对LLaMA2-7B模型进行指令微调时，FourierFT以仅0.064M的可训练参数超越了包含33.5M参数的LoRA。

ACL 2024

ACL 年会（Annual Meeting of the Association for Computational Linguistics）由国际计算语言学协会组织，是计算语言学和自然语言处理领域排名第1的顶级学术会议。ACL 2024是该协会的第62届会议，今年大会特别关注“以开放科学、开放数据、开放模型促进可复现的自然语言处理研究”这一话题。

ACL 2024 Outstanding Paper Award

Title: M4LE：大语言模型的多能力、多范围、多任务、多领域的长文本评估基准

Author:

Wai-Chung Kwan, The Chinese University of Hong Kong;

Xingshan Zeng, Huawei;

Yufei Wang, Huawei;

Yusen Sun, Huawei;

Liangyou Li, Huawei;

Yuxin Jiang, The Hong Kong University of Science and Technology;

Lifeng Shang, Huawei;

Qun Liu, Huawei;

Kam-Fai Wong, The Chinese University of Hong Kong

管理长序列已成为大语言模型（LLM）中的一个重要且必要的特性。然而，如何全面且系统地评估LLM的长序列处理能力仍然是一个未解决的问题。原因之一是传统和广泛使用的基准测试主要由短序列组成。在本文中，我们提出了M4LE，一种用于长上下文评估的多能力、多范围、多任务、多领域的基准测试。M4LE基于一个多样化的NLP任务池，包含36个NLP数据集、11种任务类型和12个领域。为了缓解自然长序列任务的稀缺性并结合多种能力评估，我们提出了一种自动化的方法（几乎不需要人工标注），将短序列任务转换为统一的长序列场景，在这种场景中，LLM必须根据显式或语义提示，在长上下文中识别单个或多个相关跨度。具体来说，该场景包括五种不同类型的能力：（1）显式单跨度；（2）语义单跨度；（3）显式多跨度；（4）语义多跨度；（5）全局上下文理解。M4LE中的样本输入长度均匀分布在1k到8k之间。我们对11个LLM，特别是那些针对长序列输入进行优化的模型进行了系统性评估。我们的结果显示：（1）当前的LLM在理解长上下文时表现较差，特别是当任务需要多跨度注意力时；（2）语义检索任务对于强LLM来说更具挑战性；（3）通过位置插值对较长文本进行微调的模型，其性能与使用Neural Tangent Kernel（NTK）感知缩放方法且未经微调的模型相当。

Title: FollowBench：大语言模型的多级细粒度约束遵循基准

Author:

Yuxin Jiang, The Hong Kong University of Science and Technology (Guangzhou);

Yufei Wang, Huawei;

Xingshan Zeng, Huawei;

Wanjun Zhong, Huawei;

Liangyou Li, Huawei;

Jiahui Gao, Huawei;

Liangyou Li, Huawei;

Fei Mi, Huawei;

Lifeng Shang, Huawei;

Xin Jiang, Huawei;

Qun Liu, Huawei;

Wei Wang, The Hong Kong University of Science and Technology (Guangzhou)

遵循指令的能力对于大语言模型（LLM）处理各种实际应用至关重要。现有的基准测试主要侧重于评估单纯的响应质量，而不是评估响应是否遵循指令中规定的约束条件。为填补这一研究空白，本文提出了FollowBench，一种针对LLM的多级细粒度约束遵循基准。FollowBench全面涵盖了五种不同类型（即内容、情境、风格、格式和示例）的细粒度约束。为了在多种难度上实现精确的约束遵循评估，我们引入了多级机制，该机制在每个增加的级别上逐渐向初始指令添加单一约束。为了测评LLM的输出是否满足每个单独的约束条件，我们提出通过约束进化路径来提示评估模型，以处理具有挑战性的开放式指令。通过在FollowBench上评估13个闭源和开源的流行LLM，我们强调了LLM在指令遵循方面的不足，并指出了未来研究的潜在方向。

Title: 学习编辑：大语言模型的知识编辑对齐

Author:

Yuxin Jiang, The Hong Kong University of Science and Technology (Guangzhou);

Yufei Wang, Huawei;

Chuhan Wu, Huawei;

Wanjun Zhong, Huawei;

Xingshan Zeng, Huawei;

Jiahui Gao, Huawei;

Liangyou Li, Huawei;

Xin Jiang, Huawei;

Lifeng Shang, Huawei;

Ruiming Tang, Huawei;

Qun Liu, Huawei;

Wei Wang, The Hong Kong University of Science and Technology (Guangzhou)

知识编辑技术旨在高效地修改大语言模型（LLM）中的一小部分知识，而不会对其他输入的性能产生负面影响。然而，现有方法主要依赖于记住更新的知识，这阻碍了LLM在回答问题时有效地将新知识与其固有知识结合起来。受到“授人以渔”谚语的启发，我们提出了一个学习编辑（Learning to Edit，LTE）框架，重点在于教导LLM如何将更新的知识应用于输入问题。LTE包含两个阶段：(1) 对齐阶段，LLM在精心策划的平行数据集上进行微调，以进行可靠、范围内的编辑，同时保留范围外的信息和语言能力；(2) 推理阶段，使用基于检索增强的机制进行实时和大规模的知识编辑。在四个数据集和两种LLM架构上，我们将LTE与七个先进的基线方法进行了比较。实验结果表明了LTE在单个、批量知识编辑的卓越性，稳健性，和高效性。

Title: BitDistiller: 通过自蒸馏释放低于4比特大模型的潜力

Author:

Dayou Du, The Hong Kong University of Science and Technology (Guangzhou);

Yijia Zhang, Shanghai Jiao Tong University;

Shijie Cao, Microsoft Research Asia;

Jiaqi Guo, Microsoft Research Asia;

Ting Cao, Microsoft Research Asia;

Xiaowen Chu, The Hong Kong University of Science and Technology (Guangzhou);

Ningyi Xu, Shanghai Jiao Tong University

大型语言模型（LLMs）的扩展在自然语言处理领域取得了令人瞩目的进展，但同时也带来了显著的部署挑战。权重量化已成为一种广泛采用的解决方案，用于减少内存和计算需求。本文介绍了BitDistiller，一个将量化感知训练（QAT）与知识蒸馏（KD）相结合的框架，以提高超低精度（低于4位）LLMs的性能。具体来说，BitDistiller首先采用了定制的非对称量化和剪裁技术，以最大程度地保留量化权重的精度，然后提出了一种新颖的基于置信度的Kullback-Leibler散度（CAKLD）目标，该目标以自我蒸馏的方式应用，从而实现更快的收敛速度和更优越的模型性能。实证评估表明，BitDistiller在3位和2位配置下的通用语言理解和复杂推理基准测试中，显著优于现有方法。值得注意的是，BitDistiller在成本效益方面表现出色，所需的数据和训练资源更少。

DSA官网｜dsa.hkust-gz.edu.cn

DSA学域邮箱｜dsat@hkust-gz.edu

知乎 | 数据科学与分析学域HKUST(GZ)

小红书 | 港科广 | 数据科学与分析

港科大广州 I 数据科学与分析

香港科技大学（广州）信息枢纽数据科学与分析学域官方公众平台 Data Science and Analytics Thrust-Information Hub- HKUST(GZ)