在这篇文章中,我们探讨在ICML 2024 上发表的论文,ICML 是机器学习国际会议,在奥地利首都维也纳举行。与每年一样,与其他顶级 AI 会议一样,提交了数千篇论文,接受率相对较低(过去三年不到 28%)。例如,今年的版本提交了 9,653 篇论文,仅接受 2,609 篇,接受率为 27.03%。
本文将分为几个部分:
目录:
最佳论文奖获得者
时间序列
大型语言模型和迁移学习
计算机视觉和音频
1. 最佳论文奖获得者
标题:Considerations for Differentially Private Learning with Large-Scale Public Pretraining (Kamath et al.):
本期的获奖论文由滑铁卢大学教授 Gautam Kamath、苏黎世联邦理工学院计算机科学家 Florian Tramèr 和 Google DeepMind 研究员 Nicholas Carlini 撰写。它挑战了迄今为止所有已知的大型语言模型的训练范例。
为了提供一些背景信息,作者首先观察到,当这些数据包含私人或敏感信息时,经过数百万个数据点训练的大型语言模型会构成威胁。到目前为止,推荐的解决方案是在公共数据上训练模型,然后对私有数据进行微调。
从 Web 抓取的预训练数据本身可能是敏感的;因为 “隐私保护” 的微调模型仍然可以记住其预训练数据,这会造成直接伤害并淡化 “私人学习” 的含义。(引自论文)
然而,作者认为,所谓的公共数据也可能包含有关个人的敏感或私人信息,这有可能损害机密性。本文表明,这种培训范式会导致机密性丧失,主要有两个原因:
仅根据公共和私有数据分布重叠的参数高估了公共预训练的价值。
这些大型模型的训练需要大量的计算能力,而这些能力无法在最终用户的机器上执行,从而导致私有数据的外包。
这种对当前私人学习实践的批判立场是在 LLM的。通过这篇论文,作者呼吁科学界考虑解决这些问题的解决方案。
2. 时间序列
你们中的一些人可能知道(或不知道),但时间序列是我最喜欢的话题之一。所以,当论文列表公布时,我首先看的是与时间序列相关的创新。今年,ICML 上也有很多关于这个主题的论文,我选择了几篇:
用于时间序列预测的仅解码器基础模型(Das 等人):
“在大量时间序列数据上训练的大型预训练模型能否学习到可用于以前未见过的数据集上的时间序列预测的时间模式?”这是研究人员在本文中试图回答的问题。
近年来LLMs 和基础模型的迅速崛起激发了研究人员提出一种称为 TimesFM(时间序列基础模型)的零样本时间序列预测基础模型。
零样本学习 (ZSL) 是模型检测训练期间从未见过的类的能力。条件是在监督学习期间类未知。(零样本学习 |带代码的论文)
首先,预测模型必须能够适应不同的环境和范围,同时具有足够的能力来编码大型数据集中的所有模式。为了满足这些期望,TimesFM 的架构基于以下几项原则:
修补:补丁类似于语言模型中的标记。
仅解码器模型:给定一系列输入补丁,该模型经过优化,以将下一个补丁作为所有过去补丁的函数进行预测。
更长的输出补丁:更长的输出序列,以避免与预测范围长度的先验知识相关的限制。
这种零样本模型能够实现完全监督模型的性能,如以下示例所示:
位置:大型语言模型可以告诉我们关于时间序列分析的什么(Jin, Zhang et al.):
如前所述,LLMs 为这些模型在时间序列数据上的潜在用途打开了大门。在本文中,研究人员强调了 LLMs 彻底改变时间序列分析的潜力,并指出它们能够“促进有效的决策并朝着更普遍的时间序列分析智能形式发展”。
以下是本文的三个主要贡献:
为使用 LLMs 进行时间序列分析提供了新的视角。
对现有方法进行基准测试和审查,并提出将 LLMs时间序列分析中的路线图(参见图 3)。
发现未来的机会。
TimeMIL:通过时间感知多实例学习推进多元时间序列分类(Chen、Qiu 等人):
多元时间序列分类已通过 transformer 和卷积网络得到极大改进。但是,这些方法通常基于监督学习。监督式学习无法捕获时间序列中的所有模式,也无法捕获可能出现的罕见事件,因此我们只能从已经看到的中学习。
在本文中,研究人员提出了一种称为多实例学习 (MIL) 的新方法,它可以更好地捕获兴趣点并模拟时间序列中的时间依赖性。TimeMIL 通过区分时间序列中的正实例和负实例来做出决策,其中每个时间点都是一个实例,其标签在实践中通常不可用。
Time Weaver:条件时间序列生成模型(Narasimhan 等人):
时间序列生成是一个令人兴奋但具有挑战性的主题。例如,在能源领域,生成相关的时间序列意味着集成天气、位置等元数据,而生成模型并不总是能够做到这一点。
在本文中,研究人员提出了一种基于扩散模型的方法,该方法以分类、连续甚至时间特征的形式利用这些元数据来克服上述问题。此外,他们还提出了一种新的评估指标,能够准确捕捉生成的时间序列的真实性。
3. 大型语言模型和迁移学习:
趋势肯定是朝着更小的模型发展;报纸几乎比以往任何时候都更倾向于这个方向。这包括关于蒸馏以及更高效微调技术的讨论:
将知识从大型基础模型转移到小型下游模型(Qiu 等人):
在本文中,AWS AI Lab 的研究人员提出了一种称为自适应特征转移 (AFT) 的新知识转移方法。AFT 不像传统的迁移学习那样转移权重,而是直接对特征进行操作,自适应地转移最有用的特征。这种方法的目标是解决与迁移学习相关的问题,例如:
通过重量转移进行有限的信息传递。
预训练模型通常很大。
无法组合多个学习互补信息的模型。
所有文章的链接都在 参考资料 部分了解更多详情。
LLaGA:大型语言和图形助手(Chen et al.):
在用于视觉教学的 LLaMA 和 LLaVA 之后,让我介绍 LLaGA(在我的文章中找到 LLaxA 似乎已成为一种传统,不是吗?😜
我们再次看到,LLMs为深度学习开辟了新的途径,图神经网络 (GNN) 也不例外。然而,图形结构的复杂性使得它们在自然语言中的解释更具挑战性。
在本文中,提出了一种称为 LLaGA (Large Language and Graph Assistant) 的新模型。此模型支持使用 LLMs。该方法基于将这些图形数据映射到与 LLMs。LLaGA 在各种数据集的泛化和可解释性方面表现出良好的性能。
FrameQuant:Transformer 的灵活低位量化 (Adepu et al.)
Transformer 非常有效,但仍然非常占用内存。这就是为什么最近引入了几种方法来创建更小的模型,包括量化到 8 位或 4 位。
量化是一种技术,通过使用低精度数据类型(如 8 位整数 (
int8
))而不是通常的 32 位浮点 (float32
) 来表示权重和激活,从而降低运行推理的计算和内存成本。量化 (huggingface.co)
在本文中,作者建议在 2 位量化方面更进一步,同时保持最小的性能下降。该方法基于称为“融合帧”的谐波分析。他们已经表明,关键在于应用量化的位置,它不应该在原始权重空间中完成,而应该在融合帧的表示中完成。
DISTILLM:迈向大型语言模型的简化蒸馏(Ko 等人):
模型蒸馏包括使用较大的模型(称为教师模型)创建较小的模型(称为学生模型),目的是在保持性能的同时降低成本和内存。此方法适用于某些模型,但不太适用于 LLMs。本文提出了对 LLMs,并介绍了 DistiLLM。
本文的主要贡献是:
偏斜 KLD (Kullback-Leibler divergence):新的目标函数,针对稳定的梯度和最小的近似误差进行了优化。
自适应非策略方法:减少训练时间。
先进的性能和效率:DistiLLM 以最先进的性能竞争。
4. 计算机视觉和音频:
Vision Mamba:使用双向状态空间模式进行高效的视觉表示学习(Zhu, Liao et al.):
谈论 Vision Mamba 而不提及 Mamba(原始架构)有点反常。因此,简而言之,Mamba 是一种新架构,特别适用于处理长序列(Mistral 的最新模型之一基于此架构)。
P.S.:我将在未来几天内发表一篇关于这个主题的文章,敬请期待!
Mamba 是一种新的状态空间模型架构,在信息密集数据(如语言建模)上显示出有前途的性能,而以前的亚二次模型无法与 Transformer 相提并论。它基于结构化状态空间模型的进步路线,本着 FlashAttention 的精神,具有高效的硬件感知设计和实现。(来自 GitHub — state-spaces/mamba:Mamba SSM 架构)
因此,回到 Vision Mamba (Vim),它利用 Mamba 架构来适应视觉数据。与 Vision Transformers 相比,Vim 在 ImageNet 分类任务、COCO 对象检测和分割方面实现了卓越的性能,同时速度提高了 2.8 倍,节省了 86.8% 的 GPU 内存(这是相当了不起👊的)。
ConvNet 与 Transformer、监督与 CLIP:超越 ImageNet 精度(Vishniakov 等人):
Meta AI 的这篇论文建议通过考虑其他参数来捕捉所有可能的细微差别,从而超越计算机视觉任务的准确性。事实上,研究人员认为,尽管 Vision Transformers、ConvNet 架构和 CLIP 的性能相似,但许多其他不同的方面可能会有所不同。这些因素包括:误差类型、输出校准、可传递性和特征不变性等。
下图显示了我们在测量视觉模型的性能时可以考虑的参数。
UniAudio:使用大型语言模型实现通用音频生成(Yang、Tian 等人):
正如我们在最近几个月所看到的那样,将音频集成到LLMs 中是一个快速发展的领域,现在越来越多的对话模型能够进行口头讨论(尤其是 Kyutai 的 Moshi)。
在本文中,研究人员提出了 UniAudio,这是一种利用 LLM 技术生成各种类型的音频的模型,包括声音、语音、音乐和歌唱。该模型经过 165000 小时的音频训练,具有 10 亿个参数。
以下是 UniAudio 工作原理的简要概述:
首先,它对所有类型的目标音频以及其他条件模态进行标记化。
然后,它将源-目标对连接为单个序列。
最后,它使用 LLM。
在本文中,我旨在涵盖一系列有趣的主题,特别关注我最热衷的话题(即时间序列)。我希望您觉得它有见地和有用。😊
感谢您的阅读,并随时在评论中分享您的想法!
References
Best paper award winner
Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining (mlr.press)
Time series
[2310.10688] A decoder-only foundation model for time-series forecasting (arxiv.org)
[2402.02713] Position: What Can Large Language Models Tell Us about Time Series Analysis (arxiv.org)
[2405.03140] TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning (arxiv.org)
[2403.02682] Time Weaver: A Conditional Time Series Generation Model (arxiv.org)
Large Language Models and Transfer Learning
[2406.07337] Transferring Knowledge from Large Foundation Models to Small Downstream Models (arxiv.org)
LLaGA: Large Language and Graph Assistant (mlr.press)
FrameQuant: Flexible Low-Bit Quantization for Transformers (mlr.press)
DistiLLM: Towards Streamlined Distillation for Large Language Models (mlr.press)
Computer Vision and Audio
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model (mlr.press)
ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy (mlr.press)
UniAudio: Towards Universal Audio Generation with Large Language Models (mlr.press)