这篇论文是关于一种特殊的研究风格。这种风格的理念是,为了科学地理解深度学习(deep learning),研究当神经网络在简单、数学上定义明确的任务上进行训练时会发生什么是有益的。即使训练数据很简单,训练算法最终也会产生丰富、意想不到的结果;理解这些结果可以揭示与当代深度学习高度相关的基本谜团。
首先,我们将这种方法论置于更广泛的科学背景中,讨论和系统化模型系统在科学(science)中的作用,特别是在深度学习科学中的作用。然后,我们介绍了五个深入的案例研究,每个案例研究都使用特定的组合任务(combinatorial task)作为镜头,通过这些镜头来揭开深度学习的谜团。
所采用的组合任务是稀疏布尔函数(sparse Boolean functions)、稀疏奇偶校验(sparse parities)、学习有限群运算(learning finite group operations)、执行模加法(performing modular addition)和在上下文中学习马尔可夫链(learning Markov chains in-context)。解释兴趣的主题包括 Transformer 架构的归纳偏差(inductive biases)、训练过程中涌现能力(emergent capabilities)现象、存在统计计算差距的情况下深度学习的细微差别、不同训练资源之间的权衡、网络宽度对优化的影响、训练数据中的对称性与训练网络中的谐波结构(harmonic structure)之间的关系、Transformer 中上下文学习机制的起源以及虚假解决方案对优化的影响。
论文题目:Combinatorial Tasks as Model Systems of Deep Learning
作者:Benjamin L. Edelman
类型:2024年博士论文
学校:Harvard University(美国哈佛大学)
下载链接:
链接: https://pan.baidu.com/s/1Twb1jTDXmmg51i3EMkg5hw?pwd=qkda
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
人文书籍链接: https://pan.baidu.com/s/1FFw_24YdJIUfLGunRGT_7g?pwd=9at9
AI书籍链接: https://pan.baidu.com/s/1wp1sxh_p5Cv9dI5OpBaSCg?pwd=2arp
1.2 什么类型的科学?
深度学习作为一门工程学科,目前有一个相当统一的范式。它的核心概念是标准化基准,其默认方法有两方面:
1. 尽可能扩大训练资源,并以经验缩放定律为指导实现这些资源的最佳平衡(Kaplan 等人,2020 年;Hoffmann 等人,2022 年)
2. 通过社区范围内的调整过程,逐步提高资源方面的帕累托性能前沿。研究人员对训练和推理流程进行了无数的实证测试,那些导致基准提升的变体被广泛采用。
在过去十年中,范式发生了变化——随着过去几年大型语言模型 (LLM) 的兴起,对缩放定律的关注才开始占据主导地位。未来这种情况也会发生变化——例如,LLM 的主要基准变得越来越广泛和复杂(Srivastava 等人,2022 年;Liang 等人,2023 年),并且越来越多地被直接人工或 LLM 评估所取代(Zheng 等人,2024 年)。
与此同时,深度学习科学仍处于前范式阶段且支离破碎。我们所说的深度学习科学是指对人工神经网络(以下简称神经网络或模型)的研究,其目标通常在于解释深度学习实践中出现的无法解释的现象。这与采用科学方法的某些方面来设计更好的模型有重叠之处,但又有所不同。其直接目标不是性能,而是理解。*
正如这个寓言所说明的,有很多种方式来看待神经网络。计算机科学家的视角、方法工具包和探究模式可能与统计学家、神经科学家、物理学家、语言学家或心理学家截然不同。由于深度学习科学是由其主题(用迭代优化算法训练的人工神经网络)而不是其方法论定义的,因此这些领域和其他各个领域的观点可以同时相关。这也延伸到子领域:优化、自然语言处理、计算学习理论、高维统计、控制理论、统计力学等都有一些可以借鉴的地方。
深度学习科学位于这些不同学科的交汇处,正在成为一门独立的学科。它广泛吸收了前辈的方法。尤其重要的是,在许多既定领域中都可以找到科学探究的主题。
本论文的重点就是这样一个主题:模型系统。例子包括经济模型、细胞培养、模型生物(如秀丽隐杆线虫和实验室小鼠)、粒子加速器、Ising模型(Baxter,2016 年)、基于代理的模型(Gilbert,2019 年)和图灵机。模型系统是达到目的的一种手段。这些设置中的每一个都是深入科学研究的对象……目的是了解其他(更“现实”)的设置,而不是模型系统本身。
为什么科学家会花这么多时间研究一个系统,而他们真正关心的是另一个系统?为了使这值得,模型系统需要成为产生科学见解的极其肥沃的土壤。同时,它需要在重要方面充分反映感兴趣的环境,以便从模型系统中学到的见解能够转移。简而言之,模型系统需要满足两个要求:科学生产力和可转移性。*
生产力
• 模型系统上的实验能否高效且廉价地进行?
• 它是否适合数学分析?
• 系统是否特别透明?线虫 C. elegans 实际上是一种光学透明的生物,这使科学家能够轻松地观察蠕虫,而这在其他情况下会困难得多(Corsi 等人,2015 年)。其他模型系统可能在观察和解释方面更具隐喻性。
• 系统是否可控且可扩展?是否有(比喻性的)旋钮可以调整以改变设置性质?
可迁移性
• 模型系统是否与感兴趣的现实生活设置共享重要特征,例如
前者的见解转移到后者吗?这并不一定要求设置的高级行为相似——也可能是设置的低级方面是共享的。有时,不具代表性的“极端”情况(例如粒子加速器)更有利于揭示共同的底层机制。
• 对模型系统的研究是否适用于广泛的现实生活环境?这可以通过可扩展性(上面的第四点)来实现。
关于最后一个要点——另一种方法是针对每个感兴趣的现象设计或发现新的模型系统。这种方法很有用,因为它提供了一种否则不可能实现的模型系统与现象之间的契合度。生理学家 August Krogh 曾说过(即后来众所周知的 Krogh 原则),“对于大量问题,会有一些动物可供选择,或者一些动物,可以最方便地对其进行研究”(Krebs,1975 年)。但使用标准化模型生物也有优势。标准化使得可以使用现成的协议和分析工具;如果各方已经了解设置,它有助于更有效地进行科学交流;并且它使在看似不同的现象之间建立联系变得更容易。科学家在选择研究模型系统时必须平衡创造力和保守主义的利弊。
1.3 深度学习的模型系统
在神经网络训练动力学课程的讲义中,Roger Grosse 建议:“关于任何神经网络现象,首先要问的问题是:线性回归也会发生这种情况吗?”(Grosse,2022 年)。事实上,线性设置(回归和分类)是深度学习的高效模型系统。实验通常易于运行且计算成本低;最优解通常可以用封闭形式表示;优化算法的动态通常可以通过分析得出;通过读取系数可以轻松解释训练后的模型;并且可以通过多种方式修改数据分布以模拟不同的现象。
出于一些原因,线性设置中的经验教训可以转移到现实的深度学习设置中。首先,线性模型相当于一个仅由单个神经元组成且没有激活函数的神经网络。因此,它是分析一般网络的“基本情况”。例如,参见 (Soudry et al., 2018) 的一篇有影响力的论文,该论文证明了使用梯度下降对线性可分数据进行优化的线性分类器*对最大边际权重具有隐性偏差——随后进行了一系列研究,将这些发现推广到越来越广泛的神经网络类别(Ji & Telgarsky, 2018; Lyu & Li, 2019; Ji & Telgarsky, 2020; Kunin et al., 2022)。在另一个极端,任何深度的极宽神经网络,在初始化和学习率具有一定的(通常不是最佳实践)缩放的情况下,其训练动态接近线性模型(Jacot 等人,2018 年;Du 等人,2018 年;Allen-Zhu 等人,2019 年;Zou 等人,2020 年;Chizat 等人,2019 年)。这种“神经切线核”(NTK)洞察力可以解释诸如缩放定律(Bordelon 等人,2020 年、2024 年)和谱偏差(Cao 等人,2019 年;Tancik 等人,2020 年)等现象。
但是,尽管许多深度学习现象已经存在于线性环境中(Belkin 等人,2018),但这类模型系统从根本上是有限的。强大的线性方法(例如核和随机特征方法)(Rahimi & Recht,2007)在定义上仅限于对根据固定(或随机)变换从输入计算出的特征集合执行线性映射。它们可以拟合复杂的函数,但前提是它们的预先计算的特征恰好包含适当的特征。与此同时,深度学习方法能够根据数据中的模式自适应地发现有用的特征。由于这种特征学习或表示学习* 差距,各种任务可以通过小型神经网络解决,但线性方法需要指数级的特征(Yehudai & Shamir,2019;AllenZhu & Li,2019;Malach 等人,2021)。这不仅仅是能力上的差异——特征学习具有更丰富、从根本上非凸的优化动态。它还使经过训练的网络在内部变得更加有趣,充满了学习到的分层电路(Zeiler & Fergus,2014;Olah 等人,2020;Clark 等人,2019;Olsson 等人,2022)。这使得神经网络成为一种计算机,而不仅仅是昂贵的曲线拟合器。
在这篇论文中,我们超越了线性,研究了特征学习的模型系统。
在这一点上,有必要澄清一个模糊之处。深度学习的模型系统(至少)有两种,分别对应学习流程的不同部分。一方面,有模型架构;另一方面,有模型任务。(一个不那么令人困惑、更具头韵的名字可能是“试管任务”)。† 具有有利的科学生产力特性的模型架构包括多层感知器(定义见第 6.2 节)、深度线性网络(Saxe 等人,2014 年)、简化的 Transformer(即只有一层或两层,或没有 MLP 模块)、以可解释性或控制为设计理念的 Transformer 架构变体(Hewitt 等人,2023 年;Friedman 等人,2024 年)以及线性模型本身。
任务的模型系统特别有用,因为除了数据之外,标准深度学习管道(架构、训练算法、超参数)的所有内容都是精确的数学定义和由用户控制的,近年来,数据越来越像“我们可以在互联网上找到的一切”。‡ 理论计算机科学中处理数据的标准分析方法是假设数据是最坏情况*,但深度学习的丰富性往往来自数据的结构,因此考虑在特定试管任务上训练模型时会发生什么具有很大的科学价值。
1.4 组合任务
在过去几年中,为了更好地理解深度学习,出现了大量使用组合任务作为试管任务的新作品,其中包括构成本论文基础的作品,以及(除其他外):Hupkes 等人(2020 年);Daniely & Malach(2020 年);Bhattamishra 等人(2020a);Yao 等人(2021 年);Zhang 等人(2021 年);Power 等人(2021 年);Zhang 等人(2022 年);Xie 等人(2022 年);Abbe 等人(2022a);Anil 等人(2022 年);Liu 等人(2022a);Nanda 等人(2023 年);Michaud 等人(2023 年);Chughtai 等人(2023 年);Bietti 等人(2023 年);Valvoda 等人(2022 年);Guo 等人(2023 年);Glasgow(2023 年);Zhou 等人(2023 年);Liu 等人(2024 年);Sanford 等人(2024 年);Akyürek 等人(2024 年)。我们并没有正式定义“组合任务”;我们将其用作数学上定义明确的离散、算法和/或代数类型的任务的总称。这种研究风格越来越流行有两个主要原因。首先,在理论方面,从 2019 年左右开始,人们认识到许多有趣的现象源于特征学习,而这些现象无法使用线性模型系统进行研究。其次,最近法学硕士(LLM)迅速崛起,这种神经网络具有非凡的能力,能够流利地用人类语言交谈、编写计算机代码、回忆知识和推理(Devlin 等人,2018 年;Radford 等人,2019 年;Brown 等人,2020 年;Chowdhery 等人,2022 年;Petroni 等人,2019 年;Wei 等人,2022 年)。明确指定的组合任务可以作为语言各个方面的目标模型,从而能够单独分析个人能力。
在本论文中,我们介绍了使用组合任务进行深度学习科学研究的几个案例研究。所研究的具体任务包括:
• 在第 4 章中,我们研究了依赖于输入变量的未知稀疏子集的布尔函数的学习。我们将其称为稀疏布尔函数,尽管在学习理论文献中它们也被称为 juntas(Blum & Langley,1997;Mossel 等,2003)。
• 在第 5 章和第 6 章中,我们研究了稀疏奇偶校验,这是稀疏布尔函数的特殊情况,其中函数是 k 个相关位的模 2 之和。稀疏奇偶校验函数可以等效地被认为是 f±1g 基中的单项式,或者是相关变量之间的纯 k 向交互,没有低阶交互项。
• 在第 7 章中,我们考虑执行有限群运算的任务。具体而言,每个输入都是一对 (a, b),其中 a、b 是群 G 的元素,目标输出是 ab。特别令人感兴趣的是循环群 Zp,或者换句话说,模加法。本章再次考虑稀疏奇偶校验任务。
• 在第 8 章中,我们重点关注在上下文中学习马尔可夫链的任务。这是一个序列学习任务,其中每个序列都是从一个新的未知马尔可夫链中采样的。
这些章节中的研究阐明了深度学习的各种神秘方面。在下一章中,我们将总结其中的贡献。
第 4.3 节中描述的注意力模块 ftf‐head、ftf‐layer、ftf‐scalar 的图表:对齐分数(灰色边缘)确定归一化注意力权重(蓝色),用于混合输入 x1:T。左:具有一般上下文 z 的注意力。中心:自注意力层,其中输入和上下文都来自 x1:T。右:辅助 [CLS] 标记从自注意力层中提取单个标量,为分类或回归任务提供实值函数类。
使用神经网络学习奇偶校验时的隐藏进度。左、中:黑盒损失和准确度表现出较长的稳定期和急剧的相变(顶部),隐藏了 SGD 迭代中的渐进式进度(底部)。右:隐藏式进度度量,将渐进式特征放大(顶部)与噪声训练(底部)区分开来。
(左)我们训练小型转换器执行马尔可夫链的上下文学习 (ICL-MC)。每个训练序列都是通过从先验分布中采样一个转换矩阵,然后从该马尔可夫链中采样一个序列而生成的。(右)在我们的上下文马尔可夫链任务的训练过程中,转换器的输出分布与几个明确定义的策略之间的距离。该模型经历三个阶段:(1)预测均匀分布,(2)基于上下文一元统计进行预测,(3)基于上下文二元统计进行预测。阴影基于曲线的最小值。
在训练中,注意不同时间步骤中的固定输入。这些图表显示了注意头在每一层关注的位置。在第二层中,只显示了最后一个标记的注意。顶部的标记关注其下方的标记。注意力从统一开始,但到训练结束时,各层的作用显然与感应头构造相同。具体而言,在第一层中,每个标记都关注前一个标记。在第二层中,当前标记 2 关注 2 之后的标记,从而可以计算二元统计信息。图 E.5 将完整的注意力矩阵显示为热图。