01
工作速览
02
匠心独运
图1. 平均梯度外积(AGOP)在神经网络架构中捕获特征,并在通用机器学习模型中启用特征学习。(A)在CelebA预测任务上训练的五层ReLU MLPs的神经特征矩阵(NFMs)和AGOPs的特征向量。(B)在ImageNet上预训练的CNNs(VGG19)的NFMs和AGOPs的特征向量捕获了边缘检测器。(C)在TinyStories上训练的GPT2架构语言模型的NFMs和AGOPs的特征向量识别了主题相关的标记组。示例显示了特征向量如何在文本中突出显示过去时态的动词(更多示例见图3和图S10)。(D)在CelebA任务上训练的核机器的AGOP特征向量恢复了与任务相关的特征。在SVHN上训练的卷积核机器的AGOP特征向量恢复了边缘检测器,这些检测器可用于不同分辨率和领域的图像边缘检测。
03
卓越性能
图2. 在训练过的神经网络中,神经特征矩阵(NFMs)与平均梯度外积(AGOP)高度相关(平均皮尔逊相关系数>0.8)。平均相关性高于未训练模型中AGOP和NFM的相关性,以及训练前后NFM之间的相关性(见材料和方法以及图S1)。表格展示了所有层的平均皮尔逊相关系数(误差条表示1个标准差)。箱线图显示了相关性在各层(以及变换器中的头部)的变化。(A)视觉变换器(ViT)在ImageNet上预训练的Query、Key、Value NFMs与AGOPs之间的相关性。在箱线图中,黄色、蓝色、灰色分别代表Query、Key、Value NFM和AGOP的相关性。(B)在Shakespeare文本和TinyStories数据集上训练的GPT2架构语言模型的Query、Key、Value NFMs与AGOPs之间的相关性。箱线图显示了词汇量为3200的TinyStories语言模型的相关性[与(A)中的颜色方案相同]。(C)在ImageNet上预训练的CNNs中NFMs与AGOPs之间的相关性。(D)在来自(30)的表格数据任务上训练的121个五隐藏层ReLU MLPs中NFMs与AGOPs之间的相关性。
参考:
Adityanarayanan Radhakrishnan et al.Mechanism for feature learning in neural networks and backpropagation-free machine learning models.Science383,1461-1467(2024).
关注+标星 邂逅每一篇经典