作者:徐睿辰
图1 神经网络(图片来自于网络)
研究背景
目前,神经网络在计算机视觉和自然语言处理等任务上表现出色的主要原因之一是它们具备强大的特征学习能力。通过训练,神经网络能够从原始数据中学习到高度抽象和有用的特征表示。
神经网络的特征学习过程可以被解释为逐层的特征提取和组合。在深度神经网络中,输入数据通过多个层次的非线性变换进行处理,每一层都学习到一些特定的特征。低层次的特征通常捕捉输入数据的低级细节和局部结构,而高层次的特征则表示更抽象、更全局的概念和语义信息。
这种特征学习的能力是通过反向传播算法和梯度下降等优化方法来实现的。在训练过程中,神经网络通过最小化损失函数来调整网络参数,使得网络的输出与标签之间的差异最小化。通过反向传播算法,梯度信息从输出层逐层向后传播,指导每一层的参数更新。然而,在该过程中。神经网络特征学习机制缺乏充分的理论解释。尽管我们可以观察到神经网络如何通过多层非线性变换从原始数据中提取出有用的特征表示(图2),但对于神经网络为什么能够实现特征学习,以及学习到的特征如何推广到新的、从未见过的数据样本仍是充满挑战的研究问题。
图2 神经网络学习到的特征
研究方法
本文研究了两层卷积神经网络的特征学习过程。首先,假设数据是一个由多个小区域(patch)组成的图片,每个区域满足如下分布:
其中M的每一个列向量都代表了一种特征,z_i是一个稀疏的向量。最终的数据区域由特征向量的线性组合和高斯噪声组成。
其次,考虑一个两层卷积神经网络,网络的输出为:
其中sigma()是神经网络的激活函数,w_{j,r}是第j个输出对应的第r个神经元的参数。
根据以上模型,我们可以研究每轮迭代中神经网络特征学习的状态。
研究结果
神经网络的特征学习中存在以下结果:
1. 神经网络中只有一部分神经元可以学习到特征。
2. 在前期的模型训练中,神经网络通过学习特征学习到大部分数据的正确分类;而在后期的模型训练中,神经网络通过逐渐记忆剩下的数据来实现正确的分类。
3. 集成学习通过将具有不同初始化的神经网络的输出进行结合,集成多个神经网络学习到的特征进行分类任务,从而达到更高的准确率。
参考文献
[1] Allen-Zhu Z, Li Y. Towards understanding ensemble, knowledge distillation and self-distillation in deep learning[J]. arXiv preprint arXiv:2012.09816, 2020.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
点击上方入口关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济实验室
微信号 : ncel_cuhk