01
为什么需要Normalization ?
Normalization本质上是将非标准数据统一为指定格式的过程。
02
BatchNorm 和 LayerNorm的区别
BatchNorm 对一批样本中的每个特征进行归一化处理,而 LayerNorm 则对每个样本中的所有特征进行归一化处理。
假设我们有一个二维输入矩阵,其中行代表批次(也就是样本数目),列代表样本特征。在这种情况下,BatchNorm 在垂直方向上进行归一化处理,而 LayerNorm 则在水平方向上进行归一化处理。图 1 展示了这一概念:
03
应用领域
在计算机视觉领域,特征取决于不同样本之间的统计参数,而 BatchNorm 更为有效。这是因为它消除了不同特征之间的大小关系,同时保留了不同样本之间的大小关系。
在 NLP 领域,LayerNorm 更为合适。这是因为单个样本的不同特征实际上是单词随时间的变化,而且样本内的特征关系非常密切。
点击上方小卡片关注我
添加个人微信,进专属粉丝群!