人工智能_深度学习中的批量归一化与层归一化

2025-03-08

批量归一化（Batch Normalization，BN）和层归一化（Layer Normalization，LN）是深度学习中常用的两种归一化技术。它们的目的是通过调整神经网络内部数据分布，加速训练过程、提高模型性能并增加模型的泛化能力。

批量归一化

1. 概念

批量归一化是在每个mini-batch上对激活值进行归一化处理。具体来说，在前向传播过程中，对于每一层中的每个特征图，计算该特征图在当前mini-batch上的均值和方差，然后使用这些统计量对该特征图的所有元素进行归一化；反向传播时，则需要根据链式法则求出相应梯度。

2. 作用

加速收敛：通过对每层输入进行标准化，减少了“内部协变量偏移”现象，使得各层之间的权重更新更加稳定，从而加快了网络的收敛速度。
允许使用更大的学习率：由于归一化后的数据分布较为稳定，因此可以采用较大的学习率来加速训练。
正则化效果：BN引入了一定程度上的随机性（因为每次mini-batch不同），起到了类似Dropout的作用，有助于防止过拟合。

3. 实现细节

在实际应用中，为了保证测试阶段也能得到相同的效果，通常会记录下所有mini-batches的均值和方差，并用它们来估计整个训练集上的均值和方差。此外，还会引入两个可学习参数γ和β，用于缩放和平移归一化后的结果，以恢复原始数据的尺度信息。

$\hat{x} = \frac{x - \mu_B}{\sqrt{\sigma^2_B + \epsilon}}$

$y = \gamma\hat{x} + \beta$

其中，$\mu_B$ 和 $\sigma^2_B$ 分别表示当前mini-batch的均值和方差，$\epsilon$ 是一个小常数，用于防止除零错误。

层归一化

1. 概念

与批量归一化不同的是，层归一化是在单个样本的基础上，对同一层内所有神经元的输出进行归一化操作。即对于每个样本x，计算其在当前层的所有维度上的均值和方差，再利用这两个统计量对该样本在此层上的所有输出进行归一化。

2. 作用

适应RNN等序列模型：BN依赖于mini-batch的大小，当处理变长序列或者小批量甚至单个样本时，BN可能无法提供有效的归一化效果。而LN只关注单一样本内部的数据分布，因此更适合应用于递归神经网络（RNN）、变压器（Transformer）等结构。
减少内存占用：由于LN不需要存储mini-batch级别的统计信息，所以在某些情况下可以降低内存消耗。

3. 实现细节

类似于BN，LN同样可以通过引入可学习参数γ和β来控制归一化后的输出范围。需要注意的是，尽管BN和LN都采用了类似的数学公式来进行归一化，但二者所基于的统计量来源不同，导致它们的应用场景也有所区别。

$\muL = \frac{1}{H}\sum{i=1}^{H}x_i$

$\sigma^2L = \frac{1}{H}\sum{i=1}^{H}(x_i - \mu_L)^2$

$\hat{x}_i = \frac{x_i - \mu_L}{\sqrt{\sigma^2_L + \epsilon}}$

$y_i = \gamma\hat{x}_i + \beta$

这里，$H$ 表示当前层中神经元的数量。

BN与LN的选择

选择使用哪种归一化方法取决于具体的任务需求以及所使用的模型架构。如果是在处理固定长度的数据集并且有足够的资源支持较大规模的mini-batch训练，那么BN通常是更好的选择；而对于涉及变长序列的任务，如自然语言处理中的文本分类、机器翻译等，则应该优先考虑LN。另外，在一些特殊情况下，还可以结合两者的优势，例如在Transformer模型中同时使用BN和LN，以达到更优的结果。

总之，无论是BN还是LN，都是为了改善深层神经网络训练过程中遇到的问题而设计的技术手段。随着研究的深入和技术的发展，未来可能会出现更多新型且高效的归一化策略，为构建更强大、更智能的人工智能系统提供有力支持。

批量归一化

1. 概念

2. 作用

3. 实现细节

层归一化

1. 概念

2. 作用

3. 实现细节

BN与LN的选择

15201532315 CONTACT US