视频字幕
正则化是机器学习中的一项重要技术,用于防止模型过拟合。当模型过于复杂时,它可能在训练数据上表现很好,但在新数据上表现较差。正则化通过在损失函数中添加惩罚项来控制模型复杂度,从而提高模型的泛化能力。图中显示了训练误差和验证误差随模型复杂度的变化,当模型过于复杂时就会出现过拟合现象。
最常见的正则化方法是L1和L2正则化。L1正则化使用权重的绝对值之和作为惩罚项,能够产生稀疏模型,有助于特征选择。L2正则化使用权重的平方和作为惩罚项,使权重趋向于较小值,更好地处理多重共线性。L1倾向产生稀疏解,L2产生平滑解。在实际应用中,常常将两者结合使用,形成弹性网络正则化。
Dropout是深度学习中非常重要的正则化技术。在训练过程中,它随机丢弃一定比例的神经元,强制网络不依赖于特定的神经元,从而减少过拟合。这种机制可以减少神经元间的共适应现象,提高模型的鲁棒性。在测试时,使用完整的网络进行预测。Dropout相当于对多个不同结构的网络进行模型平均,是一种非常有效的正则化方法。
在实际应用中,正则化的成功很大程度上取决于超参数的选择,特别是正则化强度λ的调优。λ过小时正则化效果不明显,可能导致过拟合;λ过大时模型过度简化,可能导致欠拟合。通常通过交叉验证来选择最优的λ值。正则化广泛应用于各种机器学习算法中,如Ridge回归、Lasso回归、带正则化的逻辑回归、神经网络中的Dropout等。最佳实践是从简单模型开始,结合多种正则化技术,并根据数据特征选择合适的方法。
过拟合是机器学习中的核心问题,指模型在训练数据上表现很好,但在新数据上表现较差。过拟合的主要特征是训练误差很小而验证误差很大,模型过度记忆了训练数据的细节,导致泛化能力差。图中显示了典型的过拟合现象:随着训练进行,训练误差持续下降,但验证误差在某个点后开始上升。产生过拟合的原因包括模型过于复杂、训练数据不足、训练时间过长等。解决方案包括增加训练数据、简化模型、早停法和正则化技术。
L1正则化通过在损失函数中添加权重绝对值之和的惩罚项来控制模型复杂度。L1正则化的最大特点是能够产生稀疏解,即使部分权重变为零,从而实现自动特征选择。从几何角度看,L1范数形成菱形约束区域,而损失函数的等高线通常是椭圆形。最优解出现在约束区域与等高线的切点,由于菱形的顶点特性,最优解经常出现在坐标轴上,对应稀疏解。这使得L1正则化在特征选择、高维稀疏数据处理等场景中非常有用。
L2正则化通过在损失函数中添加权重平方和的惩罚项来控制模型复杂度,也被称为权重衰减。与L1正则化不同,L2正则化平滑地缩小所有权重,而不会产生稀疏解。从几何角度看,L2范数形成圆形约束区域,最优解可以出现在圆周上的任意位置。L2正则化对大权重的惩罚更重,因为使用的是平方项。与L1正则化相比,L2正则化更稳定,在处理多重共线性问题时表现更好,计算也更简单。在实际应用中,常常将L1和L2正则化结合使用,形成弹性网络正则化。
正则化参数λ的选择是正则化技术成功应用的关键。λ控制着正则化的强度:当λ等于零时没有正则化效果,可能导致过拟合;λ过小时正则化效果不明显;λ适中时能够平衡拟合与泛化能力;λ过大时会导致欠拟合,模型过于简单。选择最优λ值通常使用交叉验证方法,包括k折交叉验证、留一法等。图中显示了典型的验证曲线,横轴是λ的对数值,纵轴是误差。最优λ值对应验证误差的最小值点。在实际调参时,建议从大范围开始搜索,使用对数尺度,仔细观察验证曲线的变化趋势。