← 返回
Explain the following optimization algorithms for deep neural network: mini-batch gradient descent, exponentially weighted averages, bias correction, gradient descent with momentum, RMS prop, Adam optimization algorithm
📋 信息
💬 答案
📝 字幕
视频信息
视频地址
复制
封面地址
复制
Provider
答案文本
复制
视频字幕
复制
梯度下降是深度学习的核心优化算法。批量梯度下降使用全部训练数据计算梯度,收敛稳定但计算量大。随机梯度下降每次只用一个样本,计算快但路径震荡。小批量梯度下降结合两者优点,使用小批量数据,既保证效率又维持稳定性,是实际应用中的主流选择。 指数加权平均是一种重要的数据平滑技术。公式为v_t等于β乘以v_{t-1}加上1减β乘以θ_t。β参数控制平滑程度,β等于0.9相当于对过去约10个数据点平均,β等于0.95对应约20个点,β等于0.99对应约100个点。β越大,曲线越平滑但响应越慢。这种方法的核心是权重随时间指数衰减,为后续的动量算法奠定基础。 指数加权平均在初期存在偏差问题,v_t会系统性地低估真实值。这是因为初始化v_0为0导致的。偏差修正公式为v_t修正等于v_t除以1减β的t次方。当t较小时,1减β的t次方较小,修正项会放大v_t。随着t增大,β的t次方趋近于0,修正项趋近于1,修正的影响逐渐减小。这个修正确保了算法在初期就能获得准确的估计值。 动量梯度下降将指数加权平均应用到梯度优化中。算法公式为v_t等于β乘以v_{t-1}加上1减β乘以梯度,然后参数更新为θ减去α乘以v_t。这就像小球滚下山坡,积累的动量帮助越过局部最小值。相比普通梯度下降,动量方法能减少震荡并加速收敛,特别是在损失函数存在狭长峡谷时效果显著。β参数通常设为0.9。 RMSprop算法解决了不同参数维度学习率需求不同的问题。算法维护梯度平方的指数加权平均s_t,然后用学习率除以s_t的平方根来更新参数。这实现了自适应学习率:在梯度大的维度使用较小的有效学习率,在梯度小的维度使用较大的有效学习率。通过椭圆形损失函数可以看出,RMSprop能自动调整不同维度的步长,避免普通梯度下降的震荡问题,实现更直接的收敛路径。