视频字幕
学习率是机器学习中一个重要的超参数。它控制着模型在每次训练迭代中参数更新的步长大小。简单来说,学习率决定了我们沿着梯度方向移动多远的距离。
学习率的主要作用是控制模型收敛速度和稳定性。它决定了参数更新的幅度。较大的学习率会导致参数更新幅度大,可能快速收敛但容易跳过最优解。较小的学习率会导致参数更新幅度小,收敛稳定但速度较慢。合适的学习率能让模型快速且准确地找到最优解。
当学习率过大时,参数更新步长太大。模型可能在最优解附近来回震荡,无法稳定地接近最优解,甚至完全无法收敛。这种情况下,损失函数的值可能会越来越大,而不是越来越小。
当学习率过小时,参数更新步长太小。模型收敛速度会非常缓慢,需要更多训练时间才能达到最优解。虽然最终可能收敛到最优解,但效率很低,浪费大量计算资源。
学习率通过梯度下降算法工作。参数更新公式为:theta_{t+1} = theta_t - alpha 乘以 损失函数的梯度。在这个公式中,theta_t 是当前参数值,alpha 是学习率,nabla L(theta_t) 是损失函数在当前参数处的梯度。梯度指向损失函数增长最快的方向,所以我们沿着它的反方向移动。学习率决定了我们沿着这个方向移动多远。