解释一下策略梯度法的推导

视频信息