1.简单讲讲对PPO DPO GRPO的理解 DPO是直接利用偏好数据训练,PPO和GRPO都需要先训练reward model GRPO相比于PPO 1. 去掉了critic以减小计算量 2. Advantage的计算方式不同 3. GRPO的KL散度项只作用于Actor,PPO则是把KL散度项写入了reward中

视频信息