Proximal Policy Optimazation

近端策略优化

针对于RL中的奖励函数,采用一定的算法对其做动态调整和限制。以达到更好的学习效果。

存在的问题

单纯的奖励函数:

该奖励函数存在以下问题:

  • 高方差:获得的奖励不稳定
  • 激励不充分:对于不同的 Actor,应该根据 Actor 的实际情况来做针对性的激励,而不应该用统一的指标对所有的 Actor 做一个的评价

优化方案

以下三个部分

  • critic:设定一个预期分数线的价值函数
  • clip 利用 min 函数防止更新过度
  • Reference Model 防止作弊

critic 预期分数线

critic 设定一个“分数线”:价值函数,作为参考线 baseline。将训练目标改为用 Reward 训练,进化为用 Advantage 来衡量进步。

可见将奖励函数被替换成参考线 baseline 的过程。

clip 防止更新过度

使用 clip 防止更新过度,即为利用 min 限制更新率。

其中

  • 表示新策略和旧策略之间的更新比值,如果比值比较小,则正常更新,如果比较大,则使用 clip 限制更新

Reference Model 防止作弊

使用一个 KL散度 并设定一个初始策略,如果新策略对初始策略偏离太多,则会被判定为作弊而受到惩罚。

GRPO 进一步简化

问题:PPO 中 critic 的计算要使用模型生成评估。

而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。

其中

GRPO 为从 PPO 中替换了 的 critic ,用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单,更节约算力。