Proximal Policy Optimazation
近端策略优化
针对于RL中的奖励函数,采用一定的算法对其做动态调整和限制。以达到更好的学习效果。
存在的问题
单纯的奖励函数:
该奖励函数存在以下问题:
- 高方差:获得的奖励不稳定
- 激励不充分:对于不同的 Actor,应该根据 Actor 的实际情况来做针对性的激励,而不应该用统一的指标对所有的 Actor 做一个的评价
优化方案
以下三个部分
- critic:设定一个预期分数线的价值函数
- clip 利用 min 函数防止更新过度
- Reference Model 防止作弊
critic 预期分数线
critic 设定一个“分数线”:价值函数,作为参考线 baseline。将训练目标改为用 Reward 训练,进化为用 Advantage 来衡量进步。
可见将奖励函数被替换成参考线 baseline 的过程。
clip 防止更新过度
使用 clip 防止更新过度,即为利用 min 限制更新率。
其中
- 表示新策略和旧策略之间的更新比值,如果比值比较小,则正常更新,如果比较大,则使用 clip 限制更新
Reference Model 防止作弊
使用一个 KL散度 并设定一个初始策略,如果新策略对初始策略偏离太多,则会被判定为作弊而受到惩罚。
GRPO 进一步简化
问题:PPO 中 critic 的计算要使用模型生成评估。
而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。
其中
GRPO 为从 PPO 中替换了 的 critic ,用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单,更节约算力。