PPO

Proximal Policy Optimazation

近端策略优化

针对于RL中的奖励函数，采用一定的算法对其做动态调整和限制。以达到更好的学习效果。

存在的问题

单纯的奖励函数：

J_{naive} (θ) = E_{(q, o) \sim (data, π_{θ})} [r (o)]

该奖励函数存在以下问题：

以下三个部分

critic 设定一个“分数线”：价值函数，作为参考线 baseline。将训练目标改为用 Reward 训练，进化为用 Advantage 来衡量进步。

A_{t} = r_{t} - V_{ψ} (s_{t})

J_{adv} (θ) = E [A (o)], 其中 A (o) = r (o) - V_{ψ} (o)

可见将奖励函数被替换成参考线 baseline 的过程。

使用 clip 防止更新过度，即为利用 min 限制更新率。

min (r_{t} (θ) A_{t}, clip (r_{t} (θ), 1 - ε, 1 + ε) A_{t})

其中

r_{t} (θ) = \frac{π _{θ} ( o _{t} ∣ s _{t} )}{π _{θ_{old}} ( o _{t} ∣ s _{t} )}

使用一个 KL散度并设定一个初始策略，如果新策略对初始策略偏离太多，则会被判定为作弊而受到惩罚。

问题：PPO 中 critic 的计算要使用模型生成评估。

而 GRPO 是对 PPO 进一步的简化、优化。即为用多次模拟的平均值取代 PPO 的价值函数。

J_{GRPO} (θ) = E [i = 1 \sum G (min (\frac{π _{θ} ( o _{i} )}{π _{θ_{old}} ( o _{i} )} A_{i}, clip (\frac{π _{θ} ( o _{i} )}{π _{θ_{old}} ( o _{i} )}, 1 - ε, 1 + ε) A_{i}) - β D_{K L} (π_{θ} ∥ π_{ref}))],

其中

A_{i} = \frac{r _{i} - mean ( { r _{1} , r _{2} , \dots , r _{G} } )}{std ( { r _{1} , r _{2} , \dots , r _{G} } )}

GRPO 为从 PPO 中替换了 $A_{i}$ 的 critic ，用多次的评估成绩来评估平均的价值函数。计算的简化导致训练更加简单，更节约算力。