DPO

Direct Preference Optimization 直接偏好优化

ref: [2305.18290] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

概述

DPO 的优势，相比较 RLHF ，DPO 直接修改奖励函数，而不需要独立的奖励模型来训练。

输入数据包含三方面

提示词：x ，表示具体处理的任务。
正面结果 win 的样本
负面结果 lose 的样本

DPO 就是最大化正面结果的概率，最小化负面结果的概率。

在 DPO 过程中，处理两个模型：

策略模型 $π_{θ}$ （正在被训练的模型）
参考模型 $π_{re f}$ （与策略模型一致的，固定参数的模型）

损失函数的构建：提升正面结果的输出概率，降低负面结果的概率。

RLHF 的对比

在 RLHF 中，最大化的目标函数为：

$max_{π_{θ}} J (π_{θ}) = E_{x \sim D, y \sim π_{θ} (\cdot ∣ x)} [r^{*} (x, y)] - β D_{K L} (π_{θ} (\cdot ∣ x) ∣∣ π_{re f} (\cdot ∣ x))$

x 是提示词输入，y 是回答
r* 表示奖励函数，这个模型需要训练得到
右侧计算了 KL散度，代表了策略模型和参考模型的分离程度
beta 是一个超参数，用于控制惩罚权重

DPO 的优化

DPO 在 RLHF 的基础上，发以上公式居然有解析解

$π^{*} (y ∣ x) = \frac{1}{Z ( x )} π_{re f} (y ∣ x) exp (\frac{1}{β} r^{*} (x, y))$

左侧代表最优解的模型

移项得到：

$r^{*} (x, y) = β lo g \frac{π ^{*} ( y ∣ x )}{π _{re f} ( y ∣ x )} + β lo g Z (x)$

最优奖励函数，不需要训练，直接就可以用策模型和参考模型之间的比值表示.

BT偏好模型的引入

BT偏好模型，提供一个假设：“这个模型比那个模型好过多少？”

$P (y_{w} ≻ y_{l} ∣ x) = σ (r^{*} (x, y_{w}) - r^{*} (x, y_{l}))$

(其中 $σ (z) = \frac{1}{1 + e ^{- z}}$ ) 是一个 sigmoid 函数

将上式得到的结果代入

$P (y_{w} ≻ y_{l} ∣ x; θ) = σ (β [lo g (\frac{π _{θ} ( y _{w} ∣ x )}{π _{re f} ( y _{w} ∣ x )}) - lo g (\frac{π _{θ} ( y _{l} ∣ x )}{π _{re f} ( y _{l} ∣ x )})])$ 转换为优化问题，利用 MLE 最大化这个 $θ$ ，损失函数即为最小化负对数似然

获得损失函数

$L_{D PO} (π_{θ}; π_{re f}) = - E_{(x, y_{w}, y_{l}) \sim D} [lo g σ (β lo g \frac{π _{θ} ( y _{w} ∣ x )}{π _{re f} ( y _{w} ∣ x )} - β lo g \frac{π _{θ} ( y _{l} ∣ x )}{π _{re f} ( y _{l} ∣ x )})]$

最小化以上公式，获得最终的 $θ$ 参数值。

🗄️阿森知识库

探索

DPO

概述

RLHF 的对比

DPO 的优化

BT偏好模型的引入

关系图谱

目录

最近的笔记

个体心理学

自由现金流

艾伦·图灵

🗄️阿森知识库

探索

DPO

概述

RLHF 的对比

DPO 的优化

BT偏好模型 的引入

关系图谱

目录

最近的笔记

个体心理学

自由现金流

艾伦·图灵

BT偏好模型的引入