Q-Learning

Q学习，一种RL的算法。

目的：寻找最大化步骤奖励的期望策略。联想到MLE。

公式

$Q : S \times A \to R$ 三要素：

Q-Table 记录了所有 Q 在 S 和 A 下的值，表格中的内容是算法要更新的对象：

Q^{n e w} (s_{t}, a_{t}) \leftarrow (1 - α) \cdot old value Q (s_{t}, a_{t}) + learning rate α \cdot (reward r_{t} + discount factor γ \cdot estimate of optimal future value a max Q (s_{t + 1}, a)) learned value

这是一个标准的迭代更新算法。

每一次迭代：

使用一个 $α$ 学习率，考虑旧值的和新计算值的影响
$r_{t}$ 表示获得的奖励，可以人为定义
$max_{a} Q$ 表示查表操作，找下一个状态的所有 action 对应的 Q 的最大值。表示在当前状态的计算过程中，考虑下一步可能的效用收益。
- 算法将会进行多次迭代，在第一次迭代过程中，Q-Table 中的值均为初始值。所有 $max_{a} Q$ 的值都为零。而在后续迭代过程中，才会有可供参考的 Q 值参与该步计算。