Q学习,一种RL的算法。
目的:寻找最大化步骤奖励的期望策略。联想到MLE。
公式
三要素:
- Q 为计算目标,表示一个效用
- S 当前状态
- A 在特定 S 状态下执行的行动
Q-Table 记录了所有 Q 在 S 和 A 下的值,表格中的内容是算法要更新的对象:
更新策略:贝尔曼方程
这是一个标准的迭代更新算法。
每一次迭代:
- 使用一个 学习率,考虑旧值的和新计算值的影响
- 表示获得的奖励,可以人为定义
- 表示查表操作,找下一个状态的所有 action 对应的 Q 的最大值。表示在当前状态的计算过程中,考虑下一步可能的效用收益。
- 算法将会进行多次迭代,在第一次迭代过程中,Q-Table 中的值均为初始值。所有 的值都为零。而在后续迭代过程中,才会有可供参考的 Q 值参与该步计算。