RL: Reinforcement Learning

强化学习不是一种特定的具体算法,而是一类机器学习方法论。

Agent(代理人/机器人) 基于环境而行动,从而取得最大化的预期利益。

建模

类比到马尔可夫过程,强化学习建模后可拆分为以下几个部分:

  • 环境状态集合 S
  • 动作集合 A
  • 状态之间的转换规则 P
  • 奖励规则 R
  • Agent 可观察到的规则

从以上拆分可以看出来,环境、代理人、奖励是强化学习中重要的组成部分。

应用和直觉

强化学习即为用探索得到的样本来优化行为,使用近似方式逼近复杂环境。机器学习的目标是函数上的寻优,那么强化学习就是 Agent 根据对环境的观察来一步步渐近寻优。

所以,这种方式适用于以下环境:

  • 周边环境已知,但是无法用数学推导出解析解
  • 人为创建的模拟环境
  • Agent 必须要和环境互动才能获取信息