强化学习

RL: Reinforcement Learning

强化学习不是一种特定的具体算法，而是一类机器学习方法论。

Agent（代理人/机器人）基于环境而行动，从而取得最大化的预期利益。

建模

类比到马尔可夫过程，强化学习建模后可拆分为以下几个部分：

从以上拆分可以看出来，环境、代理人、奖励是强化学习中重要的组成部分。

强化学习即为用探索得到的样本来优化行为，使用近似方式逼近复杂环境。机器学习的目标是函数上的寻优，那么强化学习就是 Agent 根据对环境的观察来一步步渐近寻优。

所以，这种方式适用于以下环境：