Decision Tree 决策树

图片来自于:决策树 (decision tree) | 三点水

决策树算法是一种将机器学习(数据挖掘)方法,也是计算机中的预测学习方法。

决策树的核心算法是

使用条件概率构建决策树

决策树的每一个节点都可以理解为一个“条件判断”。

构建决策树的原始数据为一个二维数据表,带有结果和各个条件字段:

上表中有天气、温度、湿度、起风四个条件,PLAY 室外活动为结果。

决策树的构建方式为递归方法,即从根节点开始,一步一步构建枝桠节点,最终成树。

在每一步的构建过程中,计算每个条件的熵值,计算其获得的信息增益。

信息增益,代表了当前条件对结果的“影响程度”。条件对结果的影响程度越大,信息增益越高。

例如,天气是影响室外活动最强的因素,因为晴天一定不活动;阴天一定活动、雨天有可能活动,计算得到的熵增为 0.656。

所以构建决策树的根节点为“天气”。

而后一步一步迭代,直到所有的条件都被完全使用,树构建完毕。

熵的计算公式

以上熵是一个求和和概率的累加形式。

  • i 代表当前的条件
  • j 代表当前条件的取值

如果 j 是 50%/50% 分布的, 那么熵 = 1,改条件对结果不提供任何的判断依据。