Random Forest

基于决策树的学习模型,于 2001 年由 Leo Breiman 提出。通过构建多个决策树并结合预测结果。

算法过程

  • Bootstrap 抽样:有放回地随机抽取样本,形成数据子集
  • 特征随机选择:子集训练决策树时,仅选择一部分特征做数据划分
  • 构建决策树:可以参考决策树的构建过程,参考增算法
  • 结果集成:多个决策树形成决策树的森林,对每个输入数据,不同的决策树投票取得最终的结果。

优缺点

优点

  • 准确和鲁棒:多棵树的集成可以减少方差
  • 过拟合:抗噪性更强
  • 复杂数据的适配:适合高维特征,对缺失和异常不敏感
  • 并行:适合分布式计算

缺点

  • 计算资源消耗大
  • 可解释性差
  • 样本不平衡

思考

随机森林是典型的“多合一式”算法优化。将多个计算过程合并在一起以降低输出结果的随机性,也就是优点中的降低“方差”。