K- Nearest Neighbor,K 近邻算法

监督学习,分类任务,计算临近度对单个数据点做分类的预测。

这是一个懒惰学习方法,意味着算法没有训练阶段,仅存储数据和标签,也称“基于内存的学习方法”。

计算目标

分为“分类任务”和“回归任务”:

  • kNN 分类:根据周围的样本点,以“多数法则”给出样本分类。
  • kNN 回归:根据周围样本,计算平均值作为预测值输出

算法

ref: 什么是 KNN (k 最近邻算法)? | IBM

当新数据进入时,选择周边最相近的 k 个样本点,根据其类别,以“多数法则”给出样本类别点的最终结果。

距离指标:kNN 根据“距离”来判断周边的邻居是否要纳入计算范围,因此可以使用多种计算距离的方法。可见页面:相似度的计算。

局限性

kNN 在大量的数据集下,会导致计算低效,整体模型性能不佳。