PCA

PCA = Principle Component Analysis

主成分分析

算法的目的是将高维的数据投影到低维的平面上。因为高维数据往往难以处理，而低维数据处理起来更加方便。

直觉

PCA 就是在一个数据集代表的线性空间中几个新的“方向”，这些方向能够代表数据最大的变化趋势。

关键词为“变化”和“映射”：

图中的红线就是特征向量的方向，PCA 通过特征分解的方式获得了“最能够代表数据变化”的两个方向。而一旦选中了其中一个方向而放弃另一个方向，就达成了“降维”的效果（二维变成了一维）。

首先，因为 PCA 本身也是一种算法，输入为待处理的数据矩阵，输出为降维后的数据矩阵。X 为一个数据集， $X_{j}$ 表示每个变量的数据集合。

然后将其用五步处理：

第一步，预处理，保证每个维度上的数据均值为0，方差为1。因为 PCA 变换本身对数据的规模比较敏感，所以在处理前需要归一化。

X_{j}^{'} = \frac{X _{j} - μ _{j}}{σ _{j}}

Xj 表示数据行的每个变量，式中将原值减去均值然后除以标准差来归一化。

第二步，计算协方差矩阵。协方差即为多个参数之间的方差。协方差矩阵描述了不同维度数据之间的关联关系。

Σ = \frac{1}{n - 1} X^{'} X^{T}

X’ 是标准化后的数据矩阵转置。

第三步，对协方差矩阵做特征分解得到特征值和特征向量。

Σ v = λ v

v 为特征向量， $λ$ 为特征值。

第四步，选择主成分，例如前 k 个最大的特征值对应的特征向量。

第五步，利用特征向量转换原始的数据矩阵。

Y = X^{'} V_{k}

Vk 是由多个特征向量组成得到的矩阵。