视频字幕
主成分分析是一种强大的数据降维技术。它的核心思想是找到数据变化最大的方向,也就是主成分方向。通过这种方法,我们可以用更少的维度来表示原始数据,同时保留数据的主要信息。在这个二维数据例子中,红色线表示第一主成分方向,数据在这个方向上的变化最大。绿色线表示第二主成分方向,与第一主成分垂直。
数据标准化是PCA的重要预处理步骤。当不同特征具有不同的量纲和数值范围时,方差大的特征会主导主成分的计算。标准化公式将每个特征转换为均值为0、标准差为1的分布。让我们看看标准化前后数据分布的变化。原始数据中,两个特征的数值范围差异很大。经过标准化处理后,数据被缩放到相同的范围内,消除了量纲差异的影响。
协方差矩阵是描述数据分布特征的重要工具。它的计算公式是X转置乘以X除以n减1。协方差矩阵的对角元素表示各维度的方差,非对角元素表示不同维度间的协方差。正的协方差表示正相关,负的表示负相关。我们可以用椭圆来可视化协方差矩阵的几何意义。椭圆的形状和方向反映了数据的分布特征。椭圆的主轴方向对应着数据变化最大的方向,这正是我们要寻找的主成分方向。
特征值分解是PCA的核心数学工具。对协方差矩阵C进行特征值分解,得到特征向量和特征值。特征向量表示主成分的方向,特征值表示该方向上数据的方差大小。红色箭头表示第一主成分方向,对应最大特征值,数据在这个方向上变化最大。绿色箭头表示第二主成分方向,与第一主成分垂直。特征值的大小决定了主成分的重要性,特征值越大,对应的主成分越重要。
选择合适数量的主成分需要考虑信息保留和降维效果的平衡。方差贡献率表示每个主成分解释的方差占总方差的比例。累积方差贡献率是前k个主成分贡献率的累加。常用的选择标准包括85%规则,即选择累积方差贡献率达到85%的主成分数量。从图中可以看出,前三个主成分的累积贡献率已经超过85%,因此可以选择前三个主成分进行降维,既保留了主要信息,又实现了有效的降维。