视频字幕
协方差是统计学中的重要概念,用来衡量两个随机变量之间的线性关系。当两个变量倾向于同时增大或同时减小时,它们具有正协方差。图中蓝色点显示了正协方差的例子,可以看到当X增大时,Y也倾向于增大。
协方差的符号和大小有重要含义。正协方差表示两个变量倾向于同向变化,负协方差表示反向变化。图中红色点显示负协方差,当X增大时Y减小。绿色点显示零协方差,变量间无明显线性关系。
协方差有两种计算公式。总体协方差等于两个变量偏离各自均值的乘积的期望值。样本协方差则是偏差乘积的和除以样本数减一。右侧表格展示了一个简单的计算例子,最终得到协方差为1.0,表示正相关。
协方差有一个重要局限性:它的大小受到变量自身尺度的影响。例如,两组数据可能有相同的关联强度,但协方差值相差很大。因此我们需要将协方差标准化为相关系数,相关系数的取值范围在负1到正1之间,更容易解释关联强度。
协方差在实际应用中非常广泛。在金融领域用于投资组合风险分析,在数据科学中用于主成分分析和特征选择,在经济学中研究变量间关系。协方差矩阵是多变量分析的重要工具,对角线元素是各变量的方差,非对角线元素是变量间的协方差。