视频字幕
皮尔逊相关系数是衡量两个变量之间线性相关程度的统计量。它的定义公式基于离差形式,表示为两个变量的协方差除以它们标准差的乘积。而在实际计算中,我们通常使用更为简便的计算公式。本视频将推导如何从定义公式得到计算公式。右侧图表展示了一组正相关的数据点,其皮尔逊系数约为0.8。
首先,我们来展开分子项。分子是两个变量离差乘积的和。展开括号后,得到四项:x_i乘以y_i,减去x_i乘以y均值,减去y_i乘以x均值,加上x均值乘以y均值。利用求和的线性性质,我们可以将求和分配到各项。对于含有均值的项,由于均值是常数,可以提出求和符号。右侧图表中,黄色点表示一个样本点,橙色线段表示该点在x和y方向上的离差。
继续化简分子项。我们利用均值的定义,将求和项替换为均值表达式。由于x的均值等于x的总和除以n,所以x的总和等于n乘以x的均值。同理,y的总和等于n乘以y的均值。将这些关系代入上一步的表达式,我们得到:求和x_i乘以y_i,减去n乘以x均值乘以y均值,再减去n乘以x均值乘以y均值,加上n乘以x均值乘以y均值。化简后,分子项等于求和x_i乘以y_i,减去x总和乘以y总和除以n。通分后,得到最终的分子表达式。
接下来,我们展开分母项。分母的第一项是x的离差平方和。展开平方项后,得到三项:x_i的平方,减去2倍x_i乘以x均值,加上x均值的平方。利用求和的线性性质,我们可以将求和分配到各项。对于含有均值的项,由于均值是常数,可以提出求和符号。代入x总和等于n乘以x均值,我们得到:求和x_i的平方,减去2n乘以x均值的平方,加上n乘以x均值的平方。化简后,分母第一项等于求和x_i的平方,减去x总和的平方除以n。通分后,得到最终的分母第一项表达式。右侧图表展示了各个数据点的离差平方,这些离差平方的平均值就是方差。
最后,我们将推导得到的分子和分母表达式代入皮尔逊相关系数的定义公式。分子是n乘以x和y的乘积和,减去x总和乘以y总和,除以n。分母是两个平方根的乘积,每个平方根中都有类似的表达式。通过代数运算,我们可以将分子分母中的n进行约分,得到最终的计算公式:n乘以x和y的乘积和,减去x总和乘以y总和,除以两个平方根的乘积。这就是皮尔逊相关系数的计算公式。右侧图表展示了不同相关系数值对应的数据分布情况。皮尔逊相关系数的取值范围是-1到1,1表示完全正相关,0表示无线性相关,-1表示完全负相关。