视频字幕
在统计学中,我们经常需要用样本数据来估计总体的方差。当我们从总体中抽取样本时,为什么计算样本方差要除以n减1而不是n呢?这个问题涉及到无偏估计的重要概念。
首先我们来理解总体方差和样本方差的定义。总体方差用西格玛的平方表示,是所有数据点到总体均值的离差平方和除以总体大小N。而样本方差有两种计算方式:一种是除以样本大小n,另一种是除以n减1。除以n的方式是有偏估计,而除以n减1的方式是无偏估计。
为什么除以n会低估方差呢?关键在于样本均值的性质。样本均值总是最接近样本数据点的中心,这意味着样本点到样本均值的距离,会比到真实总体均值的距离更小。如图所示,绿色线段代表到样本均值的距离,红色线段代表到真实均值的距离。显然绿色线段普遍更短,这就导致了系统性的低估。
另一种理解方式是自由度的概念。自由度指的是独立信息的个数。在计算样本方差时,我们首先计算了样本均值,这就产生了一个约束条件:所有离差的和等于零。由于这个约束,n个离差中只有n减1个是独立的,最后一个离差可以由前面的n减1个确定。因此我们失去了一个自由度,所以除以n减1是合理的。
总结一下,样本估算总体方差要除以n减1的原因有三个:第一,纠正系统性低估;第二,获得无偏估计量;第三,符合自由度原理。除以n得到的是有偏估计,其期望值小于真实的总体方差。而除以n减1得到的是无偏估计,其期望值正好等于总体方差。这就是为什么在统计学中,我们使用n减1作为分母来计算样本方差。