视频字幕
卡方检验是一种常用的统计方法,主要用来判断实际观察到的数据分布与理论上预期的分布之间是否存在显著差异。让我们从一个简单的例子开始理解。想象你抛一枚硬币100次,理论上你期望正面和反面各出现50次。但实际抛出来可能是正面45次,反面55次。这个差异是正常的随机波动,还是硬币有问题?卡方检验就是用来回答这类问题的统计工具。
卡方检验的核心思想是比较实际观察到的频数和理论上期望的频数。我们用字母O表示实际观察到的频数,用字母E表示期望频数。如果O和E非常接近,说明实际情况符合理论预期,卡方值就会很小。如果差异很大,卡方值就会很大。卡方值的计算公式是:卡方等于所有类别中,实际频数减去期望频数的平方,再除以期望频数的总和。
卡方检验主要应用于两种场景。第一种是独立性检验,用来判断两个分类变量之间是否存在关联。比如我们想知道吸烟习惯和患肺病之间有没有关系,可以收集数据制作列联表,然后用卡方检验来分析。第二种是拟合优度检验,用来判断观察到的数据分布是否符合某个理论分布。比如检验一家店一周七天的顾客数量分布是否均匀,我们可以比较实际的顾客数量和理论上的平均分布。
现在让我们用硬币的例子来演示卡方值的具体计算过程。首先列出观察值和期望值:正面观察到45次,期望50次;反面观察到55次,期望50次。然后计算每个类别的贡献:正面的贡献是45减50的平方除以50,等于25除以50,等于0.5。反面的贡献是55减50的平方除以50,也等于0.5。最后将所有类别的贡献相加,得到卡方值等于1.0。
最后我们需要判断计算出的卡方值是否显著。通过查表或计算p值,我们发现当自由度为1时,临界值是3.84。我们的卡方值1.0小于临界值,对应的p值大于0.05,说明差异不显著。因此我们可以得出结论:这枚硬币是公平的,观察到的差异可以用随机波动来解释。卡方检验的基本流程是:提出问题、收集数据、计算卡方值、判断显著性、得出结论。这种方法在统计分析中有着广泛的应用。