视频字幕
卡方检验是统计学中的重要方法,用来检验观察到的频数与理论期望的频数是否存在显著差异。它的核心思想是比较实际观察的数据与理论期望数据之间的差异程度。图中蓝色柱子代表观察值,红色柱子代表期望值,我们可以看到它们之间存在一定的差异。卡方检验就是要判断这种差异是否具有统计学意义。
卡方统计量的公式是卡方检验的核心。公式中,我们计算每个类别的观察频数与期望频数之差的平方,然后除以期望频数,最后将所有类别的结果相加。通过前面的数据例子,我们可以计算出卡方统计量为3.10。这个数值将用于后续的假设检验。
卡方检验的最后步骤是进行假设检验。我们建立原假设H0,即观察频数与期望频数无显著差异。选择显著性水平0.05,计算自由度为3。查卡方分布表得到临界值7.815。由于我们计算的卡方统计量3.10小于临界值,所以接受原假设,认为观察频数与期望频数的差异不具有统计学显著性。图中蓝线表示我们的统计量,红线表示临界值,红色区域是拒绝域。
卡方统计量的计算公式是卡方检验的核心。公式χ²等于所有类别的观察频数减去期望频数的差值平方,再除以期望频数的和。计算分为四个步骤:首先计算观察值与期望值的差值,然后将差值平方以消除正负号影响,接着除以期望值进行标准化,最后对所有类别求和得到卡方统计量。通过示例数据计算,我们得到χ²值为3.10。
现在我们通过一个具体案例来理解卡方检验的应用。某工厂生产的产品按质量分为优、良、中、差四个等级,理论上应该按照优等品30%、良等品40%、中等品20%、差等品10%的比例分布。质量控制部门收集了150个产品的样本数据,观察到的频数分别是:优等品45个、良等品55个、中等品30个、差等品20个。现在需要用卡方检验来判断实际生产情况是否符合预期的质量分布。
期望频数的计算是卡方检验的关键步骤。期望频数等于总样本数乘以理论比例。在我们的案例中,总样本数为150,根据理论分布比例计算各等级的期望频数:优等品期望频数为150乘以0.30等于45,良等品为150乘以0.40等于60,中等品为150乘以0.20等于30,差等品为150乘以0.10等于15。我们可以验证所有期望频数之和等于总样本数150。现在将观察频数与期望频数进行对比,可以看出它们之间存在一定差异。
现在我们逐步计算卡方统计量。对于每个等级,首先计算观察频数与期望频数的差值:优等品差值为0,良等品差值为负5,中等品差值为0,差等品差值为5。然后将差值平方:优等品和中等品平方后仍为0,良等品和差等品平方后都是25。接下来除以各自的期望频数:优等品为0除以45等于0,良等品为25除以60等于0.42,中等品为0除以30等于0,差等品为25除以15等于1.67。最后将所有结果相加:0加0.42加0加1.67等于2.09,这就是我们的卡方统计量。