视频字幕
在统计学中,有三个重要的概念用来描述数据的集中趋势。平均数是所有数据的总和除以数据个数,反映数据的平均水平。中位数是将数据从小到大排序后位于中间位置的数值,不受极端值影响。众数是在数据中出现次数最多的数值,适用于分类数据的分析。
平均数是最常用的统计量,计算方法是将所有数据相加后除以数据个数。以数据2、5、8、3、7为例,先相加得到25,再除以5,得到平均数5。在数轴上,平均数位于数据的中心位置。但是平均数有一个重要特点,就是容易受到极值的影响。如果我们加入一个极值20,平均数就会从5变成7.5,发生明显偏移。
中位数是将数据从小到大排序后位于中间位置的数值。以数据2、8、3、7、5为例,首先排序得到2、3、5、7、8,由于有5个数据,中位数就是第3个数,即5。如果数据个数是偶数,则取中间两个数的平均值。中位数的最大优点是不受极值影响,即使加入极值20,中位数也基本保持稳定,这使得它在描述有异常值的数据时更加可靠。
众数是数据中出现次数最多的数值。以数据2、3、3、3、5、7、7为例,通过统计各数值的出现频次,发现3出现了3次,是最频繁的,所以众数是3。众数可以分为单众数、多众数和无众数三种情况。众数特别适用于分类数据的分析,比如在服装销售中,如果S码卖出5件、M码15件、L码8件、XL码3件,那么M码就是众数,这对商家的进货决策很有参考价值。
通过对比分析,我们可以看出三个统计量各有特点。平均数适合描述数值型数据的总体水平,但容易受极值影响。中位数抗干扰能力强,适合有异常值的数据。众数适用于任意类型的数据,特别是分类数据。以数据1、2、3、3、4、5、15为例,平均数是4.7,中位数是3,众数也是3。不同的统计量从不同角度反映了数据的集中趋势,在实际应用中要根据具体情况选择合适的统计量。