视频字幕
正态分布是一种非常常见的概率分布,也称为高斯分布。它的概率密度函数曲线呈钟形,中间高,两边低。正态分布具有对称性,曲线关于均值对称。均值、中位数和众数在同一位置。正态分布由均值μ和标准差σ两个参数决定。均值决定了曲线的中心位置,标准差决定了曲线的宽度或分散程度。在正态分布中,大部分数据点集中在均值附近,离均值越远,数据点出现的概率越低。
正态分布在现实生活中有广泛的应用。许多自然现象和社会现象都近似服从正态分布。例如,人的身高在大量人群中的分布通常呈正态分布。在科学实验中,测量误差也常常呈现正态分布。在教育领域,大规模考试的成绩分布也往往接近正态分布。不同的正态分布曲线有不同的均值和标准差。均值决定了分布的中心位置,而标准差则决定了分布的宽窄程度。标准差越小,曲线越窄,数据越集中;标准差越大,曲线越宽,数据越分散。
长尾分布是指概率分布中,一端的尾巴很长很平坦。与正态分布不同,长尾分布的曲线是偏斜的,不对称。通常是右偏,即尾部在右侧延伸得很远。长尾分布的一个重要特点是少数高频,多数低频。少数几个事件发生的频率非常高,这部分称为头部;而绝大多数事件发生的频率非常低,这部分称为尾部。尽管尾部单个事件的概率很低,但由于尾部包含的事件数量巨大,它们的总和效应不容忽视。在长尾分布中,均值、中位数和众数通常不一致,这与正态分布有明显区别。
长尾分布在互联网和商业领域有广泛应用。在商品销售中,通常少数畅销品销量很高,但大量小众商品虽然单个销量低,总销量加起来也很可观。这就是著名的帕累托法则,或称80/20规则:20%的商品创造了80%的销量,而剩余80%的商品只创造了20%的销量。类似地,在网站访问中,少数热门页面访问量巨大,但大量长尾页面的总访问量也很显著。在语言学中,少数常用词出现频率极高,但绝大多数词汇出现频率很低。在收入分布中,少数人收入极高,多数人收入相对较低。这些都是长尾分布的典型应用场景。
让我们总结一下正态分布和长尾分布的主要区别。正态分布是钟形曲线,对称,数据集中在均值附近。而长尾分布是偏斜曲线,尾部延伸很长,呈现少数高频多数低频的特点。从形状和对称性来看,正态分布是对称的,而长尾分布是偏斜的。从数据集中度来看,正态分布的数据集中在均值附近,而长尾分布的数据集中在一端,即头部。从尾部特征来看,正态分布的尾部迅速衰减,而长尾分布的尾部衰减缓慢,延伸很远。简单来说,正态分布描述的是平均和对称的现象,而长尾分布描述的是少数占大头,多数聚长尾的现象。