样本量大于30可以认为是正态分布吗

MinitabUG 2022-06-24 2585

今日头条

1151人已加入

描述

我经常会被问到这么一个问题：样本量多大就不用进行正态性检验了。殊不知，这问题的本身就是错误的，并不是样本大，就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个（甚至更多）自然数，组成一个样本，那么这个样本的分布就不是正态分布，因为1-1000服从的是均匀分布。另外，数据的分布基于形成的机理，有的分布天生就非正态（如寿命数据）。

但有些朋友，并不觉得这是一个错误的问题，甚至在他们的学习中还流传着这么一个说法：样本量大于30就可以认为是服从正态分布。当你向他问为什么的时候，会得到一个专业的解释——中心极限定理。

中心极限定理

中心极限定理（Central Limit Theorem）是统计学中最重要的结论之一。在这里，我并不想给出中心极限定理专业的定义，只需要了解它告诉我们：来自某总体的一个样本，无论该总体服从什么分布，只要样本容量足够大，其样本均值都近似服从正态分布。

请注意这里的说法：“样本均值“近似正态，而不是样本本身服从正态（不是说你抽了30个样品组成的样本数据就正态）。这里又有一个大家疑惑的地方，样本容量足够大，多大才是足够大？这个问题的答案和总体分布的形状相关，如果样本本是来自近似对称分布的总体，那么当样本量取相当小（如样本量取5）的值的时候，正态逼近的结果也会非常好。然后，如果总体的分布严重倾斜，则样本量必须取相当大的值。根据检验，对于大多数总体来说，样本容量取30或者更大，就足以得到令人满意的正态逼近结果。我想这可能就是错误认为样本量大于30就认为是正态分布的出处了。

模拟掷骰子展示中心极限定理

为了展示中心极限定理，模拟多次投掷骰子来说明。

假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布（图1）。

现在假设您将投掷 2 次，并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下，平均值的分布已经呈现出了土堆形？

假设您现在投掷骰子三次，然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样，分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化？

让我们投掷骰子五次，并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式？

让我们继续增加平均投掷次数。此时您将投掷 10 次，并采用 10 次投掷的平均值。这种分布如图 5 所示。

现在，随着您增加投掷次数，将看到两个现象。首先，您会看到，平均分布的形状开始与正态分布的形状相似。其次，您会看到，随着投掷次数的增加，分布变得越来越窄。让我们继续增加投掷次数。此时，您将投掷骰子 20 次。这种分布如图 6 所示。

到现在，您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量，以强化这种认知。此时，您将投掷骰子 30 次。这种分布如图 7 所示。

让我们看看所呈现的情况，在一个图中绘制大小为 2、5、10、20、30 的样本的直方图，以查看变化的分布。

从上面的模拟结果，可以知道，当样本量大于30的时候，那么样本均值（取了1000次样本，得到1000个均值）的分布基本呈正态分布。

另外该定理还指出，如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准差 sigma(y)，然后在 n 较大时，样本均值的分布将近似呈正态分布，并且均值等于 mu(y)，标准差等于 (sigma(y))/sqrt(n)。

审核编辑：符乾江

打开APP阅读更多精彩内容