样本均值与总体均值:有什么区别?
在统计中,我们通常想要回答以下问题:
- 某城市的家庭平均收入是多少?
- 某种乌龟的平均重量是多少?
- 大学橄榄球比赛的平均上座率是多少?
在每种情况下,我们都想回答一个关于总体的问题,它代表了我们想要测量的所有可能的单个元素。
然而,我们不是收集人口中每个个体的数据,而是收集人口样本的数据,该样本代表总人口的一部分。
例如,我们可能想知道某种乌龟品种的平均重量,该乌龟种群总数为 800 只。
由于定位和称量种群中每只海龟的时间太长,因此我们收集了 30 只海龟的简单随机样本并测量了它们的重量:
然后,我们可以使用该海龟样本的平均重量来估计种群中所有海龟的平均重量。
如何计算样本均值
计算样本均值的公式(通常表示为x )如下:
x = Σx i / n
金子:
- Σ:一个复杂的希腊符号,意思是“总和”
- x i :数据集中第 i 个观测值的值
- n:样本量
例如,假设我们收集了 10 只海龟的样本,其重量如下(以磅为单位):
- 70、80、80、85、90、95、110、120、140、150
样本均值计算如下:
- x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
为什么样本均值是无偏的
用统计学术语来说,我们会说样本均值是一个统计量,而总体均值是一个参数。
这是两个术语之间的区别:
统计量是描述样本某些特征的数字。
参数是描述总体特征的数字。
参数是我们实际想要测量的值,但统计量是我们用来估计参数值的值,因为统计量更容易获得。
当我们使用简单随机抽样等方法来获取样本时,我们说样本均值是总体均值的无偏估计。
换句话说,我们没有理由相信样本均值会低估或高估真实总体均值。
原因是,当我们使用简单随机抽样等方法时,总体中的每个成员都有平等的机会被纳入样本,这意味着样本很可能是总体总体的“迷你版” 。
我们会说样本代表了总体,这意味着假设样本量足够大,样本均值应该是总体均值的良好估计。
关于使用样本平均值的置信区间
尽管样本均值提供了总体均值的无偏估计,但它不太可能与总体均值完全匹配。
例如,如果我们想使用海龟样本来估计海龟种群的平均重量,我们可以选择充满轻重量海龟的样本,也可能选择充满重海龟的样本。
为了捕获总体平均值估计的这种不确定性,我们可以创建一个置信区间。
置信区间是可能包含具有一定置信水平的总体参数的值范围。
例如,我们可能收集 30 只海龟的样本,发现该样本的平均重量为 102 磅。如果我们构建一个 95% 置信区间,我们可能会发现该区间为:
95% 置信区间 = [98.5, 105.5]
我们将此解释为意味着 [98.5, 105.5] 的置信区间有 95% 的可能性包含海龟种群的真实平均体重。
这个置信区间比简单样本均值更有用,因为它为我们提供了一个值范围,真实总体均值可能位于其中。