样本相对于样本均值的比例:差值
统计学中经常使用的两个术语是样本比例和样本平均值。
这是两个术语之间的区别:
样本比例:样本中具有某种特征的观测值所占的比例。
通常记为 p̂,计算公式如下:
p̂ = x / n
金子:
- x:样本中具有某种特征的观测值的数量。
- n:样本中观测值的总数。
样本均值:样本中的平均值。
通常记为x ,其计算如下:
x = Σx i / n
金子:
- Σ:表示“和”的符号
- x i :样本中第 i 个观测值的值
- n:样本量
样本与样本均值的比例:何时使用每个样本
使用样本比例和样本均值的原因不同:
样本比例:用于了解样本中具有某种特征的观测值所占的比例。
例如,我们可以在以下每种情况下使用样本比例:
- 政治:研究人员可能会调查某个城市的 500 人,以了解在即将举行的选举中支持某个候选人的居民比例。
- 生物学:生物学家可以收集 100 只海龟的数据,以了解其中有多少比例的海龟因污染而受到损害。
- 体育:记者可能会调查 1,000 名大学篮球运动员,以了解他们中左撇子投篮的比例。
样本平均值:用于了解样本的平均值。
例如,我们可以在以下每种情况下使用样本均值:
- 人口统计数据:经济学家可以收集某个城市5000个家庭的数据来估算家庭年平均收入。
- 植物学:植物学家可以对同一物种的 50 株植物进行测量,以估计平均植物高度(以英寸为单位)。
- 营养:营养师可能会对医院的 100 人进行调查,以估计居民每天消耗的平均卡路里数。
根据您感兴趣的问题,使用样本比例或样本均值来回答问题可能更有意义。
使用样本比例和样本均值来估计总体参数
样本比例和样本均值用于估计总体参数。
估算比例示例
我们使用样本比例来估计总体比例。例如,我们可能有兴趣了解某个城市支持新法律的居民比例。
由于对全市2万名居民进行调查成本太高且耗时,因此我们改为调查500名居民,并计算样本中支持新法的居民比例。
然后,我们使用这个样本比例作为对整个城市中采用新法律的居民比例的最佳估计。然而,由于我们的样本比例不太可能与总体比例完全匹配,因此我们经常对比例使用置信区间——我们认为包含具有一定置信度的真实总体比例的一系列值。
平均值作为估计值的示例
我们使用样本均值来估计总体的均值。例如,我们可能有兴趣了解某种植物物种的平均高度。
由于测量某个区域内所有 10,000 株植物的高度过于昂贵且耗时,因此我们改为测量 150 株植物的高度,并使用样本平均值作为总体平均值的最佳估计。
然而,由于我们的样本均值不太可能与总体均值完全匹配,因此我们经常对均值使用置信区间——我们认为包含具有一定置信度的真实总体均值的一系列值。