带替换或不带替换的采样
在统计学中,我们通常希望收集数据,以便能够回答某些研究问题。
例如,我们可能想回答以下问题:
1.俄亥俄州辛辛那提的家庭收入中位数是多少?
2.某个海龟种群的平均重量是多少?
3.某县支持某项法律的居民比例是多少?
在每种情况下,我们都想回答一个关于总体的问题,它代表了我们想要测量的所有可能的单个元素。
然而,我们通常只收集代表人口一部分的人口样本的数据,而不是收集人口中每个人的数据。
样本采集有两种不同的方式:放回抽样和无放回抽样。
本教程解释了这两种方法之间的区别以及如何在实践中使用每种方法的示例。
置换取样
假设帽子里有 5 个学生的名字:
- 安迪
- 卡尔
- 泰勒
- 贝卡
- 杰西卡
假设我们想抽取 2 名学生作为替换样本。
在第一张图中,我们可能会选择泰勒的名字。然后我们将他的名字放回帽子中并再次抽奖。在第二张图中,我们可能会再次选择泰勒的名字。所以我们的样本是:{Tyler,Tyler}
这是通过替换获取样本的示例,因为我们替换了每次绘图后选择的名称。
当我们进行放回抽样时,样本元素是独立的,因为一次抛硬币的结果不会受到前一次抛硬币的影响。
例如,在第一张图上选择泰勒这个名字的概率是 1/5,在第二张图上选择名字泰勒的概率也是 1/5。第一次抽奖的结果不影响第二次抽奖结果的概率。
放回抽样用于统计和机器学习中的许多不同场景,包括:
在每种方法中,都使用放回抽样,因为它允许我们多次使用相同的数据集来构建模型,而不是收集新数据,这可能既耗时又昂贵。
取样无需更换
再次假设帽子里有 5 个学生的名字:
- 安迪
- 卡尔
- 泰勒
- 贝卡
- 杰西卡
假设我们要抽取 2 名学生作为样本,且不进行放回。
在第一张图中,我们可能会选择泰勒的名字。然后我们把他的名字放在一边。在第二张图中,我们可以选择名字安迪。所以我们的样本是:{Tyler, Andy}
这是一个无需替换即可获取样本的示例,因为我们不会替换每次绘图后选择的名称。
当我们不放回抽样时,样本元素是相关的,因为一次抛硬币的结果会受到前一次抛硬币的影响。
例如,在第一张图中选择泰勒这个名字的概率是1/5,在第二张图中选择安迪这个名字的概率是1/4。第一次抽奖的结果影响第二次抽奖结果的概率。
当我们想要从总体中随机选择样本时,我们会使用无放回抽样的方法。
例如,如果我们要估计俄亥俄州辛辛那提的家庭收入中位数,则总共可能有 500,000 个不同的家庭。
因此,我们可能想要收集 2,000 个家庭的随机样本,但我们不希望任何给定家庭的数据在样本中出现两次,因此我们将进行无放回抽样。
换句话说,一旦我们选择了某个家庭纳入样本,我们就不想再有机会选择该家庭纳入样本。