Bemusterung mit ersatz oder ohne ersatz
In der Statistik wollen wir oft Daten sammeln, um bestimmte Forschungsfragen beantworten zu können.
Beispielsweise möchten wir möglicherweise die folgenden Fragen beantworten:
1. Wie hoch ist das mittlere Haushaltseinkommen in Cincinnati, Ohio?
2. Wie hoch ist das durchschnittliche Gewicht einer bestimmten Schildkrötenpopulation?
3. Wie viel Prozent der Einwohner eines bestimmten Landkreises unterstützen ein bestimmtes Gesetz?
In jedem Szenario möchten wir eine Frage zu einer Population beantworten, die alle möglichen Einzelelemente repräsentiert, die wir messen möchten.
Anstatt jedoch Daten über jedes Individuum in einer Population zu sammeln, sammeln wir in der Regel nur Daten über eine Stichprobe der Population, die einen Teil der Population darstellt.
Es gibt zwei verschiedene Möglichkeiten, Proben zu entnehmen: Probenahme mit Ersatz und Probenahme ohne Ersatz .
In diesem Tutorial werden die Unterschiede zwischen den beiden Methoden erläutert und Beispiele für deren praktische Anwendung gegeben.
Probenahme mit Ersatz
Angenommen, wir haben die Namen von fünf Schülern mit Hut:
- Andy
- Carl
- Tyler
- Becca
- Jessica
Angenommen, wir möchten eine Stichprobe von 2 Studenten mit Ersatz nehmen.
In der ersten Zeichnung könnten wir Tylers Namen auswählen. Dann steckten wir seinen Namen wieder in den Hut und zeichneten erneut. In der zweiten Zeichnung könnten wir Tylers Namen erneut auswählen. Unser Beispiel wäre also: {Tyler, Tyler}
Dies ist ein Beispiel für den Erhalt eines Musters mit Ersatz, da wir den von uns gewählten Namen nach jeder Zeichnung ersetzen.
Bei der Stichprobe mit Ersetzung sind die Stichprobenelemente unabhängig , da das Ergebnis eines Münzwurfs nicht durch den vorherigen Münzwurf beeinflusst wird.
Beispielsweise beträgt die Wahrscheinlichkeit, den Namen Tyler zu wählen, bei der ersten Ziehung 1/5 und bei der zweiten Ziehung erneut 1/5. Das Ergebnis der ersten Ziehung hat keinen Einfluss auf die Wahrscheinlichkeit des Ergebnisses der zweiten Ziehung.
Stichprobenziehung mit Ersatz wird in vielen verschiedenen Szenarien in der Statistik und beim maschinellen Lernen eingesetzt, darunter:
- Grundierung
- Absacken
- Eine einfache Einführung zur Förderung des maschinellen Lernens
- Eine einfache Einführung in Random Forests
Bei jeder dieser Methoden wird die Stichprobenziehung mit Ersetzung verwendet, da wir so denselben Datensatz mehrmals zum Erstellen von Modellen verwenden können, anstatt neue Daten zu sammeln, was zeitaufwändig und teuer sein kann.
Probenahme ohne Ersatz
Nehmen wir noch einmal an, wir haben die Namen von fünf Schülern in einem Hut:
- Andy
- Carl
- Tyler
- Becca
- Jessica
Angenommen, wir wollen eine Stichprobe von 2 Schülern ersatzlos ziehen.
In der ersten Zeichnung könnten wir Tylers Namen auswählen. Wir würden dann seinen Namen beiseite lassen. In der zweiten Zeichnung konnten wir den Namen Andy auswählen. Unser Beispiel wäre also: {Tyler, Andy}
Dies ist ein Beispiel für den Erhalt eines ersatzlosen Musters, da wir den von uns gewählten Namen nicht nach jeder Zeichnung ersetzen.
Wenn wir eine Stichprobe ohne Ersatz durchführen, sind die Stichprobenelemente abhängig , da das Ergebnis eines Münzwurfs durch den vorherigen Münzwurf beeinflusst wird.
Beispielsweise beträgt die Wahrscheinlichkeit, in der ersten Ziehung den Namen Tyler zu wählen, 1/5 und in der zweiten Ziehung beträgt die Wahrscheinlichkeit, den Namen Andy zu wählen, 1/4. Das Ergebnis der ersten Ziehung beeinflusst die Wahrscheinlichkeit des Ergebnisses der zweiten Ziehung.
Die ersatzlose Stichprobe ist die Methode, die wir verwenden, wenn wir eine Zufallsstichprobe aus einer Grundgesamtheit auswählen möchten.
Wenn wir beispielsweise das mittlere Haushaltseinkommen in Cincinnati, Ohio, schätzen möchten, könnte es insgesamt 500.000 verschiedene Haushalte geben.
Wir möchten also vielleicht eine Zufallsstichprobe von 2.000 Haushalten sammeln, aber wir möchten nicht, dass die Daten eines bestimmten Haushalts zweimal in der Stichprobe erscheinen, also würden wir eine Stichprobe ohne Ersatz durchführen.
Mit anderen Worten: Sobald wir einen bestimmten Haushalt für die Aufnahme in die Stichprobe ausgewählt haben, möchten wir keine Chance mehr haben, diesen Haushalt erneut für die Aufnahme auszuwählen.