Stichprobenmittelwert versus populationsmittelwert: was ist der unterschied?


In der Statistik wollen wir oft Fragen beantworten wie:

  • Wie hoch ist das durchschnittliche Haushaltseinkommen in einer bestimmten Stadt?
  • Was ist das durchschnittliche Gewicht einer bestimmten Schildkrötenart?
  • Wie hoch ist die durchschnittliche Besucherzahl bei College-Football-Spielen?

In jedem Szenario möchten wir eine Frage zu einer Population beantworten, die alle möglichen Einzelelemente repräsentiert, die wir messen möchten.

Anstatt Daten zu jedem Einzelnen in einer Population zu sammeln, sammeln wir jedoch Daten zu einer Stichprobe der Population, die einen Teil der Gesamtbevölkerung darstellt.

Beispielsweise möchten wir möglicherweise das Durchschnittsgewicht einer bestimmten Schildkrötenart kennen, deren Gesamtpopulation 800 Schildkröten umfasst.

Da es zu lange dauern würde, jede Schildkröte in der Population zu lokalisieren und zu wiegen, sammeln wir stattdessen eine einfache Zufallsstichprobe von 30 Schildkröten und messen ihr Gewicht:

Durchschnittliches Beispielbeispiel

Wir könnten dann das Durchschnittsgewicht dieser Schildkrötenprobe verwenden, um das Durchschnittsgewicht aller Schildkröten in der Population abzuschätzen.

So berechnen Sie den Stichprobenmittelwert

Die Formel zur Berechnung des Stichprobenmittelwerts, oft mit x bezeichnet, lautet wie folgt:

x = Σx i / n

Gold:

  • Σ: Ein raffiniertes griechisches Symbol mit der Bedeutung „Summe“
  • x i : Der Wert der i-ten Beobachtung im Datensatz
  • n: Die Stichprobengröße

Angenommen, wir sammeln eine Stichprobe von 10 Schildkröten mit den folgenden Gewichten (in Pfund):

  • 70, 80, 80, 85, 90, 95, 110, 120, 140, 150

Der Stichprobenmittelwert würde wie folgt berechnet:

  • x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102

Warum der Stichprobenmittelwert unverzerrt ist

Im Fachjargon der Statistik würden wir sagen, dass der Stichprobenmittelwert eine Statistik ist, während der Populationsmittelwert ein Parameter ist.

Hier ist der Unterschied zwischen den beiden Begriffen:

Eine Statistik ist eine Zahl, die bestimmte Merkmale einer Stichprobe beschreibt.

Ein Parameter ist eine Zahl, die ein Merkmal einer Population beschreibt.

Der Parameter ist der Wert, den wir tatsächlich messen möchten, aber die Statistik ist der Wert, den wir verwenden, um den Wert des Parameters zu schätzen, da die Statistik viel einfacher zu erhalten ist.

Wenn wir eine Methode wie die einfache Zufallsstichprobe verwenden, um eine Stichprobe zu erhalten, sagen wir, dass der Stichprobenmittelwert ein unvoreingenommener Schätzer des Grundgesamtheitsmittelwerts ist.

Mit anderen Worten: Wir haben keinen Grund zu der Annahme, dass der Stichprobenmittelwert den wahren Bevölkerungsmittelwert unter- oder überschätzen würde.

Der Grund dafür ist, dass bei Verwendung einer Methode wie der einfachen Zufallsstichprobe jedes Mitglied der Bevölkerung die gleiche Chance hat, in die Stichprobe aufgenommen zu werden, was bedeutet, dass die Stichprobe wahrscheinlich eine „Miniversion“ der Gesamtbevölkerung ist .

Wir würden sagen, dass die Stichprobe repräsentativ für die Gesamtpopulation ist, was bedeutet, dass der Stichprobenmittelwert eine gute Schätzung des Populationsmittelwerts sein sollte, sofern die Stichprobengröße groß genug ist.

Zur Verwendung von Konfidenzintervallen mit dem Stichprobenmittelwert

Obwohl der Stichprobenmittelwert eine unvoreingenommene Schätzung des Grundgesamtheitsmittelwerts darstellt, ist es unwahrscheinlich, dass er genau mit dem Grundgesamtheitsmittelwert übereinstimmt.

Wenn wir beispielsweise eine Stichprobe von Schildkröten verwenden möchten, um das Durchschnittsgewicht einer Schildkrötenpopulation abzuschätzen, können wir eine Stichprobe mit Schildkröten mit geringem Gewicht oder vielleicht eine Stichprobe mit schweren Schildkröten wählen.

Um diese Unsicherheit rund um unsere Schätzung des Bevölkerungsmittelwerts zu erfassen, können wir einKonfidenzintervall erstellen.

Ein Konfidenzintervall ist ein Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält.

Beispielsweise könnten wir eine Probe von 30 Schildkröten entnehmen und feststellen, dass das Durchschnittsgewicht dieser Probe 102 Pfund beträgt. Wenn wir dann ein 95 %-Konfidenzintervall konstruieren, könnten wir feststellen, dass das Intervall wie folgt aussieht:

95 %-Konfidenzintervall = [98,5, 105,5]

Wir würden dies so interpretieren, dass eine Wahrscheinlichkeit von 95 % besteht, dass das Konfidenzintervall von [98,5, 105,5] das wahre Durchschnittsgewicht der Schildkrötenpopulation enthält.

Dieses Konfidenzintervall ist nützlicher als der einfache Stichprobenmittelwert, da es uns einen Wertebereich liefert, innerhalb dessen der wahre Mittelwert der Grundgesamtheit wahrscheinlich liegen wird.

Zusätzliche Ressourcen

Bevölkerung vs. Beispiel: Was ist der Unterschied?
Statistik vs. Parameter: Was ist der Unterschied?
Eine Einführung in Konfidenzintervalle

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert