Was ist clustervarianz? (definition & #038; beispiel)

Von Dr. Benjamin Anderson Juli 26, 2023 Führung Keine Kommentare

In der Statistik bezieht sich Clustervarianz einfach auf den Durchschnitt von zwei oder mehr Clustervarianzen.

Wir verwenden das Wort „gepoolt“, um anzuzeigen, dass wir zwei oder mehr Gruppenvarianzen „poolen“, um eine einzige Zahl für die gemeinsame Varianz zwischen den Gruppen zu erhalten.

In der Praxis wird die gepoolte Varianz am häufigsten in einem T-Test mit zwei Stichproben verwendet, mit dem ermittelt werden soll, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht.

Die gepoolte Varianz zwischen zwei Stichproben wird im Allgemeinen mit _sp ² bezeichnet und wie folgt berechnet:

s _p ² = ( (n ₁ -1)s ₁ ² + (n ₂ -1)s ₂ ² ) / (n ₁ +n ₂ -2)

Wenn die beiden Stichprobengrößen (n ₁ und n ₂ ) gleich sind, vereinfacht sich die Formel wie folgt:

s _p ² = (s ₁ ² + s ₂ ² ) / 2

Wann ist die Clusterlücke zu berechnen?

Wenn wir zwei Populationsmittelwerte vergleichen möchten, können wir möglicherweise zwei statistische Tests verwenden:

1. T-Test bei zwei Stichproben : Bei diesem Test wird davon ausgegangen, dass die Varianzen zwischen den beiden Stichproben ungefähr gleich sind. Wenn wir diesen Test verwenden, berechnen wir die gepoolte Varianz.

2. Welch-T-Test : Bei diesem Test wird nicht davon ausgegangen , dass die Varianzen zwischen den beiden Stichproben annähernd gleich sind. Wenn wir diesen Test verwenden, berechnen wir nicht die gepoolte Varianz. Stattdessen verwenden wir eine andere Formel.

Um zu bestimmen, welcher Test verwendet werden soll, verwenden wir die folgende Faustregel:

Allgemeine Regel: Wenn das Verhältnis der größten Varianz zur kleinsten Varianz weniger als 4 beträgt, können wir davon ausgehen, dass die Varianzen ungefähr gleich sind, und den t-Test bei zwei Stichproben verwenden.

Angenommen, Stichprobe 1 weist eine Varianz von 24,5 und Stichprobe 2 eine Varianz von 15,2 auf. Das Verhältnis der größten Stichprobenvarianz zur kleinsten Stichprobenvarianz würde wie folgt berechnet:

Verhältnis: 24,5 / 15,2 = 1,61

Da dieses Verhältnis weniger als 4 beträgt, könnte man davon ausgehen, dass die Unterschiede zwischen den beiden Gruppen ungefähr gleich sind. Wir würden also den Zwei-Stichproben-t-Test verwenden, was bedeutet, dass wir die gepoolte Varianz berechnen würden.

Beispiel für die Berechnung der gruppierten Abweichung

Angenommen, wir möchten wissen, ob das Durchschnittsgewicht zweier verschiedener Schildkrötenarten gleich ist oder nicht. Um dies zu testen, sammeln wir eine Zufallsstichprobe von Schildkröten aus jeder Population mit den folgenden Informationen:

Probe 1:

Stichprobengröße n ₁ = 40
Stichprobenvarianz s ₁ ² = 18,5

Probe 2:

Stichprobengröße n ₂ = 38
Stichprobenvarianz s ₂ ² = 6,7

So berechnen Sie die gepoolte Varianz zwischen den beiden Stichproben:

s _p ² = ( (n ₁ -1)s ₁ ² + (n ₂ -1)s ₂ ² ) / (n ₁ +n ₂ -2)
s _p ² = ( (40-1)*18,5 + (38-1)*6,7 ) / (40+38-2)
s _p ² = (39*18,5 + 37*6,7) / (76) = 12,755

Die gepoolte Varianz beträgt 12.755 .

Beachten Sie, dass der gepoolte Varianzwert zwischen den beiden ursprünglichen Varianzen von 18,5 und 6,7 liegt. Dies ist sinnvoll, da die gepoolte Varianz nur ein gewichteter Durchschnitt der beiden Stichprobenvarianzen ist.

Bonusressource: Verwenden Sie diesen Rechner für die gepoolte Varianz , um die gepoolte Varianz zwischen zwei Stichproben automatisch zu berechnen.

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Wann ist die Clusterlücke zu berechnen?

Beispiel für die Berechnung der gruppierten Abweichung

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen