Was ist clustervarianz? (definition & #038; beispiel)
In der Statistik bezieht sich Clustervarianz einfach auf den Durchschnitt von zwei oder mehr Clustervarianzen.
Wir verwenden das Wort „gepoolt“, um anzuzeigen, dass wir zwei oder mehr Gruppenvarianzen „poolen“, um eine einzige Zahl für die gemeinsame Varianz zwischen den Gruppen zu erhalten.
In der Praxis wird die gepoolte Varianz am häufigsten in einem T-Test mit zwei Stichproben verwendet, mit dem ermittelt werden soll, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht.
Die gepoolte Varianz zwischen zwei Stichproben wird im Allgemeinen mit sp 2 bezeichnet und wie folgt berechnet:
s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
Wenn die beiden Stichprobengrößen (n 1 und n 2 ) gleich sind, vereinfacht sich die Formel wie folgt:
s p 2 = (s 1 2 + s 2 2 ) / 2
Wann ist die Clusterlücke zu berechnen?
Wenn wir zwei Populationsmittelwerte vergleichen möchten, können wir möglicherweise zwei statistische Tests verwenden:
1. T-Test bei zwei Stichproben : Bei diesem Test wird davon ausgegangen, dass die Varianzen zwischen den beiden Stichproben ungefähr gleich sind. Wenn wir diesen Test verwenden, berechnen wir die gepoolte Varianz.
2. Welch-T-Test : Bei diesem Test wird nicht davon ausgegangen , dass die Varianzen zwischen den beiden Stichproben annähernd gleich sind. Wenn wir diesen Test verwenden, berechnen wir nicht die gepoolte Varianz. Stattdessen verwenden wir eine andere Formel.
Um zu bestimmen, welcher Test verwendet werden soll, verwenden wir die folgende Faustregel:
Allgemeine Regel: Wenn das Verhältnis der größten Varianz zur kleinsten Varianz weniger als 4 beträgt, können wir davon ausgehen, dass die Varianzen ungefähr gleich sind, und den t-Test bei zwei Stichproben verwenden.
Angenommen, Stichprobe 1 weist eine Varianz von 24,5 und Stichprobe 2 eine Varianz von 15,2 auf. Das Verhältnis der größten Stichprobenvarianz zur kleinsten Stichprobenvarianz würde wie folgt berechnet:
Verhältnis: 24,5 / 15,2 = 1,61
Da dieses Verhältnis weniger als 4 beträgt, könnte man davon ausgehen, dass die Unterschiede zwischen den beiden Gruppen ungefähr gleich sind. Wir würden also den Zwei-Stichproben-t-Test verwenden, was bedeutet, dass wir die gepoolte Varianz berechnen würden.
Beispiel für die Berechnung der gruppierten Abweichung
Angenommen, wir möchten wissen, ob das Durchschnittsgewicht zweier verschiedener Schildkrötenarten gleich ist oder nicht. Um dies zu testen, sammeln wir eine Zufallsstichprobe von Schildkröten aus jeder Population mit den folgenden Informationen:
Probe 1:
- Stichprobengröße n 1 = 40
- Stichprobenvarianz s 1 2 = 18,5
Probe 2:
- Stichprobengröße n 2 = 38
- Stichprobenvarianz s 2 2 = 6,7
So berechnen Sie die gepoolte Varianz zwischen den beiden Stichproben:
- s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- s p 2 = ( (40-1)*18,5 + (38-1)*6,7 ) / (40+38-2)
- s p 2 = (39*18,5 + 37*6,7) / (76) = 12,755
Die gepoolte Varianz beträgt 12.755 .
Beachten Sie, dass der gepoolte Varianzwert zwischen den beiden ursprünglichen Varianzen von 18,5 und 6,7 liegt. Dies ist sinnvoll, da die gepoolte Varianz nur ein gewichteter Durchschnitt der beiden Stichprobenvarianzen ist.
Bonusressource: Verwenden Sie diesen Rechner für die gepoolte Varianz , um die gepoolte Varianz zwischen zwei Stichproben automatisch zu berechnen.