So berechnen sie die geclusterte standardabweichung in r
Eine gepoolte Standardabweichung ist einfach ein gewichteter Durchschnitt der Standardabweichungen von zwei oder mehr unabhängigen Gruppen.
In der Statistik erscheint es am häufigsten im Zwei-Stichproben-t-Test , der verwendet wird, um zu testen, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht.
Die Formel zur Berechnung einer gruppierten Standardabweichung für zwei Gruppen lautet:
Gepoolte Standardabweichung = √ (n 1 -1)s 1 2 + (n 2 -1)s 2 2 / (n 1 +n 2 -2)
Gold:
- n1 , n2 : Stichprobengröße für Gruppe 1 bzw. Gruppe 2.
- s 1 , s 2 : Standardabweichung für Gruppe 1 bzw. Gruppe 2.
Die folgenden Beispiele zeigen zwei Methoden zur Berechnung einer geclusterten Standardabweichung zwischen zwei Gruppen in R.
Methode 1: Berechnen Sie die gruppierte Standardabweichung manuell
Angenommen, wir haben die folgenden Datenwerte für zwei Stichproben:
- Probe 1 : 6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21
- Probe 2 : 10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29
Der folgende Code zeigt, wie die gepoolte Standardabweichung zwischen diesen beiden Stichproben berechnet wird:
#define two samples data1 <- c(6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21) data2 <- c(10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29) #find sample standard deviation of each sample s1 <- sd (data1) s2 < -sd (data2) #find sample size of each sample n1 <- length (data1) n2 <- length (data2) #calculate pooled standard deviation pooled <- sqrt (((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n1-2)) #view pooled standard deviation pooled [1] 5.789564
Die gepoolte Standardabweichung beträgt 5,789564 .
Methode 2: Berechnen Sie die geclusterte Standardabweichung mithilfe eines Pakets
Eine andere Möglichkeit, die gepoolte Standardabweichung zwischen zwei Stichproben in R zu berechnen, ist die Verwendung der Funktion sd_pooled() aus dem Paket effectize .
Der folgende Code zeigt, wie man diese Funktion in der Praxis nutzt:
library (effectsize) #define two samples data1 <- c(6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21) data2 <- c(10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29) #calculate pooled standard deviation between two samples sd_pooled(data1, data2) [1] 5.789564
Die gepoolte Standardabweichung beträgt 5,789564 .
Beachten Sie, dass dies mit dem Wert übereinstimmt, den wir im vorherigen Beispiel manuell berechnet haben.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten weitere Informationen zur Berechnung einer gruppierten Standardabweichung:
Eine Einführung in die Clustered Standard Deviation
Geclusterter Standardabweichungsrechner