Come calcolare la deviazione standard clusterizzata in r


Una deviazione standard aggregata è semplicemente una media ponderata delle deviazioni standard di due o più gruppi indipendenti.

Nelle statistiche, appare più comunemente nel test t a due campioni , che viene utilizzato per verificare se le medie di due popolazioni sono uguali o meno.

La formula per calcolare una deviazione standard clusterizzata per due gruppi è:

Deviazione standard aggregata = √ (n 1 -1)s 1 2 + (n 2 -1)s 2 2 / (n 1 +n 2 -2)

Oro:

  • n1 , n2 : dimensione del campione rispettivamente per il gruppo 1 e il gruppo 2.
  • s 1 , s 2 : deviazione standard rispettivamente per il gruppo 1 e il gruppo 2.

Gli esempi seguenti mostrano due metodi per calcolare una deviazione standard clusterizzata tra due gruppi in R.

Metodo 1: calcolare manualmente la deviazione standard clusterizzata

Supponiamo di avere i seguenti valori di dati per due campioni:

  • Campione 1 : 6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21
  • Campione 2 : 10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29

Il codice seguente mostra come calcolare la deviazione standard aggregata tra questi due campioni:

 #define two samples
data1 <- c(6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21)
data2 <- c(10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29)

#find sample standard deviation of each sample
s1 <- sd (data1)
s2 < -sd (data2)

#find sample size of each sample
n1 <- length (data1)
n2 <- length (data2)

#calculate pooled standard deviation
pooled <- sqrt (((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n1-2))

#view pooled standard deviation
pooled

[1] 5.789564

La deviazione standard aggregata risulta essere 5.789564 .

Metodo 2: calcolare la deviazione standard clusterizzata utilizzando un pacchetto

Un altro modo per calcolare la deviazione standard raggruppata tra due campioni in R è utilizzare la funzione sd_pooled() dal pacchetto effectize .

Il codice seguente mostra come utilizzare in pratica questa funzione:

 library (effectsize)

#define two samples
data1 <- c(6, 6, 7, 8, 8, 10, 11, 13, 15, 15, 16, 17, 19, 19, 21)
data2 <- c(10, 11, 13, 13, 15, 17, 17, 19, 20, 22, 24, 25, 27, 29, 29)

#calculate pooled standard deviation between two samples
sd_pooled(data1, data2)

[1] 5.789564

La deviazione standard aggregata risulta essere 5.789564 .

Tieni presente che questo corrisponde al valore calcolato manualmente nell’esempio precedente.

Risorse addizionali

Le seguenti esercitazioni forniscono ulteriori informazioni sul calcolo di una deviazione standard clusterizzata:

Un’introduzione alla deviazione standard clusterizzata
Calcolatore della deviazione standard clusterizzata

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *