Cos'è la varianza clusterizzata? (definizione & #038; esempio)
Nelle statistiche, la varianza dei cluster si riferisce semplicemente alla media di due o più varianze dei cluster.
Usiamo la parola “pool” per indicare che stiamo “raggruppando” due o più varianze di gruppo per ottenere un unico numero per la varianza comune tra i gruppi.
In pratica, la varianza aggregata viene utilizzata più spesso in un test t a due campioni , utilizzato per determinare se le medie di due popolazioni sono uguali o meno.
La varianza aggregata tra due campioni è generalmente indicata come sp 2 e viene calcolata come segue:
s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
Quando le due dimensioni del campione (n 1 e n 2 ) sono uguali, la formula si semplifica come segue:
s p 2 = (s 1 2 + s 2 2 ) / 2
Quando calcolare il gap clusterizzato
Quando vogliamo confrontare due medie di popolazione, possiamo potenzialmente utilizzare due test statistici:
1. Test t a due campioni : questo test presuppone che le varianze tra i due campioni siano approssimativamente uguali. Se utilizziamo questo test, calcoliamo la varianza aggregata.
2. Test t di Welch : questo test non presuppone che le varianze tra i due campioni siano approssimativamente uguali. Se utilizziamo questo test, non calcoliamo la varianza aggregata. Usiamo invece una formula diversa.
Per determinare quale test utilizzare, utilizziamo la seguente regola pratica:
Regola generale: se il rapporto tra la varianza maggiore e la varianza minima è inferiore a 4, allora possiamo supporre che le varianze siano approssimativamente uguali e utilizzare il test t a due campioni.
Ad esempio, supponiamo che il campione 1 abbia una varianza di 24,5 e il campione 2 abbia una varianza di 15,2. Il rapporto tra la varianza campionaria più grande e la varianza campionaria più piccola verrebbe calcolato come segue:
Rapporto: 24,5 / 15,2 = 1,61
Essendo questo rapporto inferiore a 4, si potrebbe supporre che le differenze tra i due gruppi siano approssimativamente uguali. Quindi, utilizzeremmo il test t a due campioni, il che significa che calcoleremo la varianza aggregata.
Esempio di calcolo della deviazione raggruppata
Supponiamo di voler sapere se il peso medio di due diverse specie di tartarughe è uguale o meno. Per testarlo, raccogliamo un campione casuale di tartarughe da ciascuna popolazione con le seguenti informazioni:
Esempio 1:
- Dimensione del campione n 1 = 40
- Varianza campionaria s 1 2 = 18,5
Esempio 2:
- Dimensione del campione n2 = 38
- Varianza campionaria s 2 2 = 6,7
Ecco come calcolare la varianza aggregata tra i due campioni:
- s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- s p 2 = ( (40-1)*18,5 + (38-1)*6,7 ) / (40+38-2)
- s p 2 = (39*18,5 + 37*6,7) / (76) = 12,755
La varianza aggregata è 12.755 .
Si noti che il valore della varianza aggregata è compreso tra le due varianze originali di 18,5 e 6,7. Ciò ha senso dato che la varianza aggregata è solo una media ponderata delle due varianze campionarie.
Risorsa bonus: utilizza questo calcolatore della varianza aggregata per calcolare automaticamente la varianza aggregata tra due campioni.