Cos'è la varianza clusterizzata? (definizione & #038; esempio)


Nelle statistiche, la varianza dei cluster si riferisce semplicemente alla media di due o più varianze dei cluster.

Usiamo la parola “pool” per indicare che stiamo “raggruppando” due o più varianze di gruppo per ottenere un unico numero per la varianza comune tra i gruppi.

In pratica, la varianza aggregata viene utilizzata più spesso in un test t a due campioni , utilizzato per determinare se le medie di due popolazioni sono uguali o meno.

La varianza aggregata tra due campioni è generalmente indicata come sp 2 e viene calcolata come segue:

s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)

Quando le due dimensioni del campione (n 1 e n 2 ) sono uguali, la formula si semplifica come segue:

s p 2 = (s 1 2 + s 2 2 ) / 2

Quando calcolare il gap clusterizzato

Quando vogliamo confrontare due medie di popolazione, possiamo potenzialmente utilizzare due test statistici:

1. Test t a due campioni : questo test presuppone che le varianze tra i due campioni siano approssimativamente uguali. Se utilizziamo questo test, calcoliamo la varianza aggregata.

2. Test t di Welch : questo test non presuppone che le varianze tra i due campioni siano approssimativamente uguali. Se utilizziamo questo test, non calcoliamo la varianza aggregata. Usiamo invece una formula diversa.

Per determinare quale test utilizzare, utilizziamo la seguente regola pratica:

Regola generale: se il rapporto tra la varianza maggiore e la varianza minima è inferiore a 4, allora possiamo supporre che le varianze siano approssimativamente uguali e utilizzare il test t a due campioni.

Ad esempio, supponiamo che il campione 1 abbia una varianza di 24,5 e il campione 2 abbia una varianza di 15,2. Il rapporto tra la varianza campionaria più grande e la varianza campionaria più piccola verrebbe calcolato come segue:

Rapporto: 24,5 / 15,2 = 1,61

Essendo questo rapporto inferiore a 4, si potrebbe supporre che le differenze tra i due gruppi siano approssimativamente uguali. Quindi, utilizzeremmo il test t a due campioni, il che significa che calcoleremo la varianza aggregata.

Esempio di calcolo della deviazione raggruppata

Supponiamo di voler sapere se il peso medio di due diverse specie di tartarughe è uguale o meno. Per testarlo, raccogliamo un campione casuale di tartarughe da ciascuna popolazione con le seguenti informazioni:

Esempio 1:

  • Dimensione del campione n 1 = 40
  • Varianza campionaria s 1 2 = 18,5

Esempio 2:

  • Dimensione del campione n2 = 38
  • Varianza campionaria s 2 2 = 6,7

Ecco come calcolare la varianza aggregata tra i due campioni:

  • s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
  • s p 2 = ( (40-1)*18,5 + (38-1)*6,7 ) / (40+38-2)
  • s p 2 = (39*18,5 + 37*6,7) / (76) = 12,755

La varianza aggregata è 12.755 .

Si noti che il valore della varianza aggregata è compreso tra le due varianze originali di 18,5 e 6,7. Ciò ha senso dato che la varianza aggregata è solo una media ponderata delle due varianze campionarie.

Risorsa bonus: utilizza questo calcolatore della varianza aggregata per calcolare automaticamente la varianza aggregata tra due campioni.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *