Qual è il presupposto di indipendenza in statistica?


Molti test statistici presuppongono che le osservazioni siano indipendenti. Ciò significa che nessuna osservazione in un set di dati è correlata tra loro o si influenza in alcun modo.

Ad esempio, supponiamo di voler verificare se esiste o meno una differenza di peso medio tra due specie di gatti. Se misurassimo il peso di 10 gatti della specie A e di 10 gatti della specie B, violeremmo il presupposto di indipendenza se ciascuno dei gruppi di gatti provenisse dalla stessa cucciolata.

È possibile che la mamma gatta della specie A avesse semplicemente tutti gattini di peso basso mentre la mamma gatta della specie B avesse gattini pesanti. A questo proposito, le osservazioni di ciascun campione non sono indipendenti l’una dall’altra.

Esistono tre tipi comuni di test statistici che fanno supporre questa indipendenza:

1. Test t a due campioni

2. ANOVA (Analisi della varianza)

3. Regressione lineare

Nelle sezioni seguenti, spieghiamo perché viene fatta questa ipotesi per ciascun tipo di test e come determinare se questa ipotesi è soddisfatta o meno.

Assunzione di indipendenza nei test t

Un t-test a due campioni viene utilizzato per verificare se le medie di due popolazioni sono uguali o meno.

Presupposto: questo tipo di test presuppone che le osservazioni all’interno di ciascun campione siano indipendenti l’una dall’altra e che anche le osservazioni tra i campioni siano indipendenti l’una dall’altra.

Testare questa ipotesi: il modo più semplice per testare questa ipotesi è verificare che ciascuna osservazione appaia solo una volta in ciascun campione e che le osservazioni in ciascun campione siano state raccolte mediante campionamento casuale.

Assunzione di indipendenza nell’ANOVA

Un’ANOVA viene utilizzata per determinare se esiste o meno una differenza significativa tra le medie di tre o più gruppi indipendenti.

Presupposto: un’ANOVA presuppone che le osservazioni in ciascun gruppo siano indipendenti l’una dall’altra e che le osservazioni all’interno dei gruppi siano state ottenute da un campione casuale.

Testare questa ipotesi: simile a un t-test, il modo più semplice per testare questa ipotesi è verificare che ciascuna osservazione appaia solo una volta in ciascun campione e che le osservazioni in ciascun campione siano state raccolte mediante campionamento casuale.

Indipendenza nella regressione ipotizzata

La regressione lineare viene utilizzata per comprendere la relazione tra una o più variabili predittive e una variabile di risposta .

Presupposto: la regressione lineare presuppone che i residui del modello adattato siano indipendenti.

Testare questa ipotesi: il modo più semplice per testare questa ipotesi è guardare un grafico dei residui della serie temporale, che è un grafico dei residui rispetto al tempo. Idealmente, la maggior parte delle autocorrelazioni residue dovrebbe rientrare nelle bande di confidenza del 95% attorno allo zero, che si trovano a circa +/- 2 sulla radice quadrata di n , dove n è la dimensione del campione. Puoi anche verificare formalmente se questo presupposto è soddisfatto utilizzando il test di Durbin-Watson .

Fonti comuni di non indipendenza

Esistono tre fonti comuni di non indipendenza nei set di dati:

1. Le osservazioni sono chiuse insieme nel tempo.

Ad esempio, un ricercatore potrebbe raccogliere dati sulla velocità media delle auto su una determinata strada. Se sceglie di monitorare la velocità di sera, potrebbe scoprire che la velocità media è molto più alta di quanto si aspettasse semplicemente perché tutti gli automobilisti stanno correndo a casa dal lavoro.

Questi dati violano il presupposto che ciascuna osservazione sia indipendente. Poiché ogni osservazione è stata osservata alla stessa ora del giorno, è probabile che la velocità di ciascuna auto sia simile.

2. Le osservazioni sono chiuse insieme nello spazio.

Ad esempio, un ricercatore potrebbe raccogliere dati sul reddito annuale di persone che vivono tutte nello stesso quartiere ad alto reddito perché è conveniente.

A questo proposito, è probabile che tutte le persone incluse nel campione di dati abbiano redditi simili poiché vivono tutte in stretta vicinanza l’una con l’altra. Ciò viola il presupposto che ciascuna osservazione sia indipendente.

3. Le osservazioni compaiono più volte nello stesso set di dati.

Ad esempio, un ricercatore potrebbe aver bisogno di raccogliere dati su 50 individui, ma decide invece di raccogliere dati su 25 individui due volte perché è molto più semplice da fare.

Ciò viola il presupposto di indipendenza perché ogni osservazione nel set di dati sarà correlata a se stessa.

Come evitare di violare il presupposto di indipendenza

Il modo più semplice per evitare di violare il presupposto di indipendenza è utilizzare semplicemente il campionamento casuale semplice quando si ottiene un campione da una popolazione.

Utilizzando questo metodo, ogni individuo della popolazione di interesse ha la stessa probabilità di essere incluso nel campione.

Ad esempio, se la nostra popolazione di interesse contiene 10.000 individui, possiamo assegnare casualmente un numero a ciascun individuo della popolazione e quindi utilizzare un generatore di numeri casuali per selezionare 40 numeri casuali. Gli individui corrispondenti a questi numeri verrebbero quindi inclusi nel campione.

Utilizzando questo metodo, riduciamo al minimo le possibilità di selezionare due individui che potrebbero essere molto vicini tra loro o che potrebbero essere imparentati in qualche modo.

Ciò è in diretto contrasto con altri metodi di campionamento come:

  • Campionamento di convenienza: includere in un campione individui che sono semplicemente facili da raggiungere.
  • Campionamento volontario: inclusione in un campione di individui che sioffrono volontari per essere inclusi.

Utilizzando un metodo di campionamento casuale, possiamo ridurre al minimo le possibilità di violare il presupposto di indipendenza.

Risorse addizionali

Le quattro ipotesi formulate in un T test
Le quattro ipotesi della regressione lineare
Le tre ipotesi dell’ANOVA
Cos’è un campione rappresentativo e perché è importante?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *