Una semplice spiegazione dell'importanza statistica rispetto a quella pratica
Un’ipotesi statistica è un’ipotesi relativa a un parametro della popolazione . Ad esempio, possiamo supporre che l’altezza media di un uomo in una determinata contea sia di 68 pollici. L’ipotesi relativa all’altezza è l’ ipotesi statistica e la vera altezza media di un uomo negli Stati Uniti è il parametro della popolazione .
Un test di ipotesi è un test statistico formale che utilizziamo per rifiutare o non riuscire a rifiutare un’ipotesi statistica. Per eseguire il test delle ipotesi, otteniamo un campione casuale dalla popolazione e determiniamo se è probabile che i dati nel campione si siano verificati, dato che l’ipotesi nulla è effettivamente vera.
Se i dati del campione sono sufficientemente improbabili secondo questa ipotesi, allora possiamo rifiutare l’ipotesi nulla e concludere che esiste un effetto.
Il modo in cui determiniamo se i dati del campione sono “abbastanza improbabili” assumendo che zero sia vero è impostare un certo livello di significatività (solitamente scelto tra 0,01, 0,05 o 0,10), quindi controllare se il valore p del test di ipotesi è inferiore superiore a questo livello di significatività.
Se il valore p è inferiore al livello di significatività, allora diciamo che i risultati sono statisticamente significativi . Significa semplicemente che esiste un certo effetto, ma non significa necessariamente che questo effetto sia effettivamente pratico nel mondo reale. I risultati possono essere statisticamente significativi senza essere praticamente significativi .
Correlati: una spiegazione dei valori P e della significatività statistica
Importanza pratica
È possibile che il test delle ipotesi produca risultati statisticamente significativi, nonostante una dimensione dell’effetto ridotta. Esistono due modi principali in cui le dimensioni ridotte dell’effetto possono produrre valori p bassi (e quindi statisticamente significativi):
1. La variabilità dei dati campionati è molto bassa. Quando i dati del campione presentano una bassa variabilità, un test di ipotesi è in grado di produrre stime più precise dell’effetto sulla popolazione, consentendo al test di rilevare anche effetti piccoli.
Ad esempio, supponiamo di voler eseguire un t-test indipendente a due campioni sui seguenti due campioni che mostrano i punteggi dei test di 20 studenti di due scuole diverse per determinare se i punteggi medi dei test sono significativamente diversi tra le scuole:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
La media del campione 1 è 85,55 e la media del campione 2 è 86,40 . Quando eseguiamo un test t indipendente a due campioni, risulta che la statistica del test è -5,3065 e il valore p corrispondente è <0,0001 . La differenza tra i risultati del test è statisticamente significativa.
La differenza tra i punteggi medi dei test per questi due campioni è solo 0,85 , ma la bassa variabilità nei punteggi dei test per ciascuna scuola si traduce in un risultato statisticamente significativo. Si noti che la deviazione standard dei punteggi è 0,51 per il campione 1 e 0,50 per il campione 2.
Questa bassa variabilità è ciò che ha consentito al test di ipotesi di rilevare la piccola differenza tra i punteggi e di consentire alle differenze di essere statisticamente significative.
Il motivo di fondo per cui una bassa variabilità può portare a conclusioni statisticamente significative è che la statistica del t- test per un t-test indipendente a due campioni viene calcolata come segue:
statistica del test t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
dove s 2 1 e s 2 2 indicano la variazione del campione rispettivamente per il campione 1 e il campione 2. Si noti che quando questi due numeri sono piccoli, il denominatore intero della statistica t- test è piccolo.
E quando dividi per un numero piccolo, ottieni un numero grande. Ciò significa che la statistica del test t sarà ampia e il valore p corrispondente sarà piccolo, portando così a risultati statisticamente significativi.
2. La dimensione del campione è molto ampia. Maggiore è la dimensione del campione, maggiore è il potere statistico di un test di ipotesi, consentendogli di rilevare anche piccoli effetti. Ciò può portare a risultati statisticamente significativi, nonostante piccoli effetti che potrebbero non avere alcun significato pratico.
Ad esempio, supponiamo di voler eseguire un t-test indipendente a due campioni sui seguenti due campioni che mostrano i punteggi dei test di 20 studenti di due scuole diverse per determinare se i punteggi medi dei test sono significativamente diversi tra le scuole:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Se creiamo un boxplot per ciascun campione per visualizzare la distribuzione dei punteggi, possiamo vedere che sembrano molto simili:
La media del campione 1 è 90,65 e la media del campione 2 è 90,75 . La deviazione standard per il campione 1 è 2,77 e la deviazione standard per il campione 2 è 2,78 . Quando eseguiamo un t-test indipendente a due campioni, risulta che la statistica del test è -0,113 e il valore p corrispondente è 0,91 . La differenza tra i punteggi medi dei test non è statisticamente significativa.
Tuttavia, considera se le dimensioni dei due campioni fossero entrambe 200 . In questo caso, un test t indipendente a due campioni rivelerebbe che la statistica del test è -1,97 e il valore p corrispondente è appena inferiore a 0,05 . La differenza tra i punteggi medi dei test è statisticamente significativa.
Il motivo di fondo per cui campioni di grandi dimensioni possono portare a conclusioni statisticamente significative risale ancora una volta alla statistica del t- test per un t-test indipendente a due campioni:
statistica del test t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Si noti che quando n 1 e n 2 sono piccoli, il denominatore intero della statistica t -test è piccolo. E quando dividi per un numero piccolo, ottieni un numero grande. Ciò significa che la statistica del test t sarà ampia e il valore p corrispondente sarà piccolo, portando così a risultati statisticamente significativi.
Utilizzare le competenze in materia per valutare l’importanza pratica
Per determinare se un risultato statisticamente significativo di un test di ipotesi è praticamente significativo, spesso è necessaria una competenza in materia.
Negli esempi precedenti, quando stavamo testando le differenze tra i punteggi dei test di due scuole, sarebbe utile avere l’esperienza di qualcuno che lavora nelle scuole o che amministra questo tipo di test per aiutarci a determinare se una differenza media di 1 il punto esiste oppure no. ha implicazioni pratiche.
Ad esempio, una differenza media di 1 punto può essere statisticamente significativa al livello alfa = 0,05, ma ciò significa che la scuola con i punteggi più bassi dovrebbe adottare il programma che la scuola con i punteggi più alti utilizza più in alto? Oppure comporterebbe costi amministrativi eccessivi e sarebbe troppo costosa/troppo rapida da attuare?
Solo perché esiste una differenza statisticamente significativa nei punteggi dei test tra due scuole non significa che la dimensione dell’effetto della differenza sia abbastanza grande da causare qualche tipo di cambiamento nel sistema educativo.
Utilizzo degli intervalli di confidenza per valutare il significato pratico
Un altro strumento utile per determinare il significato pratico è l’ intervallo di confidenza . Un intervallo di confidenza ci fornisce un intervallo di valori entro il quale è probabile che si trovi il vero parametro della popolazione.
Ad esempio, torniamo all’esempio del confronto della differenza nei punteggi dei test tra due scuole. Un preside può dichiarare che una differenza di punteggio medio di almeno 5 punti è necessaria affinché la scuola adotti un nuovo programma.
In uno studio, possiamo vedere che la differenza media tra i punteggi dei test è di 8 punti. Tuttavia, l’intervallo di confidenza attorno a questa media può essere [4, 12], indicando che 4 potrebbe essere la vera differenza tra i risultati medi dei test. In questo caso, il preside può concludere che la scuola non cambierà il programma poiché l’intervallo di confidenza indica che la differenza reale potrebbe essere inferiore a 5.
Tuttavia, in un altro studio possiamo vedere che la differenza media tra i risultati dei test è ancora di 8 punti, ma l’intervallo di confidenza attorno alla media può essere [6, 10]. Poiché questo intervallo non contiene 5 , il direttore probabilmente concluderà che la vera differenza tra i punteggi del test è maggiore di 5 e quindi determinerà che ha senso modificare il programma.
Conclusione
In conclusione, ecco cosa abbiamo imparato:
- La significatività esclusivamente statistica indica se esiste un effetto basato su un certo livello di significatività.
- L’importanza pratica è se questo effetto abbia o meno implicazioni pratiche nel mondo reale.
- Utilizziamo analisi statistiche per determinare il significato statistico e le competenze del settore per valutare il significato pratico.
- Piccole dimensioni degli effetti possono produrre piccoli valori p quando (1) la variabilità dei dati del campione è molto piccola e quando (2) la dimensione del campione è molto grande.
- Impostando una dimensione minima dell’effetto prima di condurre un test di ipotesi, possiamo valutare meglio se il risultato di un test di ipotesi (anche se statisticamente significativo) è effettivamente pratico nel mondo reale.
- Gli intervalli di confidenza possono essere utili per determinare il significato pratico. Se la dimensione minima dell’effetto non rientra in un intervallo di confidenza, i risultati potrebbero essere praticamente significativi.