Una spiegazione dei valori p e della significatività statistica
Nelle statistiche, i valori p sono comunemente utilizzati nei test di ipotesi per test t, test chi quadrato, analisi di regressione, ANOVA e vari altri metodi statistici.
Sebbene siano così comuni, le persone spesso interpretano i valori p in modo errato, il che può portare a errori nell’interpretazione dei risultati di un’analisi o di uno studio.
Questo articolo spiega come comprendere e interpretare i valori p in modo chiaro e pratico.
Controllo di un’ipotesi
Per comprendere i valori p, dobbiamo prima comprendere il concetto di verifica delle ipotesi .
Un’ipotesi di test è un test statistico formale che utilizziamo per rifiutare o non riuscire a rifiutare un’ipotesi. Ad esempio, possiamo ipotizzare che un nuovo farmaco, metodo o procedura presenti determinati vantaggi rispetto a un farmaco, metodo o procedura attuale.
Per verificarlo, possiamo eseguire un test di ipotesi in cui utilizziamo un’ipotesi nulla e alternativa:
Ipotesi nulla – Non vi è alcun effetto o differenza tra il nuovo metodo e il vecchio metodo.
Ipotesi alternativa – Esiste un effetto o una differenza tra il nuovo metodo e il vecchio metodo.
Un valore p indica quanto sia credibile l’ipotesi nulla, dati i dati del campione. Nello specifico, assumendo che l’ipotesi nulla sia vera, il valore p ci dice la probabilità di ottenere un effetto almeno altrettanto grande di quello effettivamente osservato nei dati campione.
Se il valore p di un test di ipotesi è sufficientemente basso, possiamo rifiutare l’ipotesi nulla. Nello specifico, quando eseguiamo il test delle ipotesi, dobbiamo scegliere un livello di significatività fin dall’inizio. Le scelte comuni per i livelli di significatività sono 0,01, 0,05 e 0,10.
Se i valori p sono inferiori al nostro livello di significatività, allora possiamo rifiutare l’ipotesi nulla.
Altrimenti, se il valore p è uguale o maggiore del nostro livello di significatività, non rifiuteremo l’ipotesi nulla.
Come interpretare un valore P
La definizione classica di valore p è:
Un valore p è la probabilità di osservare una statistica campionaria estrema almeno quanto la statistica campione, dato che l’ipotesi nulla è vera.
Ad esempio, supponiamo che una fabbrica affermi di produrre pneumatici con un peso medio di 200 libbre. Un revisore ipotizza che il peso medio effettivo degli pneumatici prodotti in questo stabilimento sia diverso di 200 libbre. Quindi esegue un test di ipotesi e scopre che il valore p del test è 0,04. Ecco come interpretare questo valore p:
Se la fabbrica produce effettivamente pneumatici con un peso medio di 200 libbre, il 4% di tutti gli audit otterrà l’effetto osservato nel campione, o più, a causa di un errore di campionamento casuale. Questo ci dice che ottenere i dati campione ottenuti dal revisore sarebbe piuttosto raro se la fabbrica producesse effettivamente pneumatici con un peso medio di 200 libbre.
A seconda del livello di significatività utilizzato in questo test di ipotesi, il revisore probabilmente rifiuterebbe l’ipotesi nulla secondo cui il peso medio effettivo degli pneumatici prodotti in questo stabilimento è effettivamente di 200 libbre. I campioni di dati ottenuti durante l’audit non sono molto coerenti con l’ipotesi nulla.
Come non interpretare un valore P
Il più grande malinteso sui valori p è che equivalgano alla probabilità di commettere un errore rifiutando un’ipotesi nulla vera (chiamata errore di tipo I).
Esistono due ragioni principali per cui i valori p non possono corrispondere al tasso di errore:
1. I valori P vengono calcolati partendo dal presupposto che l’ipotesi nulla sia vera e che la differenza tra i dati del campione e l’ipotesi nulla sia semplicemente dovuta al caso. Quindi i valori p non possono dirti la probabilità che il valore zero sia vero o falso poiché è vero al 100% dal punto di vista dei calcoli.
2. Sebbene un valore p basso indichi che i dati del campione sono improbabili presupponendo che zero sia vero, un valore p non può ancora dirti quale dei seguenti casi è più probabile:
- Il nulla è falso
- Il valore zero è vero ma hai ottenuto un campione strano
Rispetto all’esempio precedente, ecco un modo corretto e uno errato di interpretare il valore p:
- Interpretazione corretta: supponendo che la fabbrica produca pneumatici con un peso medio di 200 libbre, si otterrebbe la differenza osservata nel campione o una differenza più estrema nel 4% degli audit dovuta al campionamento casuale.
- Interpretazione errata: se rifiuti l’ipotesi nulla, c’è una probabilità del 4% che tu stia commettendo un errore.
Esempi di interpretazione dei valori P
I seguenti esempi illustrano i modi corretti per interpretare i valori p nel contesto della verifica delle ipotesi.
Esempio 1
Una compagnia telefonica afferma che il 90% dei suoi clienti è soddisfatto del proprio servizio. Per verificare questa affermazione, un ricercatore indipendente ha raccolto un semplice campione casuale di 200 clienti e ha chiesto loro se fossero soddisfatti del loro servizio, al quale l’85% ha risposto di sì. Il valore p associato a questo campione di dati è risultato essere 0,018.
Corretta interpretazione del valore p: supponendo che il 90% dei clienti sia effettivamente soddisfatto del proprio servizio, il ricercatore otterrebbe la differenza osservata che ha ottenuto nel suo campione o una differenza più estrema nell’1,8% degli audit a causa di un campionamento casuale errore. .
Esempio 2
Un’azienda inventa una nuova batteria per i telefoni. L’azienda afferma che questa nuova batteria durerà almeno 10 minuti in più rispetto alla vecchia batteria. Per verificare questa affermazione, un ricercatore prende un semplice campione casuale di 80 batterie nuove e 80 batterie vecchie. Le batterie nuove durano in media 120 minuti con una deviazione standard di 12 minuti, mentre le batterie vecchie durano in media 115 minuti con una deviazione standard di 15 minuti. Il valore p risultante dal test per la differenza nelle medie della popolazione è 0,011.
Interpretazione corretta del valore p: supponendo che la nuova batteria funzioni per la stessa durata o meno della vecchia batteria, il ricercatore otterrebbe la differenza osservata o una differenza più estrema nell’1,1% degli studi a causa di errori di campionamento casuale.