Come leggere e interpretare una tabella di regressione
In statistica, la regressione è una tecnica che può essere utilizzata per analizzare la relazione tra variabili predittive e una variabile di risposta.
Quando utilizzi un software (come R, SAS, SPSS, ecc.) per eseguire l’analisi di regressione, riceverai come output una tabella di regressione che riassume i risultati della regressione. È importante sapere come leggere questa tabella in modo da poter comprendere i risultati dell’analisi di regressione.
Questo tutorial mostra un esempio di analisi di regressione e fornisce una spiegazione dettagliata su come leggere e interpretare il risultato di una tabella di regressione.
Un esempio di regressione
Supponiamo di avere il seguente set di dati che mostra il numero totale di ore studiate, il numero totale di esami preparatori sostenuti e il voto dell’esame finale per 12 studenti diversi:
Per analizzare il rapporto tra le ore di studio e gli esami preparatori sostenuti con il voto ottenuto dallo studente all’esame finale, effettuiamo una regressione lineare multipla utilizzando le ore di studio e gli esami preparatori assunti come variabili predittive e il voto finale in esame come variabile di risposta.
Riceviamo il seguente risultato:
Esame dell’adattamento del modello
La prima sezione mostra diversi numeri che misurano l’adattamento del modello di regressione, ovvero quanto bene il modello di regressione è in grado di “adattarsi” al set di dati.
Ecco come interpretare ciascuno dei numeri in questa sezione:
Diverse Rs
Questo è il coefficiente di correlazione . Misura la forza della relazione lineare tra le variabili predittive e la variabile di risposta. Un multiplo R di 1 indica una relazione lineare perfetta mentre un multiplo R di 0 indica alcuna relazione lineare. Il multiplo R è la radice quadrata di R al quadrato (vedi sotto).
In questo esempio, il multiplo R è 0,72855 , che indica una relazione lineare abbastanza forte tra le ore di studio e di esami preparatori dei predittori e il voto dell’esame finale della variabile di risposta.
R-quadrato
Questo è spesso scritto come r2 ed è anche noto come coefficiente di determinazione . Questa è la proporzione della varianza nella variabile di risposta che può essere spiegata dalla variabile predittore.
Il valore R quadrato può variare da 0 a 1. Un valore pari a 0 indica che la variabile di risposta non può essere spiegata affatto dalla variabile predittore. Un valore pari a 1 indica che la variabile di risposta può essere spiegata perfettamente senza errori dalla variabile predittore.
In questo esempio, l’R quadrato è 0,5307 , il che indica che il 53,07% della varianza nei punteggi dell’esame finale può essere spiegato dal numero di ore studiate e dal numero di esami pratici passati.
Correlato: Qual è un buon valore R quadrato?
R quadrato corretto
Questa è una versione modificata di R quadrato che è stata regolata in base al numero di predittori nel modello. È sempre inferiore a R al quadrato. L’R quadrato corretto può essere utile per confrontare tra loro l’adattamento di diversi modelli di regressione.
In questo esempio, l’R quadrato corretto è 0,4265.
Errore standard di regressione
L’errore standard di regressione è la distanza media tra i valori osservati e la retta di regressione. In questo esempio i valori osservati si discostano in media di 7.3267 unità dalla retta di regressione.
Correlato: Comprensione dell’errore standard di regressione
Commenti
Questo è semplicemente il numero di osservazioni nel nostro set di dati. In questo esempio, il numero totale di osservazioni è 12 .
Testare la significatività complessiva del modello di regressione
La sezione seguente mostra i gradi di libertà, la somma dei quadrati, la media dei quadrati, la statistica F e il significato complessivo del modello di regressione.
Ecco come interpretare ciascuno dei numeri in questa sezione:
Gradi di libertà della regressione
Questo numero è uguale a: il numero di coefficienti di regressione – 1. In questo esempio, abbiamo un termine originale e due variabili predittive, quindi abbiamo tre coefficienti di regressione in totale, il che significa che i gradi di libertà di regressione sono 3 – 1 = 2 .
Gradi di libertà totali
Questo numero è uguale a: il numero di osservazioni – 1. In questo esempio, abbiamo 12 osservazioni, quindi il numero totale di gradi di libertà è 12 – 1 = 11 .
Gradi di libertà residui
Questo numero è uguale a: df totale – df di regressione. In questo esempio, i gradi di libertà residui sono 11 – 2 = 9 .
Quadrati medi
I quadrati medi della regressione vengono calcolati mediante regressione SS/regressione df. In questo esempio, MS di regressione = 546.53308 / 2 = 273.2665 .
La media dei quadrati residui viene calcolata mediante SS residuo/df residuo. In questo esempio, MS residuo = 483.1335 / 9 = 53.68151 .
Statistica F
La statistica f viene calcolata come regressione MS/residuo MS. Questa statistica indica se il modello di regressione fornisce un adattamento migliore ai dati rispetto a un modello che non contiene variabili indipendenti.
Essenzialmente, verifica se il modello di regressione nel suo insieme è utile. In genere, se nessuna delle variabili predittive nel modello è statisticamente significativa, anche la statistica F complessiva non è statisticamente significativa.
In questo esempio, la statistica F è 273.2665 / 53.68151 = 5.09 .
Importanza di F (valore P)
L’ultimo valore nella tabella è il valore p associato alla statistica F. Per vedere se il modello di regressione complessivo è significativo, è possibile confrontare il valore p con un livello di significatività; le scelte comuni sono .01, .05 e .10.
Se il valore p è inferiore al livello di significatività, ci sono prove sufficienti per concludere che il modello di regressione si adatta meglio ai dati rispetto al modello senza variabile predittiva. Questo risultato è positivo perché significa che le variabili predittive del modello effettivamente migliorano l’adattamento del modello.
In questo esempio, il valore p è 0,033 , che è inferiore al livello di significatività comune di 0,05. Ciò indica che il modello di regressione nel suo insieme è statisticamente significativo, ovvero che il modello si adatta meglio ai dati rispetto al modello senza variabili predittive.
Testare la significatività complessiva del modello di regressione
La sezione finale presenta le stime dei coefficienti, l’errore standard delle stime, la statistica t, i valori p e gli intervalli di confidenza per ciascun termine nel modello di regressione.
Ecco come interpretare ciascuno dei numeri in questa sezione:
Coefficienti
I coefficienti ci danno i numeri necessari per scrivere l’equazione di regressione stimata:
y cappello = b 0 + b 1 x 1 + b 2 x 2 .
In questo esempio, l’equazione di regressione stimata è:
voto esame finale = 66,99 + 1.299 (ore di studio) + 1.117 (esami preparatori)
Ogni singolo coefficiente viene interpretato come l’aumento medio nella variabile di risposta per ogni aumento di un’unità in una determinata variabile predittiva, presupponendo che tutte le altre variabili predittive rimangano costanti. Ad esempio, per ogni ora studiata in più, l’aumento medio previsto nel punteggio dell’esame finale è di 1.299 punti, assumendo che il numero di esami preparatori sostenuti rimanga costante.
L’intercetta viene interpretata come il voto medio atteso all’esame finale per uno studente che studia per zero ore e non sostiene esami propedeutici. In questo esempio, uno studente dovrebbe ottenere un punteggio di 66,99 se studia per zero ore e non sostiene esami preparatori. Fare attenzione quando si interpreta l’intercetta di un risultato di regressione, poiché non sempre ha senso farlo.
Ad esempio, in alcuni casi l’intercetta potrebbe rivelarsi un numero negativo, che spesso non ha un’interpretazione ovvia. Ciò non significa che il modello sia sbagliato, significa solo che l’intercettazione in sé non dovrebbe essere interpretata per significare nulla.
Errore standard, statistiche t e valori p
L’errore standard è una misura dell’incertezza attorno alla stima del coefficiente per ciascuna variabile.
Il t-stat è semplicemente il coefficiente diviso per l’errore standard. Ad esempio, il t-stat per le ore di studio è 1.299 / 0.417 = 3.117.
La colonna successiva mostra il valore p associato al t-stat. Questo numero ci dice se una data variabile di risposta è significativa nel modello. In questo esempio, vediamo che il valore p per le ore di studio è 0,012 e il valore p per gli esami preparatori è 0,304. Ciò indica che le ore di studio sono un fattore predittivo significativo del voto finale dell’esame, a differenza degli esami pratici .
Intervallo di confidenza per le stime dei coefficienti
Le ultime due colonne della tabella forniscono i limiti inferiore e superiore di un intervallo di confidenza al 95% per le stime dei coefficienti.
Ad esempio, la stima del coefficiente per le ore di studio è 1.299, ma c’è qualche incertezza attorno a questa stima. Non potremo mai sapere con certezza se questo è il coefficiente esatto. Quindi un intervallo di confidenza del 95% ci fornisce un intervallo di valori probabili per il coefficiente vero.
In questo caso, l’intervallo di confidenza al 95% per le ore di studio è (0,356, 2,24). Si noti che questo intervallo di confidenza non contiene il numero “0”, il che significa che siamo completamente sicuri che il vero valore del coefficiente delle ore di studio sia diverso da zero, cioè un numero positivo.
Al contrario, l’intervallo di confidenza al 95% per gli esami preparatori è (-1.201, 3.436). Si noti che questo intervallo di confidenza contiene il numero “0”, il che significa che il vero valore del coefficiente degli esami preparatori potrebbe essere zero, cioè non significativo nel prevedere i risultati dell’esame finale.
Risorse addizionali
Comprendere l’ipotesi nulla per la regressione lineare
Comprensione del test F per la significatività complessiva nella regressione
Come riportare i risultati della regressione