Come eseguire una regressione lineare multipla in excel


La regressione lineare multipla è un metodo che possiamo utilizzare per comprendere la relazione tra due o più variabili esplicative e una variabile di risposta .

Questo tutorial spiega come eseguire la regressione lineare multipla in Excel.

Nota: se disponi di una sola variabile esplicativa, dovresti invece eseguire una regressione lineare semplice .

Esempio: regressione lineare multipla in Excel

Supponiamo di voler sapere se il numero di ore trascorse a studiare e il numero di esami preparatori sostenuti influiscono sul voto che uno studente ottiene in un determinato esame di ammissione all’università.

Per esplorare questa relazione, possiamo eseguire una regressione lineare multipla utilizzando le ore studiate e gli esami preparatori presi come variabili esplicative e i risultati degli esami come variabile di risposta.

Completare i passaggi seguenti in Excel per eseguire la regressione lineare multipla.

Passaggio 1: inserisci i dati.

Inserire i seguenti dati relativi al numero di ore studiate, esami preparatori sostenuti e risultati esami ricevuti per 20 studenti:

Dati grezzi per regressione lineare multipla in Excel

Passaggio 2: eseguire la regressione lineare multipla.

Sulla barra multifunzione superiore di Excel, vai alla scheda Dati e fai clic su Analisi dati . Se non vedi questa opzione, devi prima installare il software gratuito Analysis ToolPak .

Opzione di analisi dei dati in Excel

Dopo aver fatto clic su Analisi dati, verrà visualizzata una nuova finestra. Selezionare Regressione e fare clic su OK.

Esempio di regressione lineare multipla in Excel

Per Input Y Range , compilare la matrice di valori per la variabile di risposta. Per Input X Range , compilare la matrice di valori per le due variabili esplicative. Seleziona la casella accanto a Etichette per far sapere a Excel che abbiamo incluso i nomi delle variabili negli intervalli di input. Per Intervallo di output , seleziona una cella in cui desideri che venga visualizzato l’output della regressione. Quindi fare clic su OK .

Regressione lineare multipla in Excel

Verrà visualizzato automaticamente il seguente output:

Output di regressione lineare multipla in Excel

Passaggio 3: interpretare il risultato.

Ecco come interpretare i numeri più rilevanti nel risultato:

R quadrato: 0,734 . Questo è chiamato coefficiente di determinazione. È la proporzione della varianza della variabile di risposta che può essere spiegata dalle variabili esplicative. In questo esempio, il 73,4% della variazione dei punteggi degli esami è spiegata dal numero di ore studiate e dal numero di esami preparatori sostenuti.

Errore standard: 5.366 . Questa è la distanza media tra i valori osservati e la retta di regressione. In questo esempio i valori osservati si discostano in media di 5.366 unità dalla retta di regressione.

F: 23:46 Questa è la statistica F complessiva per il modello di regressione, calcolata come MS di regressione/MS residuo.

Significato F: 0.0000 . Questo è il valore p associato alla statistica F complessiva. Questo ci dice se il modello di regressione nel suo insieme è statisticamente significativo o meno. In altre parole, ci dice se le due variabili esplicative combinate hanno un’associazione statisticamente significativa con la variabile di risposta. In questo caso, il valore p è inferiore a 0,05, indicando che le variabili esplicative , le ore studiate e gli esami preparatori sostenuti combinati, hanno un’associazione statisticamente significativa con il risultato dell’esame .

Valori P. I valori p individuali ci dicono se ciascuna variabile esplicativa è statisticamente significativa o meno. Possiamo vedere che le ore studiate sono statisticamente significative (p = 0,00) mentre gli esami preparatori sostenuti (p = 0,52) non sono statisticamente significativi con α = 0,05. Poiché gli esami preparatori passati non sono statisticamente significativi, potremmo decidere di rimuoverli dal modello.

Coefficienti: i coefficienti di ciascuna variabile esplicativa ci dicono la variazione media attesa nella variabile di risposta, assumendo che l’altra variabile esplicativa rimanga costante. Ad esempio, per ogni ora aggiuntiva trascorsa a studiare, il punteggio medio dell’esame dovrebbe aumentare di 5,56 , assumendo che gli esami pratici sostenuti rimangano costanti.

Ecco un altro modo di vedere la cosa: se lo studente A e lo studente B sostengono entrambi lo stesso numero di esami preparatori ma lo studente A studia un’ora in più, allora lo studente A dovrebbe ottenere un punteggio di 5,56 più alto rispetto a quello dello studente B.

Interpretiamo il coefficiente di intercetta nel senso che il punteggio atteso dell’esame per uno studente che non studia ore e non sostiene esami preparatori è 67,67 .

Equazione di regressione stimata: possiamo utilizzare i coefficienti dell’output del modello per creare la seguente equazione di regressione stimata:

punteggio esame = 67,67 + 5,56*(ore) – 0,60*(esami preparatori)

Possiamo utilizzare questa equazione di regressione stimata per calcolare il punteggio atteso dell’esame per uno studente, in base al numero di ore di studio e al numero di esami pratici sostenuti. Ad esempio, uno studente che studia per tre ore e sostiene un esame di preparazione dovrebbe ottenere un voto di 83,75 :

punteggio esame = 67,67 + 5,56*(3) – 0,60*(1) = 83,75

Tieni presente che poiché gli esami preparatori precedenti non erano statisticamente significativi (p=0,52), potremmo decidere di rimuoverli poiché non forniscono alcun miglioramento al modello complessivo. In questo caso potremmo eseguire una semplice regressione lineare utilizzando solo le ore studiate come variabile esplicativa.

I risultati di questa semplice analisi di regressione lineare possono essere trovati qui .

Risorse addizionali

Dopo aver eseguito la regressione lineare multipla, potresti voler verificare diversi presupposti, tra cui:

1. Test della multicollinearità utilizzando VIF .

2. Test dell’eteroschedasticità utilizzando il test di Breusch-Pagan .

3. Verificare la normalità utilizzando un grafico QQ .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *