Come creare variabili fittizie in excel (passo dopo passo)
Una variabile fittizia è un tipo di variabile che creiamo nell’analisi di regressione in modo da poter rappresentare una variabile categoriale come variabile numerica che assume uno dei due valori: zero o uno.
Ad esempio, supponiamo di avere il seguente set di dati e di voler utilizzare l’età e lo stato civile per prevedere il reddito :
Per utilizzare lo stato civile come variabile predittiva in un modello di regressione, dobbiamo convertirlo in una variabile fittizia.
Poiché attualmente si tratta di una variabile categoriale che può assumere tre valori diversi (“Single”, “Sposato” o “Divorziato”), dobbiamo creare k -1 = 3-1 = 2 variabili dummy.
Per creare questa variabile fittizia, possiamo lasciare “Single” come valore base poiché appare più spesso. Ecco come convertiremo lo stato civile in variabili fittizie:
Questo tutorial fornisce un esempio passo passo di come creare variabili fittizie per questo esatto set di dati in Excel e quindi eseguire l’analisi di regressione utilizzando queste variabili fittizie come predittori.
Passaggio 1: creare i dati
Innanzitutto, creiamo il set di dati in Excel:
Passaggio 2: crea le variabili fittizie
Successivamente, possiamo copiare i valori dalle colonne A e B nelle colonne E ed F, quindi utilizzare la funzione IF() in Excel per definire due nuove variabili fittizie: Sposato e Divorziato.
Ecco la formula che abbiamo utilizzato nella cella G2 , che abbiamo copiato nel resto delle celle nella colonna G:
= IF (C2 = "Married", 1, 0)
Ed ecco la formula che abbiamo usato nella cella H2 , che abbiamo copiato nel resto delle celle nella colonna H:
= IF (C2 = "Divorced", 1, 0)
Quindi possiamo utilizzare queste variabili fittizie in un modello di regressione per prevedere il reddito.
Passaggio 3: eseguire la regressione lineare
Per eseguire una regressione lineare multipla, dobbiamo fare clic sulla scheda Dati lungo la barra multifunzione superiore, quindi fare clic su Analisi dati nella sezione Analisi :
Se questa opzione non è disponibile, è necessario prima caricare Analysis Toolpak .
Nella finestra visualizzata, fare clic su Regressione , quindi su OK .
Successivamente, inserisci le seguenti informazioni e fai clic su OK .
Ciò produce il seguente risultato:
Dal risultato, possiamo vedere che la retta di regressione adattata è:
Reddito = 14.276,12 + 1.471,67*(età) + 2.479,75*(sposato) – 8.397,40*(divorziato)
Possiamo utilizzare questa equazione per trovare il reddito stimato di un individuo in base all’età e allo stato civile. Ad esempio, una persona di 35 anni sposata avrebbe un reddito stimato di $ 68.264 :
Reddito = 14.276,12 + 1.471,67*(35) + 2.479,75*(1) – 8.397,40*(0) = $ 68.264
Ecco come interpretare i coefficienti di regressione nella tabella:
- Intercetta: l’intercetta rappresenta il reddito medio di una singola persona di età pari a zero. Poiché un individuo non può avere zero anni, non ha senso interpretare l’intercetta da sola in questo particolare modello di regressione.
- Età: ogni anno di aumento dell’età è associato a un aumento medio di 1.471,67 dollari di reddito. Poiché il valore p (0,004) è inferiore a 0,05, l’età è un predittore statisticamente significativo del reddito.
- Sposato: una persona sposata guadagna in media $ 2.479,75 in più di una persona single. Poiché il valore p (0,800) non è inferiore a 0,05, questa differenza non è statisticamente significativa.
- Divorziato: una persona divorziata guadagna in media $ 8.397,40 in meno di una persona single. Poiché il valore p (0,532) non è inferiore a 0,05, questa differenza non è statisticamente significativa.
Poiché entrambe le variabili dummy non erano statisticamente significative, potremmo rimuovere lo stato civile come predittore dal modello, poiché non sembra aggiungere valore predittivo al reddito.
Risorse addizionali
Come eseguire una regressione lineare semplice in Excel
Come calcolare la somma residua dei quadrati in Excel
Come eseguire la regressione polinomiale in Excel
Come creare un grafico residuo in Excel