Qual è la trappola della variabile fittizia? (definizione & #038; esempio)
La regressione lineare è un metodo che possiamo utilizzare per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .
Generalmente utilizziamo la regressione lineare con variabili quantitative . A volte chiamate variabili “numeriche”, si tratta di variabili che rappresentano una quantità misurabile. Esempi inclusi:
- Numero di piedi quadrati in una casa
- Dimensione della popolazione di una città
- Età di un individuo
Tuttavia, a volte vogliamo utilizzare variabili categoriali come variabili predittive. Queste sono variabili che prendono nomi o etichette e possono rientrare in categorie. Esempi inclusi:
- Colore degli occhi (ad esempio “blu”, “verde”, “marrone”)
- Genere (ad es. “uomo”, “donna”)
- Stato civile (ad esempio “sposato”, “celibe”, “divorziato”)
Quando si utilizzano variabili categoriali, non ha senso assegnare solo valori come 1, 2, 3 a valori come “blu”, “verde” e “marrone”, perché non ha senso dire quel verde è doppio. colorato come il blu o il marrone è tre volte più colorato del blu.
Invece, la soluzione è utilizzare variabili fittizie . Si tratta di variabili che creiamo appositamente per l’analisi di regressione e che assumono uno di due valori: zero o uno.
Il numero di variabili dummy che dobbiamo creare è pari a k -1 dove k è il numero di valori diversi che può assumere la variabile categoriale.
Ad esempio, supponiamo di avere il seguente set di dati e di voler utilizzare lo stato civile e l’età per prevedere il reddito :
Per utilizzare lo stato civile come variabile predittiva in un modello di regressione, dobbiamo convertirlo in una variabile fittizia.
Poiché attualmente si tratta di una variabile categoriale che può assumere tre valori diversi (“Single”, “Sposato” o “Divorziato”), dobbiamo creare k -1 = 3-1 = 2 variabili dummy.
Per creare questa variabile fittizia, possiamo lasciare “Single” come valore base poiché appare più spesso. Quindi, ecco come convertiremo lo stato civile in variabili fittizie:
Potremmo quindi utilizzare Age , Married e Divorced come variabili predittive in un modello di regressione.
Quando si creano variabili dummy, un problema che può sorgere è noto come trappola delle variabili dummy . Ciò accade quando creiamo k variabili fittizie invece di k -1 variabili fittizie.
Quando ciò accade, almeno due delle variabili dummy soffriranno di perfetta multicollinearità . In altre parole, saranno perfettamente correlati. Ciò si traduce in calcoli errati dei coefficienti di regressione e dei corrispondenti valori p.
Trappola delle variabili fittizie: quando il numero di variabili fittizie create è uguale al numero di valori che può assumere il valore categorico. Ciò porta alla multicollinearità, che si traduce in calcoli errati dei coefficienti di regressione e dei valori p.
Ad esempio, supponiamo di convertire lo stato civile nelle seguenti variabili dummy:
In questo caso, Single e Sposato sono perfettamente correlati e hanno un coefficiente di correlazione pari a -1.
Pertanto, quando eseguiamo una regressione lineare multipla, i calcoli del coefficiente di regressione saranno errati.
Come evitare la trappola delle variabili fittizie
Devi solo ricordare una regola per evitare la trappola delle variabili fittizie:
Se una variabile categoriale può assumere k valori diversi, è necessario creare solo k-1 variabili fittizie da utilizzare nel modello di regressione.
Ad esempio, supponiamo di voler convertire una variabile categoriale “anno di scuola” in variabili fittizie. Supponiamo che questa variabile assuma i seguenti valori:
- Studente del primo anno
- Studente del secondo anno
- Junior
- Anziano
Poiché questa variabile può assumere 4 valori diversi, creeremo solo 3 variabili fittizie. Ad esempio, le nostre variabili fittizie potrebbero essere:
- X 1 = 1 se studente del secondo anno; 0 altrimenti
- X 2 = 1 se Junior; 0 altrimenti
- X 3 = 1 tasso Senior; 0 altrimenti
Poiché il numero di variabili dummy è uno in meno rispetto al numero di valori che “anno scolastico” può assumere, possiamo evitare la trappola delle variabili dummy e il problema della multicollinearità.
Risorse addizionali
Come utilizzare le variabili fittizie nell’analisi di regressione
Introduzione alla regressione lineare multipla
Una guida alla multicollinearità nella regressione