Co to jest fikcyjna pułapka zmienna? (definicja – przykład)
Regresja liniowa to metoda, którą możemy zastosować do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Zwykle używamy regresji liniowej ze zmiennymi ilościowymi . Czasami nazywane zmiennymi „numerycznymi” i są to zmienne reprezentujące mierzalną wielkość. Przykłady obejmują:
- Liczba metrów kwadratowych w domu
- Wielkość populacji miasta
- Wiek osobnika
Czasami jednak chcemy użyć zmiennych kategorycznych jako zmiennych predykcyjnych. Są to zmienne, które przyjmują nazwy lub etykiety i można je podzielić na kategorie. Przykłady obejmują:
- Kolor oczu (np. „niebieski”, „zielony”, „brązowy”)
- Płeć (np. „mężczyzna”, „kobieta”)
- Stan cywilny (np. „żonaty”, „panny”, „rozwiedziony”)
Używając zmiennych kategorycznych, nie ma sensu po prostu przypisywać wartości takich jak 1, 2, 3 do wartości takich jak „niebieski”, „zielony” i „brązowy”, ponieważ nie ma sensu mówić ten zielony jest podwójny. tak kolorowy jak niebieski lub brązowy jest trzy razy bardziej kolorowy niż niebieski.
Zamiast tego rozwiązaniem jest użycie zmiennych fikcyjnych . Są to zmienne, które tworzymy specjalnie na potrzeby analizy regresji i które przyjmują jedną z dwóch wartości: zero lub jeden.
Liczba zmiennych fikcyjnych, które musimy utworzyć, jest równa k -1, gdzie k jest liczbą różnych wartości, jakie może przyjąć zmienna kategoryczna.
Załóżmy na przykład, że mamy następujący zestaw danych i chcemy wykorzystać stan cywilny i wiek do przewidywania dochodów :
Aby wykorzystać stan cywilny jako zmienną predykcyjną w modelu regresji, musimy przekształcić go w zmienną fikcyjną.
Ponieważ jest to obecnie zmienna kategoryczna, która może przyjmować trzy różne wartości („Singiel”, „Żonaty” lub „Rozwiedziony”), musimy utworzyć k -1 = 3-1 = 2 zmienne fikcyjne.
Aby utworzyć tę fikcyjną zmienną, możemy pozostawić „Single” jako wartość bazową, ponieważ pojawia się ona najczęściej. Oto jak przekształcilibyśmy stan cywilny w zmienne fikcyjne:
Moglibyśmy następnie użyć Wiek , Żonaty i Rozwiedziony jako zmiennych predykcyjnych w modelu regresji.
Podczas tworzenia zmiennych fikcyjnych problem, który może się pojawić, nazywany jest pułapką fikcyjnych zmiennych . Dzieje się tak, gdy tworzymy k zmiennych fikcyjnych zamiast k -1 zmiennych fikcyjnych.
Kiedy tak się stanie, co najmniej dwie zmienne fikcyjne będą cierpieć z powodu doskonałej współliniowości . Innymi słowy, będą one doskonale skorelowane. Powoduje to nieprawidłowe obliczenia współczynników regresji i odpowiadających im wartości p.
Pułapka na zmienną fikcyjną: Gdy liczba utworzonych zmiennych fikcyjnych jest równa liczbie wartości, jakie może przyjąć wartość kategoryczna. Prowadzi to do wielowspółliniowości, co skutkuje błędnymi obliczeniami współczynników regresji i wartości p.
Załóżmy na przykład, że przekształcamy stan cywilny na następujące zmienne fikcyjne:
W tym przypadku osoby samotne i żonate są doskonale skorelowane i mają współczynnik korelacji wynoszący -1.
Zatem gdy przeprowadzimy wielokrotną regresję liniową, obliczenia współczynnika regresji będą nieprawidłowe.
Jak uniknąć fałszywej pułapki zmiennej
Wystarczy pamiętać o jednej zasadzie, aby uniknąć pułapki fałszywych zmiennych:
Jeśli zmienna kategoryczna może przyjmować k różnych wartości, należy utworzyć wyłącznie zmienne fikcyjne k-1 do wykorzystania w modelu regresji.
Załóżmy na przykład, że chcesz przekonwertować zmienną kategorialną „rok szkoły” na zmienne fikcyjne. Załóżmy, że ta zmienna przyjmuje następujące wartości:
- Student pierwszego roku
- Studentka drugiego roku
- Junior
- Senior
Ponieważ ta zmienna może przyjmować 4 różne wartości, utworzymy tylko 3 zmienne fikcyjne. Na przykład naszymi fikcyjnymi zmiennymi mogą być:
- X 1 = 1 jeśli student drugiego roku; 0 w przeciwnym razie
- X 2 = 1 w przypadku Juniora; 0 w przeciwnym razie
- X 3 = 1 cis starszy; 0 w przeciwnym razie
Ponieważ liczba zmiennych fikcyjnych jest o jeden mniejsza niż liczba wartości, jakie może przyjąć „rok szkolny”, możemy uniknąć pułapki zmiennych fikcyjnych i problemu współliniowości.
Dodatkowe zasoby
Jak używać zmiennych fikcyjnych w analizie regresji
Wprowadzenie do wielokrotnej regresji liniowej
Przewodnik po wieloliniowości w regresji