Co to jest fikcyjna pułapka zmienna? (definicja – przykład)


Regresja liniowa to metoda, którą możemy zastosować do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .

Zwykle używamy regresji liniowej ze zmiennymi ilościowymi . Czasami nazywane zmiennymi „numerycznymi” i są to zmienne reprezentujące mierzalną wielkość. Przykłady obejmują:

  • Liczba metrów kwadratowych w domu
  • Wielkość populacji miasta
  • Wiek osobnika

Czasami jednak chcemy użyć zmiennych kategorycznych jako zmiennych predykcyjnych. Są to zmienne, które przyjmują nazwy lub etykiety i można je podzielić na kategorie. Przykłady obejmują:

  • Kolor oczu (np. „niebieski”, „zielony”, „brązowy”)
  • Płeć (np. „mężczyzna”, „kobieta”)
  • Stan cywilny (np. „żonaty”, „panny”, „rozwiedziony”)

Używając zmiennych kategorycznych, nie ma sensu po prostu przypisywać wartości takich jak 1, 2, 3 do wartości takich jak „niebieski”, „zielony” i „brązowy”, ponieważ nie ma sensu mówić ten zielony jest podwójny. tak kolorowy jak niebieski lub brązowy jest trzy razy bardziej kolorowy niż niebieski.

Zamiast tego rozwiązaniem jest użycie zmiennych fikcyjnych . Są to zmienne, które tworzymy specjalnie na potrzeby analizy regresji i które przyjmują jedną z dwóch wartości: zero lub jeden.

Liczba zmiennych fikcyjnych, które musimy utworzyć, jest równa k -1, gdzie k jest liczbą różnych wartości, jakie może przyjąć zmienna kategoryczna.

Załóżmy na przykład, że mamy następujący zestaw danych i chcemy wykorzystać stan cywilny i wiek do przewidywania dochodów :

Aby wykorzystać stan cywilny jako zmienną predykcyjną w modelu regresji, musimy przekształcić go w zmienną fikcyjną.

Ponieważ jest to obecnie zmienna kategoryczna, która może przyjmować trzy różne wartości („Singiel”, „Żonaty” lub „Rozwiedziony”), musimy utworzyć k -1 = 3-1 = 2 zmienne fikcyjne.

Aby utworzyć tę fikcyjną zmienną, możemy pozostawić „Single” jako wartość bazową, ponieważ pojawia się ona najczęściej. Oto jak przekształcilibyśmy stan cywilny w zmienne fikcyjne:

Zmienna fikcyjna z trzema wartościami

Moglibyśmy następnie użyć Wiek , Żonaty i Rozwiedziony jako zmiennych predykcyjnych w modelu regresji.

Podczas tworzenia zmiennych fikcyjnych problem, który może się pojawić, nazywany jest pułapką fikcyjnych zmiennych . Dzieje się tak, gdy tworzymy k zmiennych fikcyjnych zamiast k -1 zmiennych fikcyjnych.

Kiedy tak się stanie, co najmniej dwie zmienne fikcyjne będą cierpieć z powodu doskonałej współliniowości . Innymi słowy, będą one doskonale skorelowane. Powoduje to nieprawidłowe obliczenia współczynników regresji i odpowiadających im wartości p.

Pułapka na zmienną fikcyjną: Gdy liczba utworzonych zmiennych fikcyjnych jest równa liczbie wartości, jakie może przyjąć wartość kategoryczna. Prowadzi to do wielowspółliniowości, co skutkuje błędnymi obliczeniami współczynników regresji i wartości p.

Załóżmy na przykład, że przekształcamy stan cywilny na następujące zmienne fikcyjne:

Przykład fikcyjnej pułapki zmiennej

W tym przypadku osoby samotne i żonate są doskonale skorelowane i mają współczynnik korelacji wynoszący -1.

Zatem gdy przeprowadzimy wielokrotną regresję liniową, obliczenia współczynnika regresji będą nieprawidłowe.

Jak uniknąć fałszywej pułapki zmiennej

Wystarczy pamiętać o jednej zasadzie, aby uniknąć pułapki fałszywych zmiennych:

Jeśli zmienna kategoryczna może przyjmować k różnych wartości, należy utworzyć wyłącznie zmienne fikcyjne k-1 do wykorzystania w modelu regresji.

Załóżmy na przykład, że chcesz przekonwertować zmienną kategorialną „rok szkoły” na zmienne fikcyjne. Załóżmy, że ta zmienna przyjmuje następujące wartości:

  • Student pierwszego roku
  • Studentka drugiego roku
  • Junior
  • Senior

Ponieważ ta zmienna może przyjmować 4 różne wartości, utworzymy tylko 3 zmienne fikcyjne. Na przykład naszymi fikcyjnymi zmiennymi mogą być:

  • X 1 = 1 jeśli student drugiego roku; 0 w przeciwnym razie
  • X 2 = 1 w przypadku Juniora; 0 w przeciwnym razie
  • X 3 = 1 cis starszy; 0 w przeciwnym razie

Ponieważ liczba zmiennych fikcyjnych jest o jeden mniejsza niż liczba wartości, jakie może przyjąć „rok szkolny”, możemy uniknąć pułapki zmiennych fikcyjnych i problemu współliniowości.

Dodatkowe zasoby

Jak używać zmiennych fikcyjnych w analizie regresji
Wprowadzenie do wielokrotnej regresji liniowej
Przewodnik po wieloliniowości w regresji

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *