Jak używać zmiennych fikcyjnych w analizie regresji


Regresja liniowa to metoda, którą możemy zastosować do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .

Zwykle używamy regresji liniowej ze zmiennymi ilościowymi . Czasami nazywane zmiennymi „numerycznymi” i są to zmienne reprezentujące mierzalną wielkość. Przykłady obejmują:

  • Liczba metrów kwadratowych w domu
  • Wielkość populacji miasta
  • Wiek osobnika

Czasami jednak chcemy użyć zmiennych kategorycznych jako zmiennych predykcyjnych. Są to zmienne, które przyjmują nazwy lub etykiety i można je podzielić na kategorie. Przykłady obejmują:

  • Kolor oczu (np. „niebieski”, „zielony”, „brązowy”)
  • Płeć (np. „mężczyzna”, „kobieta”)
  • Stan cywilny (np. „żonaty”, „panny”, „rozwiedziony”)

Używając zmiennych kategorycznych, nie ma sensu po prostu przypisywać wartości takich jak 1, 2, 3 do wartości takich jak „niebieski”, „zielony” i „brązowy”, ponieważ nie ma sensu mówić ten zielony jest podwójny. tak kolorowy jak niebieski lub brązowy jest trzy razy bardziej kolorowy niż niebieski.

Zamiast tego rozwiązaniem jest użycie zmiennych fikcyjnych . Są to zmienne, które tworzymy specjalnie na potrzeby analizy regresji i które przyjmują jedną z dwóch wartości: zero lub jeden.

Zmienne fikcyjne: Zmienne numeryczne używane w analizie regresji do reprezentowania danych kategorycznych, które mogą przyjmować tylko jedną z dwóch wartości: zero lub jeden.

Liczba zmiennych fikcyjnych, które musimy utworzyć, jest równa k -1, gdzie k jest liczbą różnych wartości, jakie może przyjąć zmienna kategoryczna.

Poniższe przykłady ilustrują sposób tworzenia zmiennych fikcyjnych dla różnych zestawów danych.

Przykład 1: Utwórz zmienną fikcyjną zawierającą tylko dwie wartości

Załóżmy, że mamy następujący zestaw danych i chcemy wykorzystać płeć i wiek do przewidywania dochodów :

Aby użyć płci jako zmiennej predykcyjnej w modelu regresji, musimy przekształcić ją w zmienną fikcyjną.

Ponieważ jest to obecnie zmienna kategoryczna, która może przyjmować dwie różne wartości („Mężczyzna” lub „Kobieta”), po prostu tworzymy zmienną fikcyjną k -1 = 2-1 = 1.

Aby utworzyć tę fikcyjną zmienną, możemy wybrać jedną z wartości („Mężczyzna” lub „Kobieta”), która będzie reprezentować 0, a druga będzie reprezentować 1.

Ogólnie rzecz biorąc, najczęściej reprezentujemy najczęstszą wartość za pomocą 0, co w tym zbiorze danych oznaczałoby „Mężczyzna”.

Oto jak przekonwertować płeć na zmienną fikcyjną:

Przykład zmiennej fikcyjnej

Moglibyśmy następnie użyć Age i Gender_Dummy jako zmiennych predykcyjnych w modelu regresji.

Przykład 2: Utwórz zmienną fikcyjną z wieloma wartościami

Załóżmy, że mamy następujący zestaw danych i chcemy wykorzystać stan cywilny i wiek do przewidywania dochodów :

Aby wykorzystać stan cywilny jako zmienną predykcyjną w modelu regresji, musimy przekształcić go w zmienną fikcyjną.

Ponieważ jest to obecnie zmienna kategoryczna, która może przyjmować trzy różne wartości („Singiel”, „Żonaty” lub „Rozwiedziony”), musimy utworzyć k -1 = 3-1 = 2 zmienne fikcyjne.

Aby utworzyć tę fikcyjną zmienną, możemy pozostawić „Single” jako wartość bazową, ponieważ pojawia się ona najczęściej. Oto jak przekształcilibyśmy stan cywilny w zmienne fikcyjne:

Zmienna fikcyjna z trzema wartościami

Moglibyśmy następnie użyć Wiek , Żonaty i Rozwiedziony jako zmiennych predykcyjnych w modelu regresji.

Jak interpretować wyniki regresji ze zmiennymi fikcyjnymi

Załóżmy, że dopasowujemy model regresji liniowej wielokrotnej , korzystając ze zbioru danych z poprzedniego przykładu, w którym Wiek , Żonaty i Rozwiedziony jako zmienne predykcyjne oraz Dochód jako zmienna odpowiedzi.

Oto wynik regresji:

Jak interpretować zmienne fikcyjne w wynikach regresji

Dopasowaną linię regresji definiuje się jako:

Dochód = 14 276,21 + 1 471,67* (wiek) + 2 479,75* (mężatka) – 8 397,40* (rozwiedziony)

Możemy użyć tego równania, aby znaleźć szacunkowy dochód danej osoby na podstawie jej wieku i stanu cywilnego. Na przykład osoba w wieku 35 lat i będąca w związku małżeńskim miałaby szacunkowy dochód w wysokości 68 264 dolarów :

Dochód = 14 276,21 + 1 471,67*(35) + 2 479,75*(1) – 8 397,40*(0) = 68 264 USD

Oto jak interpretować współczynniki regresji w tabeli:

  • Przecięcie: Przecięcie oznacza średni dochód samotnej osoby w wieku zero. Oczywiście nie można mieć lat zerowych, więc nie ma sensu interpretować samego wyrazu wolnego w tym konkretnym modelu regresji.
  • Wiek: każdy rok podwyższenia wieku wiąże się ze średnim wzrostem dochodu o 1471,67 USD. Ponieważ wartość p (0,00) jest mniejsza niż 0,05, wiek jest statystycznie istotnym predyktorem dochodów.
  • Żonaty: osoba zamężna zarabia średnio o 2479,75 dolarów więcej niż osoba samotna. Ponieważ wartość p (0,80) jest nie mniejsza niż 0,05, różnica ta nie jest istotna statystycznie.
  • Rozwiedziony: osoba rozwiedziona zarabia średnio 8 397,40 dolarów mniej niż osoba samotna. Ponieważ wartość p (0,53) jest nie mniejsza niż 0,05, różnica ta nie jest istotna statystycznie.

Ponieważ obie zmienne fikcyjne nie były istotne statystycznie, mogliśmy usunąć z modelu stan cywilny jako czynnik predykcyjny, ponieważ nie wydaje się, aby zwiększał on wartość predykcyjną dochodu.

Dodatkowe zasoby

Zmienne jakościowe i ilościowe
Sztuczna pułapka zmienna
Jak czytać i interpretować tabelę regresji
Wyjaśnienie wartości P i istotności statystycznej

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *