Regresja logistyczna a regresja liniowa: główne różnice


Dwa z najczęściej stosowanych modeli regresji to regresja liniowa i regresja logistyczna .

Obydwa typy modeli regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi , ale istnieje kilka kluczowych różnic między tymi dwoma modelami:

regresja logistyczna a regresja liniowa

Oto podsumowanie różnic:

Różnica nr 1: Typ zmiennej odpowiedzi

Model regresji liniowej stosuje się, gdy zmienna odpowiedzi przyjmuje wartość ciągłą, taką że:

  • Cena
  • Wysokość
  • Wiek
  • Dystans

I odwrotnie, model regresji logistycznej jest używany, gdy zmienna odpowiedzi przyjmuje wartość kategoryczną, taką jak:

  • Tak lub nie
  • Mężczyzna czy kobieta
  • Wygrać czy nie wygrać

Różnica nr 2: użyte równanie

Regresja liniowa wykorzystuje następujące równanie do podsumowania związku między zmiennymi predykcyjnymi a zmienną odpowiedzi:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Złoto:

  • Y: zmienna odpowiedzi
  • X j : j- ta zmienna predykcyjna
  • β j : Średni wpływ na Y jednojednostkowego wzrostu X j , przy założeniu, że wszystkie inne predyktory są stałe

Odwrotnie, regresja logistyczna wykorzystuje następujące równanie:

p(X) = e β 0 + β 1 X 1 + β 2 X 2 + + β p

Równanie to służy do przewidywania prawdopodobieństwa, że pojedyncza obserwacja należy do określonej kategorii.

Różnica nr 3: Metoda dopasowania równania

W regresji liniowej do znalezienia najlepiej dopasowanego równania regresji wykorzystuje się metodę zwaną zwykłą metodą najmniejszych kwadratów .

Z drugiej strony regresja logistyczna wykorzystuje metodę zwaną estymacją największej wiarygodności w celu znalezienia najlepiej dopasowanego równania regresji.

Różnica nr 4: wynik do przewidzenia

Regresja liniowa przewiduje ciągłą wartość jako wynik. Na przykład:

  • Cena (150 USD, 199 USD, 400 USD itd.)
  • Wysokość (14 cali, 2 stopy, 94,32 centymetra itp.)
  • Wiek (2 miesiące, 6 lat, 41,5 lat itd.)
  • Odległość (1,23 mil, 4,5 km itp.)

I odwrotnie, regresja logistyczna przewiduje prawdopodobieństwo jako wynik. Na przykład:

  • 40,3% szans na przyjęcie na uniwersytet.
  • 93,2% szans na wygraną w grze.
  • 34,2% szans na przyjęcie ustawy.

Kiedy stosować regresję logistyczną czy liniową

Poniższe problemy praktyczne mogą pomóc Ci lepiej zrozumieć, kiedy stosować regresję logistyczną, a kiedy regresję liniową.

Problem nr 1: Roczny dochód

Załóżmy, że ekonomista chce wykorzystać zmienne predykcyjne (1) przepracowane godziny w tygodniu i (2) lata edukacji, aby przewidzieć roczny dochód jednostek.

W tym scenariuszu zastosowałby regresję liniową , ponieważ zmienna odpowiedzi (dochód roczny) ma charakter ciągły.

Problem nr 2: Akceptacja uczelni

Załóżmy, że urzędnik ds. rekrutacji na studia chce wykorzystać zmienne predykcyjne (1) GPA i (2) wynik ACT, aby przewidzieć prawdopodobieństwo przyjęcia studenta na określoną uczelnię.

W tym scenariuszu zastosowałaby regresję logistyczną , ponieważ zmienna odpowiedzi jest kategoryczna i może przyjmować tylko dwie wartości: zaakceptowana lub niezaakceptowana.

Problem nr 3: Ceny nieruchomości

Załóżmy, że agent nieruchomości chce użyć zmiennych predykcyjnych (1) metraż kwadratowy, (2) liczba sypialni i (3) liczba łazienek, aby przewidzieć ceny sprzedaży domów.

W tym scenariuszu zastosowałaby regresję liniową , ponieważ zmienna odpowiedzi (cena) ma charakter ciągły.

Problem nr 4: Wykrywanie spamu

Załóżmy, że programista komputerowy chce użyć zmiennych predykcyjnych (1) liczby słów i (2) kraju pochodzenia, aby przewidzieć prawdopodobieństwo, że dana wiadomość e-mail jest spamem.

W tym scenariuszu zastosowałaby regresję logistyczną , ponieważ zmienna odpowiedzi jest kategoryczna i może przyjmować tylko dwie wartości: spam lub nie spam.

Dodatkowe zasoby

Poniższe samouczki zawierają więcej szczegółów na temat regresji liniowej:

Poniższe samouczki zawierają więcej szczegółów na temat regresji logistycznej:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *