Jak utworzyć fikcyjne zmienne w programie excel (krok po kroku)
Zmienna fikcyjna to typ zmiennej, który tworzymy w analizie regresji, abyśmy mogli przedstawić zmienną kategorialną jako zmienną numeryczną, która przyjmuje jedną z dwóch wartości: zero lub jeden.
Załóżmy na przykład, że mamy następujący zestaw danych i chcemy wykorzystać wiek i stan cywilny do przewidywania dochodów :
Aby wykorzystać stan cywilny jako zmienną predykcyjną w modelu regresji, musimy przekształcić go w zmienną fikcyjną.
Ponieważ jest to obecnie zmienna kategoryczna, która może przyjmować trzy różne wartości („Singiel”, „Żonaty” lub „Rozwiedziony”), musimy utworzyć k -1 = 3-1 = 2 zmienne fikcyjne.
Aby utworzyć tę fikcyjną zmienną, możemy pozostawić „Single” jako wartość bazową, ponieważ pojawia się ona najczęściej. Oto jak zamienilibyśmy stan cywilny na zmienne fikcyjne:
W tym samouczku przedstawiono krok po kroku sposób tworzenia zmiennych fikcyjnych dla dokładnie tego zestawu danych w programie Excel, a następnie przeprowadzania analizy regresji przy użyciu tych zmiennych fikcyjnych jako predyktorów.
Krok 1: Utwórz dane
Najpierw utwórzmy zbiór danych w Excelu:
Krok 2: Utwórz zmienne fikcyjne
Następnie możemy skopiować wartości z kolumn A i B do kolumn E i F, a następnie za pomocą funkcji JEŻELI() w Excelu zdefiniować dwie nowe zmienne fikcyjne: Żonaty i Rozwiedziony.
Oto formuła, której użyliśmy w komórce G2 i którą skopiowaliśmy do pozostałych komórek w kolumnie G:
= IF (C2 = "Married", 1, 0)
A oto formuła, której użyliśmy w komórce H2 i którą skopiowaliśmy do pozostałych komórek w kolumnie H:
= IF (C2 = "Divorced", 1, 0)
Następnie możemy użyć tych zmiennych fikcyjnych w modelu regresji, aby przewidzieć dochód.
Krok 3: Wykonaj regresję liniową
Aby wykonać wielokrotną regresję liniową, musimy kliknąć zakładkę Dane na górnej wstążce, a następnie kliknąć Analiza danych w sekcji Analiza :
Jeżeli ta opcja nie jest dostępna, należy najpierw załadować pakiet Analysis Toolpak .
W wyświetlonym oknie kliknij Regresja , a następnie kliknij OK .
Następnie uzupełnij poniższe informacje i kliknij OK .
Daje to następujący wynik:
Z wyniku widzimy, że dopasowana linia regresji ma postać:
Dochód = 14 276,12 + 1 471,67*(wiek) + 2 479,75* (żonaty) – 8 397,40* (rozwiedziony)
Możemy użyć tego równania, aby znaleźć szacunkowy dochód danej osoby na podstawie jej wieku i stanu cywilnego. Na przykład osoba w wieku 35 lat i będąca w związku małżeńskim miałaby szacunkowy dochód w wysokości 68 264 dolarów :
Dochód = 14 276,12 + 1 471,67*(35) + 2 479,75*(1) – 8 397,40*(0) = 68 264 USD
Oto jak interpretować współczynniki regresji w tabeli:
- Przecięcie: Przecięcie oznacza średni dochód samotnej osoby w wieku zero. Ponieważ dana osoba nie może mieć zera lat, nie ma sensu interpretować samego wyrazu wolnego w tym konkretnym modelu regresji.
- Wiek: każdy rok podwyższenia wieku wiąże się ze średnim wzrostem dochodu o 1471,67 USD. Ponieważ wartość p (0,004) jest mniejsza niż 0,05, wiek jest statystycznie istotnym predyktorem dochodów.
- Żonaty: osoba zamężna zarabia średnio o 2479,75 dolarów więcej niż osoba samotna. Ponieważ wartość p (0,800) jest nie mniejsza niż 0,05, różnica ta nie jest istotna statystycznie.
- Rozwiedziony: osoba rozwiedziona zarabia średnio 8 397,40 dolarów mniej niż osoba samotna. Ponieważ wartość p (0,532) jest nie mniejsza niż 0,05, różnica ta nie jest istotna statystycznie.
Ponieważ obie zmienne fikcyjne nie były istotne statystycznie, mogliśmy usunąć z modelu stan cywilny jako czynnik predykcyjny, ponieważ nie wydaje się, aby zwiększał on wartość predykcyjną dochodu.
Dodatkowe zasoby
Jak wykonać prostą regresję liniową w programie Excel
Jak obliczyć pozostałą sumę kwadratów w programie Excel
Jak wykonać regresję wielomianową w programie Excel
Jak utworzyć wykres resztowy w programie Excel