Jak utworzyć macierz korelacji w stata
W statystyce często staramy się zrozumieć związek między dwiema zmiennymi. Na przykład możemy chcieć zrozumieć związek między liczbą godzin nauki studenta a oceną, jaką otrzymuje na egzaminie.
Jednym ze sposobów ilościowego określenia tej zależności jest użycie współczynnika korelacji Pearsona , który jest miarą liniowego związku między dwiema zmiennymi . Ma wartość od -1 do 1, gdzie:
- -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi
- Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi
- 1 wskazuje doskonale dodatnią korelację liniową pomiędzy dwiema zmiennymi
Im współczynnik korelacji jest bardziej od zera, tym silniejszy jest związek między obiema zmiennymi.
Jednak w niektórych przypadkach chcemy zrozumieć korelację między wieloma parami zmiennych. W takich przypadkach możemy utworzyć macierz korelacji , która jest kwadratową tabelą pokazującą współczynniki korelacji pomiędzy kilkoma parami kombinacji zmiennych.
W tym samouczku wyjaśniamy, jak utworzyć macierz korelacji w Stata.
Jak utworzyć macierz korelacji w Stata
Komendy corr można użyć do utworzenia macierzy korelacji dla określonego zbioru danych w Stata.
Aby to zilustrować, załadujmy dane ze spisu ludności z 1980 r. do Stata, wpisując w polu poleceń:
użyj https://www.stata-press.com/data/r13/census13
Możemy następnie uzyskać szybkie podsumowanie zbioru danych, wpisując następujące polecenie w polu poleceń:
podsumować
W wyniku tego powstaje następująca tabela:
Widzimy, że zbiór danych zawiera dziewięć różnych zmiennych. Aby utworzyć macierz korelacji dla każdej pary zmiennych w zbiorze danych, możemy wprowadzić w polu poleceń:
kor
Daje to następującą macierz korelacji:
Liczby pokazane w tabeli reprezentują współczynniki korelacji Pearsona dla każdej pary kombinacji zmiennych. Na przykład korelacja między populacją a stanem wynosi -0,0540 . Oznacza to, że te dwie zmienne są nieco ujemnie skorelowane.
Należy zauważyć, że korelacje wzdłuż przekątnych tabeli wynoszą 1,0000, ponieważ każda zmienna jest doskonale skorelowana sama ze sobą.
Można także utworzyć macierz korelacji tylko dla określonego podzbioru zmiennych w zbiorze danych, określając zmienne po poleceniu corr . Na przykład, oto jak utworzyć macierz korelacji tylko dla zmiennych pop , medage i region :
corr region mediów popowych
Daje to następującą macierz korelacji tylko dla tych trzech zmiennych:
Możliwe jest również umieszczenie gwiazdki obok współczynników korelacji, które są statystycznie istotne na pewnym poziomie istotności, za pomocą polecenia pwcorr (które daje taki sam wynik jak corr ) z poleceniem star() .
Na przykład poniższy kod tworzy macierz korelacji dla każdej zmiennej w zbiorze danych spisowych i umieszcza gwiazdkę obok współczynników korelacji, które są statystycznie istotne przy α = 0,05:
pwcorr, gwiazda (.05)
Zwróć uwagę, że kilka współczynników korelacji w tabeli jest statystycznie istotnych przy α = 0,05. Moglibyśmy ustawić α na dowolną liczbę, ale najczęściej wybierane są 0,01, 0,05 i 0,10.
Ogólnie rzecz biorąc, im niższa wartość α, tym mniej istotne statystycznie będą współczynniki korelacji. Załóżmy na przykład, że ustawiamy α = 0,01.
pwcorr, gwiazda (.01)
Zwróć uwagę, że obok mniejszej liczby współczynników korelacji znajduje się gwiazdka.