Korelacje w stata: pearson, spearman i kendall


W statystyce korelacja odnosi się do siły i kierunku związku między dwiema zmiennymi. Wartość współczynnika korelacji może mieścić się w zakresie od -1 do 1, gdzie -1 oznacza idealną ujemną zależność, 0 oznacza brak związku, a 1 oznacza doskonałą dodatnią zależność.

Istnieją trzy popularne sposoby pomiaru korelacji:

Korelacja Pearsona: Służy do pomiaru korelacji między dwiema zmiennymi ciągłymi. (np. wzrost i waga)

Korelacja Spearmana: Służy do pomiaru korelacji między dwiema sklasyfikowanymi zmiennymi. (np. ranking wyników ucznia z egzaminu z matematyki w porównaniu z rankingiem jego wyników z egzaminu z przedmiotów ścisłych w klasie)

Korelacja Kendalla: Używana, gdy chcesz zastosować korelację Spearmana, ale wielkość próby jest mała i istnieje wiele powiązanych rankingów.

W tym samouczku wyjaśniono, jak znaleźć trzy typy korelacji w Stata.

Ładowanie danych

W każdym z poniższych przykładów użyjemy zbioru danych o nazwie auto . Możesz załadować ten zestaw danych, wpisując następujące polecenie w polu Polecenie:

użyj https://www.stata-press.com/data/r13/auto

Możemy uzyskać szybki przegląd zbioru danych, wpisując następujące polecenie w polu poleceń:

podsumować

Podsumuj przykładowe polecenie w Stata

Widzimy, że w zbiorze danych znajduje się łącznie 12 zmiennych.

Jak znaleźć korelację Pearsona w Stata

Współczynnik korelacji Pearsona pomiędzy zmiennymi wagi i długości możemy znaleźć za pomocą polecenia pwcorr :

pwcorr długość wagi

Korelacja Pearsona w Stata

Współczynnik korelacji Pearsona pomiędzy tymi dwiema zmiennymi wynosi 0,9460 . Aby określić, czy ten współczynnik korelacji jest istotny, możemy znaleźć wartość p za pomocą polecenia sig :

pwcorr długość ciężaru, sig

Znaczenie korelacji Pearsona w Stata

Wartość p wynosi 0,000 . Ponieważ jest to mniej niż 0,05, korelacja między tymi dwiema zmiennymi jest istotna statystycznie.

Aby znaleźć współczynnik korelacji Pearsona dla wielu zmiennych, po prostu wpisz listę zmiennych po poleceniu pwcorr :

pwcorr przemieszczenie długości ciężarka, sig

Korelacja Pearsona dla wielu zmiennych w Stata

Oto jak zinterpretować wynik:

  • Korelacja Pearsona między masą a długością = 0,9460 | wartość p = 0,000
  • Korelacja Pearsona między masą a przemieszczeniem = 0,8949 | wartość p = 0,000
  • Korelacja Pearsona pomiędzy przemieszczeniem a długością = 0,8351 | wartość p = 0,000

Jak znaleźć korelację Spearmana w Stata

Możemy znaleźć współczynnik korelacji Spearmana pomiędzy zmiennymi trunk i rep78 za pomocą polecenia spearman :

lanca tułowia rep78

Korelacja Spearmana w Stata

Oto jak zinterpretować wynik:

  • Liczba obs: Jest to liczba obserwacji parami używana do obliczenia współczynnika korelacji Spearmana. Ponieważ dla zmiennej rep78 brakowało niektórych wartości, Stata wykorzystał jedynie 69 obserwacji na parę (zamiast pełnych 74).
  • Rho Spearmana: Jest to współczynnik korelacji Spearmana. W tym przypadku jest to -0,2235, co oznacza, że pomiędzy obiema zmiennymi istnieje ujemna korelacja. Gdy jedno rośnie, drugie ma tendencję do zmniejszania się.
  • Prawdopodobne > |t| : Jest to wartość p powiązana z testem hipotezy. W tym przypadku wartość p wynosi 0,0649, co oznacza, że nie ma statystycznie istotnej korelacji pomiędzy obiema zmiennymi przy α = 0,05.

Możemy znaleźć współczynnik korelacji Spearmana dla wielu zmiennych, po prostu wpisując więcej zmiennych po poleceniu spearmana . Możemy znaleźć współczynnik korelacji i odpowiednią wartość p dla każdej korelacji parami za pomocą polecenia stats(rho p) :

włócznia tułowia rep78 gear_ratio, statystyki (rho p)

Korelacja Spearmana dla wielu zmiennych w Stata

Oto jak zinterpretować wynik:

  • Korelacja Spearmana między tułowiem a rep78 = -0,2235 | wartość p = 0,0649
  • Korelacja Spearmana między pniem a współczynnikiem biegów = -0,5187 | wartość p = 0,0000
  • Korelacja Spearmana pomiędzy gear_ratio i rep78 = 0,4275 | wartość p = 0,0002

Jak znaleźć korelację Kendalla w Stata

Możemy znaleźć współczynnik korelacji Kendalla pomiędzy zmiennymi trunk i rep78 za pomocą polecenia ktau :

ktau pnia rep78

Korelacja Kendalla w Stata

Oto jak zinterpretować wynik:

  • Liczba obs: Jest to liczba obserwacji parami używana do obliczenia współczynnika korelacji Kendalla. Ponieważ dla zmiennej rep78 brakowało niektórych wartości, Stata wykorzystał jedynie 69 obserwacji na parę (zamiast pełnych 74).
  • Tau-b Kendalla: Jest to współczynnik korelacji Kendalla między dwiema zmiennymi. Zwykle używamy tej wartości zamiast tau-a, ponieważ tau-b dokonuje korekt w przypadku remisu. W tym przypadku tau-b = -0,1752, co wskazuje na ujemną korelację pomiędzy obiema zmiennymi.
  • Prawdopodobne > |z| : Jest to wartość p powiązana z testem hipotezy. W tym przypadku wartość p wynosi 0,0662, co oznacza, że nie ma statystycznie istotnej korelacji pomiędzy obiema zmiennymi przy α = 0,05.

Możemy znaleźć współczynnik korelacji Kendalla dla wielu zmiennych, po prostu wpisując więcej zmiennych po poleceniu ktau . Możemy znaleźć współczynnik korelacji i odpowiednią wartość p dla każdej korelacji parami za pomocą polecenia stats(taub p) :

ktau bagażnik rep78 gear_ratio, statystyki (taub p)

Tau Kendalla dla wielu zmiennych w Stata

  • Korelacja Kendalla między tułowiem a rep78 = -0,1752 | wartość p = 0,0662
  • Korelacja Kendalla między bagażnikiem a współczynnikiem przekładni = -0,3753 | wartość p = 0,0000
  • Korelacja Kendalla pomiędzy gear_ratio i rep78 = 0,3206 | wartość p = 0,0006

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *