Korelacja

W tym artykule wyjaśniono znaczenie korelacji między dwiema zmiennymi, sposób obliczenia współczynnika korelacji oraz różne typy istniejących korelacji. Dodatkowo pokazano, jak interpretować wartość korelacji pomiędzy dwiema zmiennymi.

Co to jest korelacja?

Korelacja jest miarą statystyczną, która wskazuje stopień związku między dwiema zmiennymi. Mówiąc dokładniej, korelację liniową stosuje się do określenia stopnia korelacji liniowej między dwiema różnymi zmiennymi.

Dwie zmienne są powiązane, gdy zmiana wartości jednej zmiennej powoduje również zmianę wartości drugiej zmiennej. Na przykład, jeśli zwiększenie zmiennej A zwiększa również zmienną B, istnieje korelacja między zmiennymi A i B.

Rodzaje korelacji

W zależności od zależności pomiędzy dwiema zmiennymi losowymi wyróżnia się następujące rodzaje korelacji liniowej :

  • Korelacja bezpośrednia (lub korelacja dodatnia) : jedna zmienna wzrasta, gdy druga również rośnie.
  • Korelacja odwrotna (lub korelacja ujemna) : gdy jedna zmienna rośnie, druga maleje i odwrotnie, jeśli jedna zmienna maleje, druga rośnie.
  • Korelacja zerowa (brak korelacji) : Nie ma związku pomiędzy tymi dwiema zmiennymi.

Należy pamiętać, że istnieją różne typy korelacji liniowej, ale może się również zdarzyć, że matematycznego związku między dwiema zmiennymi nie można przedstawić linią prostą, lecz zamiast tego należy użyć bardziej złożonej funkcji, takiej jak przypowieść. lub logarytm. W tym przypadku byłaby to korelacja nieliniowa .

Współczynnik korelacji

Biorąc pod uwagę definicję korelacji i różne istniejące typy korelacji, zobaczmy, jak obliczana jest ta wartość statystyczna.

Współczynnik korelacji , zwany także współczynnikiem korelacji liniowej lub współczynnikiem korelacji Pearsona , to wartość korelacji między dwiema zmiennymi.

Współczynnik korelacji dwóch zmiennych statystycznych jest równy ilorazowi kowariancji zmiennych i pierwiastka kwadratowego iloczynu wariancji każdej zmiennej. Dlatego wzór na obliczenie współczynnika korelacji jest następujący:

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

Przy obliczaniu współczynnika korelacji w populacji symbolem korelacji jest grecka litera ρ. Ale gdy współczynnik jest obliczany w odniesieniu do próbki, litera r jest zwykle używana jako symbol.

Wartość wskaźnika korelacji może wynosić od -1 do +1 włącznie. Poniżej zobaczymy jak interpretowana jest wartość współczynnika korelacji.

Konkretny przykład obliczania współczynnika korelacji można znaleźć pod następującym linkiem:

Należy pamiętać, że istnieją inne typy współczynników korelacji, takie jak współczynnik korelacji Spearmana lub Kendalla. Jednak najczęstszym jest niewątpliwie współczynnik korelacji Pearsona.

Interpretacja zależności

Wartość współczynnika korelacji może wynosić od -1 do +1 włącznie. Zatem w zależności od wartości współczynnika korelacji oznacza to, że związek między obiema zmiennymi jest w jednym lub drugim kierunku. Oto jak interpretować wartość korelacji :

  • r=-1 : obie zmienne mają idealną ujemną korelację, więc możemy narysować linię o nachyleniu ujemnym, w której wszystkie punkty się łączą.
  • -1<r<0 : korelacja między dwiema zmiennymi jest ujemna, więc gdy jedna zmienna rośnie, druga maleje. Im wartość jest bliższa -1, tym bardziej ujemnie powiązane są zmienne.
  • r=0 : korelacja między dwiema zmiennymi jest bardzo słaba, w rzeczywistości zależność liniowa między nimi wynosi zero. Nie oznacza to, że zmienne są niezależne, ponieważ mogą mieć zależność nieliniową.
  • 0<r<1 : korelacja między dwiema zmiennymi jest dodatnia, im wartość jest bliższa +1, tym silniejszy jest związek między zmiennymi. W tym przypadku jedna zmienna ma tendencję do zwiększania swojej wartości, podczas gdy druga również rośnie.
  • r=1 : obie zmienne mają doskonałą dodatnią korelację, to znaczy mają dodatnią zależność liniową.
rodzaje korelacji

Jak widać na powyższych wykresach rozrzutu, im silniejsza korelacja między dwiema zmiennymi, tym bliżej siebie znajdują się punkty na wykresie. Z drugiej strony, jeśli punkty są bardzo daleko od siebie, oznacza to, że korelacja jest słaba.

Należy pamiętać, że nawet jeśli istnieje korelacja między dwiema zmiennymi, nie oznacza to, że istnieje między nimi związek przyczynowy, tzn . korelacja między dwiema zmiennymi nie oznacza, że zmiana jednej zmiennej jest przyczyną zmiany drugiej. zmienny.

Na przykład, jeśli odkryjemy, że istnieje pozytywny związek pomiędzy produkcją dwóch różnych hormonów w organizmie, nie musi to koniecznie oznaczać, że wzrost jednego hormonu prowadzi do wzrostu drugiego hormonu. Może się zdarzyć, że organizm wytwarza oba hormony, ponieważ potrzebuje obu do walki z chorobą i dlatego zwiększa poziom obu hormonów jednocześnie, w takim przypadku przyczyną będzie choroba. Aby ustalić, czy istnieje związek przyczynowy między tymi dwoma hormonami, należy przeprowadzić bardziej szczegółowe badania.

Korelacja i regresja

Korelacja i regresja to dwa ogólnie powiązane pojęcia, ponieważ oba są używane do analizy związku między dwiema zmiennymi.

Korelacja jest miarą statystyczną, która ilościowo określa związek między dwiema zmiennymi, jednak regresja polega na utworzeniu równania (jeśli jest to regresja liniowa, będzie to linia prosta), które pozwala na powiązanie obu zmiennych.

Zatem korelacja po prostu dostarcza wartości liczbowej relacji między zmiennymi, podczas gdy regresję można zastosować do próby przewidzenia wartości jednej zmiennej w stosunku do drugiej.

Ogólnie rzecz biorąc, najpierw analizujemy, czy zmienne są skorelowane, obliczając współczynnik korelacji. A jeśli korelacja jest znacząca, przeprowadzamy regresję zbioru danych.

Często myli się współczynniki korelacji z wartością nachylenia prostej otrzymanej w regresji liniowej, jednak nie są one równoważne.

Macierz korelacji

Macierz korelacji jest macierzą, która zawiera w pozycji i,j współczynnik korelacji pomiędzy zmiennymi i oraz j .

Zatem macierz korelacji jest macierzą kwadratową wypełnioną jedynkami na głównej przekątnej, a element wiersza i kolumny j składa się z wartości współczynnika korelacji pomiędzy zmienną i a zmienną j .

Zatem wzór na macierz korelacji jest następujący:

macierz korelacji

Złoto

r_{ij}

jest współczynnikiem korelacji pomiędzy zmiennymi

i

I

j.

Macierz korelacji jest bardzo przydatna do podsumowywania wyników i porównywania korelacji pomiędzy wieloma zmiennymi jednocześnie, ponieważ pozwala szybko sprawdzić, które zależności są mocne.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *