Pięć hipotez korelacji pearsona

Przez Benjamin Anderson 22 lipca, 2023 Przewodnik 0 komentarzy

Współczynnik korelacji Pearsona (znany również jako „współczynnik korelacji iloczynu momentu”) mierzy liniową zależność między dwiema zmiennymi.

Zawsze przyjmuje wartość z zakresu od -1 do 1, gdzie:

-1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi
Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi
1 wskazuje doskonale dodatnią korelację liniową pomiędzy dwiema zmiennymi

Jednak przed obliczeniem współczynnika korelacji Pearsona między dwiema zmiennymi musimy upewnić się, że spełnionych jest pięć założeń:

1. Poziom pomiaru: Obie zmienne należy mierzyć na poziomie przedziału lub współczynnika .

2. Zależność liniowa: Musi istnieć liniowa zależność pomiędzy dwiema zmiennymi.

3. Normalność: obie zmienne powinny mieć rozkład w przybliżeniu normalny.

4. Powiązane pary: Każda obserwacja w zbiorze danych musi mieć parę wartości.

5. Brak wartości odstających: w zbiorze danych nie powinny znajdować się skrajne wartości odstające.

W tym artykule przedstawiamy wyjaśnienie każdego założenia, a także sposób ustalenia, czy założenie jest spełnione.

Hipoteza 1: Poziom pomiaru

Aby obliczyć współczynnik korelacji Pearsona między dwiema zmiennymi, obie zmienne należy zmierzyć na poziomie przedziału lub stosunku .

Poniższa grafika zawiera szybkie wyjaśnienie czterech poziomów, na których można mierzyć zmienne:

Oto kilka przykładów zmiennych, które można zmierzyć na skali interwałowej :

Temperatura: mierzona w stopniach Fahrenheita lub Celsjusza
Ocena kredytowa: mierzona od 300 do 850
Wyniki SAT: mierzone od 400 do 1600

Oto kilka przykładów zmiennych, które można zmierzyć na skali ilorazowej :

Wzrost: mierzony w centymetrach, calach, stopach itp.
Waga: mierzona w kilogramach, funtach itp.
Długość: mierzona w centymetrach, calach, stopach itp.

Jeśli zmienne mierzone są na poziomie porządkowym , należy obliczyć współczynnik korelacji Spearmana między nimi.

Powiązane: Poziomy pomiaru: nominalny, porządkowy, interwałowy i współczynnik

Hipoteza 2: Zależność liniowa

Aby obliczyć współczynnik korelacji Pearsona między dwiema zmiennymi, musi istnieć liniowa zależność między tymi dwiema zmiennymi.

Najprostszym sposobem sprawdzenia tej hipotezy jest po prostu utworzenie wykresu rozrzutu dwóch zmiennych. Jeżeli punkty na wykresie układają się w przybliżeniu w linii prostej, to istnieje zależność liniowa:

Jeśli jednak punkty są losowo rozproszone na wykresie lub mają inny rodzaj zależności (np. kwadratową), wówczas między zmiennymi nie istnieje zależność liniowa:

W tym przypadku współczynnik korelacji Pearsona nie będzie odpowiednio uchwycił związku między zmiennymi.

Hipoteza 3: normalność

Współczynnik korelacji Pearsona zakłada również, że te dwie zmienne mają w przybliżeniu rozkład normalny .

Możesz zweryfikować to założenie wizualnie, tworząc histogram lub wykres QQ dla każdej zmiennej.

1. Histogram

Jeśli histogram zbioru danych ma z grubsza kształt dzwonu, prawdopodobne jest, że dane mają rozkład normalny.

2. QQLand

Wykres QQ, skrót od „kwantyl-kwantyl”, to rodzaj wykresu przedstawiający teoretyczne kwantyle wzdłuż osi x (tzn. miejsce, w którym znajdowałyby się dane, gdyby miały rozkład normalny) oraz kwantyle próbek wzdłuż osi y. (tj. gdzie faktycznie znajdują się Twoje dane).

Jeżeli wartości danych przebiegają mniej więcej po linii prostej tworzącej kąt 45 stopni, wówczas zakłada się, że dane mają rozkład normalny.

Można także przeprowadzić formalny test statystyczny, aby określić, czy zmienna ma rozkład normalny.

Jeśli wartość p testu jest poniżej pewnego poziomu istotności (takiego jak α = 0,05), wówczas masz wystarczające dowody, aby stwierdzić, że dane nie mają rozkładu normalnego.

Istnieją trzy testy statystyczne powszechnie stosowane do testowania normalności:

1. Test Jarque’a-Bery

2. Test Shapiro-Wilka

3. Test Kołmogorowa-Smirnowa

Hipoteza 4: Powiązane pary

Współczynnik korelacji Pearsona zakłada również, że każda obserwacja w zbiorze danych musi mieć parę wartości.

Hipotezę tę można łatwo zweryfikować. Na przykład, jeśli obliczasz korelację między wagą a wzrostem, po prostu sprawdź, czy każda obserwacja w zbiorze danych ma miarę wagi i miarę wzrostu.

Hipoteza 5: Brak wartości odstających

Współczynnik korelacji Pearsona zakłada również, że w zbiorze danych nie ma skrajnych wartości odstających, ponieważ wartości odstające silnie wpływają na obliczenie współczynnika korelacji.

Aby to zilustrować, rozważ następujący zbiór danych:

Współczynnik korelacji Pearsona pomiędzy X i Y wynosi 0,949 .

Załóżmy jednak, że w zbiorze danych mamy wartość odstającą:

Współczynnik korelacji Pearsona pomiędzy X i Y wynosi obecnie 0,711 .

Wartość odstająca znacząco zmienia współczynnik korelacji Pearsona między dwiema zmiennymi. W takim przypadku rozsądne może być usunięcie wartości odstającej ze zbioru danych.

Powiązane: Kompletny przewodnik: Kiedy usunąć wartości odstające z danych

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat korelacji Pearsona:

Wprowadzenie do współczynnika korelacji Pearsona
Jak zgłosić korelację Pearsona w formacie APA
Jak ręcznie obliczyć współczynnik korelacji Pearsona

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej