Jak czytać macierz korelacji


W statystyce często staramy się zrozumieć związek między dwiema zmiennymi.

Na przykład możemy chcieć zrozumieć związek między liczbą godzin nauki studenta a oceną, jaką otrzymuje na egzaminie.

Jednym ze sposobów ilościowego określenia tej zależności jest użycie współczynnika korelacji Pearsona , który jest miarą liniowego związku między dwiema zmiennymi . Ma wartość od -1 do 1, gdzie:

  • -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi
  • Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi
  • 1 wskazuje doskonale dodatnią korelację liniową pomiędzy dwiema zmiennymi

Im współczynnik korelacji jest bardziej od zera, tym silniejszy jest związek między obiema zmiennymi.

Powiązane: Co uważa się za „silną” korelację?

Jednak w niektórych przypadkach chcemy zrozumieć korelację między wieloma parami zmiennych. W takich przypadkach możemy utworzyć macierz korelacji , czyli kwadratową tabelę pokazującą współczynniki korelacji pomiędzy kilkoma zmiennymi.

Przykład macierzy korelacji

Poniższa macierz korelacji przedstawia współczynniki korelacji pomiędzy kilkoma zmiennymi związanymi z edukacją:

Przykład macierzy korelacji

Każda komórka w tabeli pokazuje korelację pomiędzy dwiema określonymi zmiennymi. Na przykład podświetlona komórka poniżej pokazuje, że korelacja między „godzinami spędzonymi na nauce” a „oceną z egzaminu” wynosi 0,82 , co wskazuje, że są one silnie dodatnio skorelowane. Więcej godzin spędzonych na nauce jest ściśle powiązane z wyższymi wynikami egzaminów.

Przykład odczytu macierzy korelacji

Podświetlona komórka poniżej pokazuje, że korelacja między „godzinami spędzonymi na nauce” a „godzinami spędzonymi na spaniu” wynosi -0,22 , co wskazuje, że są one słabo skorelowane ujemnie. Więcej godzin spędzonych na nauce wiąże się z mniejszą liczbą godzin spędzonych na spaniu.

Przykład ujemnej korelacji w macierzy korelacji

Podświetlona komórka poniżej pokazuje, że korelacja między „godzinami spędzonymi na spaniu” a „wynikiem IQ” wynosi 0,06 , co wskazuje, że są one w zasadzie nieskorelowane. Istnieje bardzo niewielki związek pomiędzy liczbą godzin snu ucznia a jego IQ.

Przykład macierzy korelacji bez korelacji

Należy również zauważyć, że wszystkie współczynniki korelacji wzdłuż przekątnej tabeli są równe 1, ponieważ każda zmienna jest doskonale skorelowana ze sobą. Komórki te nie są przydatne do interpretacji.

Przykład komórek diagonalnych w macierzy korelacji

Odmiany macierzy korelacji

Należy pamiętać, że macierz korelacji jest idealnie symetryczna. Na przykład komórka w prawym górnym rogu pokazuje dokładnie tę samą wartość, co komórka w lewym dolnym rogu:

Przykład symetrycznej macierzy korelacji

Rzeczywiście, te dwie komórki mierzą korelację między „godzinami spędzonymi na nauce” a „ocenami w szkole”.

Ponieważ macierz korelacji jest symetryczna, połowa współczynników korelacji wyświetlanych w macierzy jest zbędna i zbędna. Czasami więc wyświetlana będzie tylko połowa macierzy korelacji:

Połowa macierzy korelacji

Czasami macierz korelacji będzie pokolorowana jak mapa cieplna, aby współczynniki korelacji były jeszcze łatwiejsze do odczytania:

Przykład macierzy korelacji mapy cieplnej

Kiedy stosować macierz korelacji

W praktyce macierz korelacji jest powszechnie stosowana z trzech powodów:

1. Macierz korelacji w wygodny sposób podsumowuje zbiór danych.

Macierz korelacji to prosty sposób podsumowania korelacji pomiędzy wszystkimi zmiennymi w zbiorze danych. Załóżmy na przykład, że mamy następujący zbiór danych zawierający następujące informacje dotyczące 1000 uczniów:

Przykładowy zestaw danych surowych dla macierzy korelacji

Bardzo trudno byłoby zrozumieć związek pomiędzy każdą zmienną na podstawie samych surowych danych. Na szczęście macierz korelacji może pomóc nam szybko zrozumieć korelacje pomiędzy każdą parą zmiennych.

2. Macierz korelacji służy jako diagnoza regresji.

Jednym z kluczowych założeń wielokrotnej regresji liniowej jest to, że żadna zmienna niezależna w modelu nie jest silnie skorelowana z jakąkolwiek inną zmienną w modelu.

Gdy dwie zmienne niezależne są silnie skorelowane, skutkuje to problemem zwanym współliniowością i może utrudniać interpretację wyników regresji.

Jednym z najprostszych sposobów wykrycia potencjalnego problemu współliniowości jest spojrzenie na macierz korelacji i wizualne sprawdzenie, czy którakolwiek ze zmiennych jest ze sobą silnie skorelowana.

3. Macierz korelacji można wykorzystać jako dane wejściowe do innych analiz.

Macierz korelacji służy jako dane wejściowe do innych złożonych analiz, takich jak eksploracyjna analiza czynnikowa i modele równań strukturalnych.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak utworzyć macierz korelacji przy użyciu różnych programów statystycznych:

Jak utworzyć macierz korelacji w programie Excel
Jak utworzyć macierz korelacji w SPSS
Jak utworzyć macierz korelacji w Stata
Jak utworzyć macierz korelacji w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *