Jak utworzyć macierz korelacji w r (4 przykłady)


Macierz korelacji to kwadratowa tabela pokazująca współczynniki korelacji pomiędzy zmiennymi w zbiorze danych.

Zapewnia szybki sposób zrozumienia siły zależności liniowych istniejących między zmiennymi w zbiorze danych.

Istnieją cztery typowe sposoby tworzenia macierzy korelacji w R:

Metoda 1: funkcja cor (w celu uzyskania prostej macierzy współczynników korelacji)

 cor(df)

Metoda 2: funkcja rcorr (w celu uzyskania wartości p współczynników korelacji)

 library (Hmisc)

rcorr( as.matrix (df))

Metoda 3: funkcja corrplot (do wizualizacji macierzy korelacji)

 library (corplot)

corrplot(cor(df))

Metoda 4: funkcja ggcorrplot (do wizualizacji macierzy korelacji)

 library (ggcorrplot)

ggcorrplot(cor(df))

Poniższe przykłady pokazują, jak używać każdej metody z następującą ramką danych w R:

 #create data frame
df <- data. frame (assists=c(4, 5, 5, 6, 7, 8, 8, 10),
                 rebounds=c(12, 14, 13, 7, 8, 8, 9, 13),
                 points=c(22, 24, 26, 26, 29, 32, 20, 14))

#view data frame
df

  assists rebound points
1 4 12 22
2 5 14 24
3 5 13 26
4 6 7 26
5 7 8 29
6 8 8 32
7 8 9 20
8 10 13 14

Przykład 1: Funkcja cor

Możemy użyć funkcji R base cor() do utworzenia macierzy korelacji, która pokazuje współczynniki korelacji pomiędzy każdą zmienną w naszej ramce danych:

 #create correlation matrix
cor(df)

            assists rebound points
assists 1.0000000 -0.2448608 -0.3295730
rebounds -0.2448608 1.0000000 -0.5220917
points -0.3295730 -0.5220917 1.0000000

Wszystkie współczynniki korelacji wzdłuż przekątnej tabeli są równe 1, ponieważ każda zmienna jest doskonale skorelowana ze sobą.

Wszystkie pozostałe współczynniki korelacji wskazują na korelację pomiędzy różnymi kombinacjami zmiennych parami. Na przykład:

  • Współczynnik korelacji pomiędzy asystami i zbiórkami wynosi -0,245 .
  • Współczynnik korelacji pomiędzy asystami i punktami wynosi -0,330 .
  • Współczynnik korelacji pomiędzy zbiórkami i punktami wynosi -0,522 .

Przykład 2: funkcja rcorr

Możemy użyć funkcji rcorr() z pakietu Hmisc w R, aby utworzyć macierz korelacji, która pokazuje współczynniki korelacji pomiędzy każdą zmienną w naszej ramce danych:

 library (Hmisc)

#create matrix of correlation coefficients and p-values
rcorr( as.matrix (df))

         assists rebound points
assists 1.00 -0.24 -0.33
rebounds -0.24 1.00 -0.52
points -0.33 -0.52 1.00

n=8 

P
         assists rebound points
assists 0.5589 0.4253
rebounds 0.5589 0.1844
points 0.4253 0.1844

Pierwsza macierz pokazuje współczynniki korelacji między zmiennymi, a druga macierz pokazuje odpowiednie wartości p.

Na przykład współczynnik korelacji między asystami i zbiórkami wynosi -0,24 , a wartość p tego współczynnika korelacji wynosi 0,5589 .

Mówi nam to, że korelacja między dwiema zmiennymi jest ujemna, ale nie jest to korelacja istotna statystycznie, ponieważ wartość p jest nie mniejsza niż 0,05.

Przykład 3: Funkcja corrplot

Możemy użyć funkcji corrplot() z pakietu corrplot w R, aby zwizualizować macierz korelacji:

 library (corplot)

#visualize correlation matrix
corrplot(cor(df))

Kolor i rozmiar okręgów w macierzy korelacji pomagają nam zwizualizować korelacje pomiędzy każdą zmienną.

Na przykład okrąg, w którym przecinają się zmienne asyst i zbiórek, jest mały i jasnoczerwony, co mówi nam, że korelacja jest słaba i ujemna.

Przykład 4: Funkcja corrplot

Możemy użyć funkcji ggcorrplot() z pakietu ggcorrplot w R, aby zwizualizować macierz korelacji:

 library (ggcorrplot)

#visualize correlation matrix
ggcorrplot(cor(df))

Kolor kwadratów w macierzy korelacji pomaga nam zwizualizować korelacje pomiędzy każdą zmienną.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak obliczyć korelację rang Spearmana w R
Jak obliczyć korelację częściową w R
Jak obliczyć korelację przesuwną w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *