Jak obliczyć korelację według grupy w r


Możesz użyć następującej podstawowej składni, aby obliczyć korelację między dwiema zmiennymi według grupy w R:

 library (dplyr)

df %>%
  group_by(group_var) %>%
  summarize(cor=cor(var1, var2))

Ta konkretna składnia oblicza korelację pomiędzy zmienną var1 i var2 , pogrupowaną według group_var .

Poniższy przykład pokazuje, jak zastosować tę składnię w praktyce.

Przykład: oblicz korelację według grupy w R

Załóżmy, że mamy następującą ramkę danych zawierającą informacje o koszykarzach z różnych drużyn:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(18, 22, 19, 14, 14, 11, 20, 28),
                 assists=c(2, 7, 9, 3, 12, 10, 14, 21))

#view data frame
df

  team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21

Możemy użyć następującej składni z pakietu dplyr , aby obliczyć korelację pomiędzy punktami i asystami , pogrupowanymi według drużyn :

 library (dplyr)

df %>%
  group_by(team) %>%
  summarize(cor=cor(points, assists))

# A tibble: 2 x 2
  team horn
   
1 A 0.603
2 B 0.982

Z wyniku możemy zobaczyć:

  • Współczynnik korelacji pomiędzy punktami i asystami dla Drużyny A wynosi 0,603 .
  • Współczynnik korelacji pomiędzy punktami i asystami dla Drużyny B wynosi 0,982 .

Ponieważ oba współczynniki korelacji są dodatnie, mówi nam to, że związek pomiędzy punktami i asystami dla obu drużyn jest dodatni.

Powiązane: Co uważa się za „silną” korelację?

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje w języku R:

Jak policzyć unikalne wartości według grupy w R
Jak obliczyć sumę według grupy w R
Jak obliczyć średnią na grupę w R
Jak obliczyć statystyki podsumowujące według grup w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *