Jak obliczyć korelację według grupy w r
Możesz użyć następującej podstawowej składni, aby obliczyć korelację między dwiema zmiennymi według grupy w R:
library (dplyr)
df %>%
group_by(group_var) %>%
summarize(cor=cor(var1, var2))
Ta konkretna składnia oblicza korelację pomiędzy zmienną var1 i var2 , pogrupowaną według group_var .
Poniższy przykład pokazuje, jak zastosować tę składnię w praktyce.
Przykład: oblicz korelację według grupy w R
Załóżmy, że mamy następującą ramkę danych zawierającą informacje o koszykarzach z różnych drużyn:
#create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
points=c(18, 22, 19, 14, 14, 11, 20, 28),
assists=c(2, 7, 9, 3, 12, 10, 14, 21))
#view data frame
df
team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21
Możemy użyć następującej składni z pakietu dplyr , aby obliczyć korelację pomiędzy punktami i asystami , pogrupowanymi według drużyn :
library (dplyr)
df %>%
group_by(team) %>%
summarize(cor=cor(points, assists))
# A tibble: 2 x 2
team horn
1 A 0.603
2 B 0.982
Z wyniku możemy zobaczyć:
- Współczynnik korelacji pomiędzy punktami i asystami dla Drużyny A wynosi 0,603 .
- Współczynnik korelacji pomiędzy punktami i asystami dla Drużyny B wynosi 0,982 .
Ponieważ oba współczynniki korelacji są dodatnie, mówi nam to, że związek pomiędzy punktami i asystami dla obu drużyn jest dodatni.
Powiązane: Co uważa się za „silną” korelację?
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje w języku R:
Jak policzyć unikalne wartości według grupy w R
Jak obliczyć sumę według grupy w R
Jak obliczyć średnią na grupę w R
Jak obliczyć statystyki podsumowujące według grup w R