Come calcolare la correlazione per gruppo in r
È possibile utilizzare la seguente sintassi di base per calcolare la correlazione tra due variabili per gruppo in R:
library (dplyr)
df %>%
group_by(group_var) %>%
summarize(cor=cor(var1, var2))
Questa particolare sintassi calcola la correlazione tra var1 e var2 , raggruppati per group_var .
L’esempio seguente mostra come utilizzare questa sintassi nella pratica.
Esempio: calcolare la correlazione per gruppo in R
Supponiamo di avere il seguente frame di dati contenente informazioni sui giocatori di basket di diverse squadre:
#create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
points=c(18, 22, 19, 14, 14, 11, 20, 28),
assists=c(2, 7, 9, 3, 12, 10, 14, 21))
#view data frame
df
team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21
Possiamo utilizzare la seguente sintassi del pacchetto dplyr per calcolare la correlazione tra punti e assist , raggruppati per squadra :
library (dplyr)
df %>%
group_by(team) %>%
summarize(cor=cor(points, assists))
# A tibble: 2 x 2
team horn
1 A 0.603
2 B 0.982
Dal risultato possiamo vedere:
- Il coefficiente di correlazione tra punti e assist per la Squadra A è 0,603 .
- Il coefficiente di correlazione tra punti e assist per la Squadra B è 0,982 .
Poiché entrambi i coefficienti di correlazione sono positivi, ciò ci dice che il rapporto tra punti e assist per entrambe le squadre è positivo.
Correlati: cos’è considerata una correlazione “forte”?
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni in R:
Come contare valori univoci per gruppo in R
Come calcolare la somma per gruppo in R
Come calcolare la media per gruppo in R
Come calcolare le statistiche riassuntive per gruppo in R