Come calcolare la correlazione per gruppo in r


È possibile utilizzare la seguente sintassi di base per calcolare la correlazione tra due variabili per gruppo in R:

 library (dplyr)

df %>%
  group_by(group_var) %>%
  summarize(cor=cor(var1, var2))

Questa particolare sintassi calcola la correlazione tra var1 e var2 , raggruppati per group_var .

L’esempio seguente mostra come utilizzare questa sintassi nella pratica.

Esempio: calcolare la correlazione per gruppo in R

Supponiamo di avere il seguente frame di dati contenente informazioni sui giocatori di basket di diverse squadre:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(18, 22, 19, 14, 14, 11, 20, 28),
                 assists=c(2, 7, 9, 3, 12, 10, 14, 21))

#view data frame
df

  team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21

Possiamo utilizzare la seguente sintassi del pacchetto dplyr per calcolare la correlazione tra punti e assist , raggruppati per squadra :

 library (dplyr)

df %>%
  group_by(team) %>%
  summarize(cor=cor(points, assists))

# A tibble: 2 x 2
  team horn
   
1 A 0.603
2 B 0.982

Dal risultato possiamo vedere:

  • Il coefficiente di correlazione tra punti e assist per la Squadra A è 0,603 .
  • Il coefficiente di correlazione tra punti e assist per la Squadra B è 0,982 .

Poiché entrambi i coefficienti di correlazione sono positivi, ciò ci dice che il rapporto tra punti e assist per entrambe le squadre è positivo.

Correlati: cos’è considerata una correlazione “forte”?

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni in R:

Come contare valori univoci per gruppo in R
Come calcolare la somma per gruppo in R
Come calcolare la media per gruppo in R
Come calcolare le statistiche riassuntive per gruppo in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *