Como calcular a correlação por grupo em r


Você pode usar a seguinte sintaxe básica para calcular a correlação entre duas variáveis por grupo em R:

 library (dplyr)

df %>%
  group_by(group_var) %>%
  summarize(cor=cor(var1, var2))

Esta sintaxe específica calcula a correlação entre var1 e var2 , agrupados por group_var .

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: calcular correlação por grupo em R

Suponha que temos o seguinte quadro de dados contendo informações sobre jogadores de basquete de diferentes times:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(18, 22, 19, 14, 14, 11, 20, 28),
                 assists=c(2, 7, 9, 3, 12, 10, 14, 21))

#view data frame
df

  team points assists
1 to 18 2
2 to 22 7
3 A 19 9
4 A 14 3
5 B 14 12
6 B 11 10
7 B 20 14
8 B 28 21

Podemos usar a seguinte sintaxe do pacote dplyr para calcular a correlação entre pontos e assistências , agrupados por equipe :

 library (dplyr)

df %>%
  group_by(team) %>%
  summarize(cor=cor(points, assists))

# A tibble: 2 x 2
  team horn
   
1 A 0.603
2 B 0.982

Pelo resultado podemos ver:

  • O coeficiente de correlação entre pontos e assistências da Equipe A é de 0,603 .
  • O coeficiente de correlação entre pontos e assistências da Equipe B é de 0,982 .

Como ambos os coeficientes de correlação são positivos, isto diz-nos que a relação entre pontos e assistências para ambas as equipas é positiva.

Relacionado: O que é considerado uma correlação “forte”?

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em R:

Como contar valores únicos por grupo em R
Como calcular soma por grupo em R
Como calcular a média por grupo em R
Como calcular estatísticas resumidas por grupo em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *