Como usar cor() para calcular coeficientes de correlação em r
Você pode usar a função cor() em R para calcular coeficientes de correlação entre variáveis.
Aqui estão as maneiras mais comuns de usar esse recurso:
Método 1: calcular o coeficiente de correlação de Pearson entre duas variáveis
cor(df$x, df$y)
Use o coeficiente de correlação de Pearson ao calcular a correlação entre duas variáveis contínuas. (por exemplo, altura e peso)
Método 2: Calcular o coeficiente de correlação de Pearson entre todas as variáveis numéricas no quadro de dados
cor(df)
Este método retornará uma matriz de correlação contendo o coeficiente de correlação de Pearson entre cada combinação de pares de variáveis numéricas em um quadro de dados.
Método 3: calcular o coeficiente de correlação de Spearman entre duas variáveis
cor(df$x, df$y, method=' spearman ')
Use o coeficiente de correlação de Spearman ao calcular a correlação entre duas variáveis classificadas. (por exemplo, classificação da pontuação no exame de matemática de um aluno versus a classificação da pontuação no exame de ciências em uma turma)
Método 4: calcular o coeficiente de correlação de Kendall entre duas variáveis
cor(df$x, df$y, method=' kendall ')
Use o coeficiente de correlação de Kendall quando quiser usar a correlação de Spearman, mas o tamanho da amostra for pequeno e houver muitos vínculos.
Os exemplos a seguir mostram como usar cada método na prática com o seguinte quadro de dados em R que mostra o número de horas gastas estudando, o número de exames práticos realizados e a nota do exame final para oito alunos diferentes:
#create data frame
df <- data. frame (hours=c(1, 1, 3, 2, 4, 3, 5, 6),
prac_exams=c(4, 3, 3, 2, 3, 2, 1, 4),
score=c(69, 74, 74, 70, 89, 85, 99, 90))
#view data frame
df
hours prac_exams score
1 1 4 69
2 1 3 74
3 3 3 74
4 2 2 70
5 4 3 89
6 3 2 85
7 5 1 99
8 6 4 90
Exemplo 1: Calcule o coeficiente de correlação de Pearson entre duas variáveis
O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação de Pearson entre as variáveis horas e pontuação :
#calculate Pearson correlation coefficient between hours and score
cor(df$hours, df$score)
[1] 0.8600528
O coeficiente de correlação de Pearson entre horas e pontuação foi de 0,86.
Observe que se houver valores NA em seu quadro de dados, você pode usar o argumento use=’complete.obs’ para usar apenas as linhas onde não há valores NA:
#calculate Pearson correlation coefficient and ignore any rows with NA cor(df$hours, df$score, use=' complete.obs ')
Exemplo 2: Calcule o coeficiente de correlação de Pearson entre todas as variáveis numéricas
O código a seguir mostra como usar a função cor() para criar uma matriz de correlação contendo o coeficiente de correlação de Pearson entre todas as variáveis numéricas no quadro de dados:
#calculate Pearson correlation coefficient between all numeric variables
cor(df)
hours prac_exams score
hours 1.0000000 -0.1336063 0.8600528
prac_exams -0.1336063 1.0000000 -0.3951028
score 0.8600528 -0.3951028 1.0000000
Veja como interpretar o resultado:
- O coeficiente de correlação de Pearson entre horas e exames_prac é -0,13 .
- O coeficiente de correlação de Pearson entre horas e pontuação é de 0,86 .
- O coeficiente de correlação de Pearson entre prac_exams e a pontuação é -0,39 .
Nota : O coeficiente de correlação de Pearson entre cada variável individual e ela mesma é sempre 1, razão pela qual cada valor ao longo da diagonal da matriz de correlação é 1.
Exemplo 3: Calcule o coeficiente de correlação de Spearman entre duas variáveis
O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação de Spearman entre as variáveis horas e prac_exams :
#calculate Spearman correlation coefficient between hours and prac_exams cor(df$hours, df$prac_exams, method=' spearman ') [1] -0.1250391
O coeficiente de correlação de Spearman entre horas e exames práticos é de -0,125.
Exemplo 4: Calcule o coeficiente de correlação de Kendall entre duas variáveis
O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação Kendall entre as variáveis horas e prac_exams :
#calculate Kendall's correlation coefficient between hours and prac_exams cor(df$hours, df$prac_exams, method=' kendall ') [1] -0.1226791
O coeficiente de correlação de Kendall entre horas e prac_exams é de -0,123.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:
Como calcular a correlação deslizante em R
Como calcular a autocorrelação em R
Como calcular a correlação parcial em R