Como usar cor() para calcular coeficientes de correlação em r


Você pode usar a função cor() em R para calcular coeficientes de correlação entre variáveis.

Aqui estão as maneiras mais comuns de usar esse recurso:

Método 1: calcular o coeficiente de correlação de Pearson entre duas variáveis

 cor(df$x, df$y)

Use o coeficiente de correlação de Pearson ao calcular a correlação entre duas variáveis contínuas. (por exemplo, altura e peso)

Método 2: Calcular o coeficiente de correlação de Pearson entre todas as variáveis numéricas no quadro de dados

 cor(df)

Este método retornará uma matriz de correlação contendo o coeficiente de correlação de Pearson entre cada combinação de pares de variáveis numéricas em um quadro de dados.

Método 3: calcular o coeficiente de correlação de Spearman entre duas variáveis

 cor(df$x, df$y, method=' spearman ')

Use o coeficiente de correlação de Spearman ao calcular a correlação entre duas variáveis classificadas. (por exemplo, classificação da pontuação no exame de matemática de um aluno versus a classificação da pontuação no exame de ciências em uma turma)

Método 4: calcular o coeficiente de correlação de Kendall entre duas variáveis

 cor(df$x, df$y, method=' kendall ')

Use o coeficiente de correlação de Kendall quando quiser usar a correlação de Spearman, mas o tamanho da amostra for pequeno e houver muitos vínculos.

Os exemplos a seguir mostram como usar cada método na prática com o seguinte quadro de dados em R que mostra o número de horas gastas estudando, o número de exames práticos realizados e a nota do exame final para oito alunos diferentes:

 #create data frame
df <- data. frame (hours=c(1, 1, 3, 2, 4, 3, 5, 6),
                 prac_exams=c(4, 3, 3, 2, 3, 2, 1, 4),
                 score=c(69, 74, 74, 70, 89, 85, 99, 90))

#view data frame
df

  hours prac_exams score
1 1 4 69
2 1 3 74
3 3 3 74
4 2 2 70
5 4 3 89
6 3 2 85
7 5 1 99
8 6 4 90

Exemplo 1: Calcule o coeficiente de correlação de Pearson entre duas variáveis

O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação de Pearson entre as variáveis horas e pontuação :

 #calculate Pearson correlation coefficient between hours and score
cor(df$hours, df$score)

[1] 0.8600528

O coeficiente de correlação de Pearson entre horas e pontuação foi de 0,86.

Observe que se houver valores NA em seu quadro de dados, você pode usar o argumento use=’complete.obs’ para usar apenas as linhas onde não há valores NA:

 #calculate Pearson correlation coefficient and ignore any rows with NA
cor(df$hours, df$score, use=' complete.obs ')

Exemplo 2: Calcule o coeficiente de correlação de Pearson entre todas as variáveis numéricas

O código a seguir mostra como usar a função cor() para criar uma matriz de correlação contendo o coeficiente de correlação de Pearson entre todas as variáveis numéricas no quadro de dados:

 #calculate Pearson correlation coefficient between all numeric variables
cor(df)

                hours prac_exams score
hours 1.0000000 -0.1336063 0.8600528
prac_exams -0.1336063 1.0000000 -0.3951028
score 0.8600528 -0.3951028 1.0000000

Veja como interpretar o resultado:

  • O coeficiente de correlação de Pearson entre horas e exames_prac é -0,13 .
  • O coeficiente de correlação de Pearson entre horas e pontuação é de 0,86 .
  • O coeficiente de correlação de Pearson entre prac_exams e a pontuação é -0,39 .

Nota : O coeficiente de correlação de Pearson entre cada variável individual e ela mesma é sempre 1, razão pela qual cada valor ao longo da diagonal da matriz de correlação é 1.

Exemplo 3: Calcule o coeficiente de correlação de Spearman entre duas variáveis

O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação de Spearman entre as variáveis horas e prac_exams :

 #calculate Spearman correlation coefficient between hours and prac_exams
cor(df$hours, df$prac_exams, method=' spearman ')

[1] -0.1250391

O coeficiente de correlação de Spearman entre horas e exames práticos é de -0,125.

Exemplo 4: Calcule o coeficiente de correlação de Kendall entre duas variáveis

O código a seguir mostra como usar a função cor() para calcular o coeficiente de correlação Kendall entre as variáveis horas e prac_exams :

 #calculate Kendall's correlation coefficient between hours and prac_exams
cor(df$hours, df$prac_exams, method=' kendall ')

[1] -0.1226791

O coeficiente de correlação de Kendall entre horas e prac_exams é de -0,123.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:

Como calcular a correlação deslizante em R
Como calcular a autocorrelação em R
Como calcular a correlação parcial em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *