Como calcular a correlação parcial em r
Nas estatísticas, costumamos usar o coeficiente de correlação de Pearson para medir a relação linear entre duas variáveis.
Porém, às vezes queremos entender a relação entre duas variáveis enquanto controlamos uma terceira variável .
Por exemplo, suponha que queiramos medir a associação entre o número de horas de estudo de um aluno e a nota do exame final, controlando a nota atual do aluno na turma.
Neste caso, poderíamos utilizar a correlação parcial para medir a relação entre as horas estudadas e a nota do exame final.
Este tutorial explica como calcular uma correlação parcial em R.
Exemplo: correlação parcial em R
Suponha que temos o seguinte quadro de dados que exibe a nota atual, o total de horas estudadas e a nota do exame final para 10 alunos:
#create data frame df <- data. frame (currentGrade = c(82, 88, 75, 74, 93, 97, 83, 90, 90, 80), hours = c(4, 3, 6, 5, 4, 5, 8, 7, 4, 6), examScore = c(88, 85, 76, 70, 92, 94, 89, 85, 90, 93)) #view data frame df currentGrade hours examScore 1 82 4 88 2 88 3 85 3 75 6 76 4 74 5 70 5 93 4 92 6 97 5 94 7 83 8 89 8 90 7 85 9 90 4 90 10 80 6 93
Para calcular a correlação parcial entre cada combinação de variáveis em pares no dataframe, podemos usar a função pcor() da biblioteca ppcor :
library (ppcor)
#calculate partial correlations
pcor(df)
$estimate
currentGrade hours examScore
currentGrade 1.0000000 -0.3112341 0.7355673
hours -0.3112341 1.0000000 0.1906258
examScore 0.7355673 0.1906258 1.0000000
$p.value
currentGrade hours examScore
currentGrade 0.00000000 0.4149353 0.02389896
hours 0.41493532 0.0000000 0.62322848
examScore 0.02389896 0.6232285 0.00000000
$statistic
currentGrade hours examScore
currentGrade 0.0000000 -0.8664833 2.8727185
hours -0.8664833 0.0000000 0.5137696
examScore 2.8727185 0.5137696 0.0000000
$n
[1] 10
$gp
[1] 1
$method
[1] "pearson"
Veja como interpretar o resultado:
Correlação parcial entre horas estudadas e nota do exame final:
A correlação parcial entre horas estudadas e nota do exame final é de 0,191 , o que representa uma pequena correlação positiva. À medida que o número de horas de estudo aumenta, as notas dos exames também tendem a aumentar, assumindo que a nota atual permanece constante.
O valor p para esta correlação parcial é 0,623 , o que não é estatisticamente significativo para α = 0,05.
Correlação parcial entre a nota atual e a nota do exame final:
A correlação parcial entre a nota atual e a nota do exame final é de 0,736 , o que representa uma forte correlação positiva. À medida que a nota atual aumenta, as notas dos exames também tendem a aumentar, assumindo que o número de horas estudadas permanece constante.
O valor p para esta correlação parcial é 0,024 , o que é estatisticamente significativo para α = 0,05.
Correlação parcial entre a nota atual e as horas estudadas:
A correlação parcial entre nota atual, horas estudadas e nota do exame final é de -0,311 , o que representa uma correlação ligeiramente negativa. À medida que a nota atual aumenta, a nota do exame final tende a diminuir, assumindo que a nota do exame final se mantém constante.
O valor p para esta correlação parcial é 0,415 , o que não é estatisticamente significativo para α = 0,05.
O resultado também nos diz que o método utilizado para calcular a correlação parcial foi o “Pearson”.
Na função pcor() , também poderíamos especificar “kendall” ou “pearson” como métodos alternativos para calcular correlações.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:
Como calcular a correlação de classificação de Spearman em R
Como calcular a correlação cruzada em R
Como calcular a correlação deslizante em R
Como calcular a correlação ponto-bisserial em R