Hoe de gedeeltelijke correlatie in r te berekenen
In de statistiek gebruiken we vaak dePearson-correlatiecoëfficiënt om de lineaire relatie tussen twee variabelen te meten.
Soms willen we echter de relatie tussen twee variabelen begrijpen terwijl we een derde variabele controleren .
Stel dat we bijvoorbeeld het verband willen meten tussen het aantal studie-uren van een leerling en het eindexamencijfer, terwijl we controleren voor het huidige cijfer van de leerling in de klas.
In dit geval kunnen we partiële correlatie gebruiken om de relatie tussen het aantal gestudeerde uren en het eindexamencijfer te meten.
In deze tutorial wordt uitgelegd hoe u een gedeeltelijke correlatie in R kunt berekenen.
Voorbeeld: gedeeltelijke correlatie in R
Stel dat we het volgende gegevensframe hebben dat het huidige cijfer, het totale aantal gestudeerde uren en het eindexamencijfer voor 10 studenten weergeeft:
#create data frame df <- data. frame (currentGrade = c(82, 88, 75, 74, 93, 97, 83, 90, 90, 80), hours = c(4, 3, 6, 5, 4, 5, 8, 7, 4, 6), examScore = c(88, 85, 76, 70, 92, 94, 89, 85, 90, 93)) #view data frame df currentGrade hours examScore 1 82 4 88 2 88 3 85 3 75 6 76 4 74 5 70 5 93 4 92 6 97 5 94 7 83 8 89 8 90 7 85 9 90 4 90 10 80 6 93
Om de gedeeltelijke correlatie tussen elke paarsgewijze combinatie van variabelen in het dataframe te berekenen, kunnen we de functie pcor() uit de ppcor-bibliotheek gebruiken:
library (ppcor)
#calculate partial correlations
pcor(df)
$estimate
currentGrade hours examScore
currentGrade 1.0000000 -0.3112341 0.7355673
hours -0.3112341 1.0000000 0.1906258
examScore 0.7355673 0.1906258 1.0000000
$p.value
currentGrade hours examScore
currentGrade 0.00000000 0.4149353 0.02389896
hours 0.41493532 0.0000000 0.62322848
examScore 0.02389896 0.6232285 0.00000000
$statistic
currentGrade hours examScore
currentGrade 0.0000000 -0.8664833 2.8727185
hours -0.8664833 0.0000000 0.5137696
examScore 2.8727185 0.5137696 0.0000000
$n
[1] 10
$gp
[1] 1
$method
[1] "pearson"
Zo interpreteert u het resultaat:
Gedeeltelijke correlatie tussen gestudeerde uren en eindexamencijfer:
De gedeeltelijke correlatie tussen het aantal gestudeerde uren en het eindexamencijfer is 0,191 , wat een kleine positieve correlatie vertegenwoordigt. Naarmate het aantal studie-uren toeneemt, stijgen ook de examencijfers, ervan uitgaande dat het huidige cijfer constant blijft.
De p-waarde voor deze gedeeltelijke correlatie is 0,623 , wat niet statistisch significant is bij α = 0,05.
Gedeeltelijke correlatie tussen huidig cijfer en eindexamencijfer:
De deelcorrelatie tussen het huidige cijfer en het eindexamencijfer is 0,736 , wat een sterke positieve correlatie vertegenwoordigt. Naarmate het huidige cijfer stijgt, stijgen ook de examenscores, ervan uitgaande dat het aantal gestudeerde uren constant blijft.
De p-waarde voor deze gedeeltelijke correlatie is 0,024 , wat statistisch significant is bij α = 0,05.
Gedeeltelijke correlatie tussen huidig cijfer en bestudeerde uren:
De gedeeltelijke correlatie tussen het huidige cijfer, het aantal gestudeerde uren en het eindexamencijfer is -0,311 , wat een licht negatieve correlatie vertegenwoordigt. Naarmate het huidige cijfer stijgt, neigt het eindexamencijfer te dalen, ervan uitgaande dat het eindexamencijfer constant blijft.
De p-waarde voor deze gedeeltelijke correlatie is 0,415 , wat niet statistisch significant is bij α = 0,05.
Het resultaat vertelt ons ook dat de methode die werd gebruikt om de gedeeltelijke correlatie te berekenen “Pearson” was.
In de functie pcor() zouden we ook „kendall“ of „pearson“ kunnen specificeren als alternatieve methoden om correlaties te berekenen.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:
Hoe de Spearman-rangcorrelatie in R te berekenen
Hoe kruiscorrelatie in R te berekenen
Hoe de glijdende correlatie in R te berekenen
Hoe de punt-biseriële correlatie in R te berekenen