Correlaties in stata: pearson, spearman en kendall
In de statistiek verwijst correlatie naar de sterkte en richting van een verband tussen twee variabelen. De waarde van een correlatiecoëfficiënt kan variëren van -1 tot 1, waarbij -1 een perfect negatief verband aangeeft, 0 geen verband aangeeft en 1 een perfect positief verband aangeeft.
Er zijn drie veelgebruikte manieren om correlatie te meten:
Pearson-correlatie: wordt gebruikt om de correlatie tussen twee continue variabelen te meten. (bijvoorbeeld lengte en gewicht)
Spearman-correlatie: wordt gebruikt om de correlatie tussen twee geclassificeerde variabelen te meten. (bijv. rangschikking van de wiskunde-examenscore van een leerling versus de rangschikking van zijn wetenschapsexamenscore in een klas)
Kendall’s correlatie: wordt gebruikt als u de Spearman-correlatie wilt gebruiken, maar de steekproefomvang klein is en er veel gerelateerde ranglijsten zijn.
In deze tutorial wordt uitgelegd hoe u de drie soorten correlaties in Stata kunt vinden.
Data laden
Voor elk van de volgende voorbeelden gebruiken we een gegevensset met de naam auto . U kunt deze gegevensset laden door het volgende in het opdrachtvak te typen:
gebruik https://www.stata-press.com/data/r13/auto
We kunnen een snel overzicht krijgen van de dataset door het volgende in het opdrachtvenster te typen:
samenvatten
We kunnen zien dat er in totaal 12 variabelen in de dataset voorkomen.
Hoe Pearson-correlatie te vinden in Stata
We kunnen dePearson-correlatiecoëfficiënt tussen de variabelen gewicht en lengte vinden met behulp van de opdracht pwcorr :
pwcorr gewicht lengte
De Pearson-correlatiecoëfficiënt tussen deze twee variabelen is 0,9460 . Om te bepalen of deze correlatiecoëfficiënt significant is, kunnen we de waarde van p vinden met behulp van het sig- commando:
pwcorr gewicht lengte, afm
De p-waarde is 0,000 . Omdat dit minder dan 0,05 is, is de correlatie tussen deze twee variabelen statistisch significant.
Om de Pearson-correlatiecoëfficiënt voor meerdere variabelen te vinden, typt u eenvoudigweg een lijst met variabelen na de opdracht pwcorr :
pwcorr gewicht lengte verplaatsing, sig
Zo interpreteert u het resultaat:
- Pearson-correlatie tussen gewicht en lengte = 0,9460 | p-waarde = 0,000
- Pearson-correlatie tussen gewicht en verplaatsing = 0,8949 | p-waarde = 0,000
- Pearson-correlatie tussen verplaatsing en lengte = 0,8351 | p-waarde = 0,000
Hoe de correlatie van Spearman in Stata te vinden
We kunnen de Spearman-correlatiecoëfficiënt tussen de variabelen trunk en rep78 vinden met behulp van het spearman- commando:
lans kofferbak rep78
Zo interpreteert u het resultaat:
- Aantal obs: dit is het aantal paarsgewijze waarnemingen dat wordt gebruikt om de Spearman-correlatiecoëfficiënt te berekenen. Omdat sommige waarden voor de variabele rep78 ontbraken, gebruikte Stata slechts 69 waarnemingen per paar (in plaats van de volledige 74).
- Spearman’s Rho: Dit is de Spearman-correlatiecoëfficiënt. In dit geval is het -0,2235, wat aangeeft dat er een negatieve correlatie bestaat tussen de twee variabelen. Naarmate de één toeneemt, heeft de ander de neiging af te nemen.
- Waarschijnlijk > |t| : Dit is de p-waarde die is gekoppeld aan de hypothesetest. In dit geval is de p-waarde 0,0649, wat aangeeft dat er geen statistisch significante correlatie bestaat tussen de twee variabelen bij α = 0,05.
We kunnen de Spearman-correlatiecoëfficiënt voor meerdere variabelen vinden door simpelweg meer variabelen te typen na het speerman- commando. We kunnen de correlatiecoëfficiënt en de bijbehorende p-waarde voor elke paarsgewijze correlatie vinden met behulp van de opdracht stats(rho p) :
speerman kofferbak rep78 gear_ratio, statistieken (rho p)
Zo interpreteert u het resultaat:
- Spearman-correlatie tussen romp en rep78 = -0,2235 | p-waarde = 0,0649
- Spearman-correlatie tussen trunk en gear_ratio = -0,5187 | p-waarde = 0,0000
- Spearman-correlatie tussen gear_ratio en rep78 = 0,4275 | p-waarde = 0,0002
Hoe de correlatie van Kendall in Stata te vinden
We kunnen de Kendall-correlatiecoëfficiënt tussen de trunk- en rep78 -variabelen vinden met behulp van de ktau- opdracht:
ktau kofferbak rep78
Zo interpreteert u het resultaat:
- Aantal obs: dit is het aantal paarsgewijze waarnemingen dat wordt gebruikt om de Kendall-correlatiecoëfficiënt te berekenen. Omdat sommige waarden voor de variabele rep78 ontbraken, gebruikte Stata slechts 69 waarnemingen per paar (in plaats van de volledige 74).
- Kendall’s Tau-b: Dit is de Kendall’s correlatiecoëfficiënt tussen de twee variabelen. Over het algemeen gebruiken we deze waarde in plaats van tau-a, omdat tau-b aanpassingen doorvoert in geval van gelijkspel. In dit geval is tau-b = -0,1752, wat wijst op een negatieve correlatie tussen de twee variabelen.
- Waarschijnlijk > |z| : Dit is de p-waarde die is gekoppeld aan de hypothesetest. In dit geval is de p-waarde 0,0662, wat aangeeft dat er geen statistisch significante correlatie bestaat tussen de twee variabelen bij α = 0,05.
We kunnen de correlatiecoëfficiënt van Kendall voor meerdere variabelen vinden door simpelweg meer variabelen te typen na de opdracht ktau . We kunnen de correlatiecoëfficiënt en de bijbehorende p-waarde voor elke paarsgewijze correlatie vinden met behulp van de opdracht stats(taub p) :
ktau trunk rep78 gear_ratio, statistieken (taub p)
- Kendall-correlatie tussen romp en rep78 = -0,1752 | p-waarde = 0,0662
- Kendall’s correlatie tussen trunk en gear_ratio = -0,3753 | p-waarde = 0,0000
- Kendall-correlatie tussen gear_ratio en rep78 = 0,3206 | p-waarde = 0,0006