Correlaties in stata: pearson, spearman en kendall


In de statistiek verwijst correlatie naar de sterkte en richting van een verband tussen twee variabelen. De waarde van een correlatiecoëfficiënt kan variëren van -1 tot 1, waarbij -1 een perfect negatief verband aangeeft, 0 geen verband aangeeft en 1 een perfect positief verband aangeeft.

Er zijn drie veelgebruikte manieren om correlatie te meten:

Pearson-correlatie: wordt gebruikt om de correlatie tussen twee continue variabelen te meten. (bijvoorbeeld lengte en gewicht)

Spearman-correlatie: wordt gebruikt om de correlatie tussen twee geclassificeerde variabelen te meten. (bijv. rangschikking van de wiskunde-examenscore van een leerling versus de rangschikking van zijn wetenschapsexamenscore in een klas)

Kendall’s correlatie: wordt gebruikt als u de Spearman-correlatie wilt gebruiken, maar de steekproefomvang klein is en er veel gerelateerde ranglijsten zijn.

In deze tutorial wordt uitgelegd hoe u de drie soorten correlaties in Stata kunt vinden.

Data laden

Voor elk van de volgende voorbeelden gebruiken we een gegevensset met de naam auto . U kunt deze gegevensset laden door het volgende in het opdrachtvak te typen:

gebruik https://www.stata-press.com/data/r13/auto

We kunnen een snel overzicht krijgen van de dataset door het volgende in het opdrachtvenster te typen:

samenvatten

Vat een voorbeeldopdracht in Stata samen

We kunnen zien dat er in totaal 12 variabelen in de dataset voorkomen.

Hoe Pearson-correlatie te vinden in Stata

We kunnen dePearson-correlatiecoëfficiënt tussen de variabelen gewicht en lengte vinden met behulp van de opdracht pwcorr :

pwcorr gewicht lengte

Pearson-correlatie in Stata

De Pearson-correlatiecoëfficiënt tussen deze twee variabelen is 0,9460 . Om te bepalen of deze correlatiecoëfficiënt significant is, kunnen we de waarde van p vinden met behulp van het sig- commando:

pwcorr gewicht lengte, afm

Betekenis van Pearson-correlatie in Stata

De p-waarde is 0,000 . Omdat dit minder dan 0,05 is, is de correlatie tussen deze twee variabelen statistisch significant.

Om de Pearson-correlatiecoëfficiënt voor meerdere variabelen te vinden, typt u eenvoudigweg een lijst met variabelen na de opdracht pwcorr :

pwcorr gewicht lengte verplaatsing, sig

Pearson-correlatie voor meerdere variabelen in Stata

Zo interpreteert u het resultaat:

  • Pearson-correlatie tussen gewicht en lengte = 0,9460 | p-waarde = 0,000
  • Pearson-correlatie tussen gewicht en verplaatsing = 0,8949 | p-waarde = 0,000
  • Pearson-correlatie tussen verplaatsing en lengte = 0,8351 | p-waarde = 0,000

Hoe de correlatie van Spearman in Stata te vinden

We kunnen de Spearman-correlatiecoëfficiënt tussen de variabelen trunk en rep78 vinden met behulp van het spearman- commando:

lans kofferbak rep78

Spearman-correlatie in Stata

Zo interpreteert u het resultaat:

  • Aantal obs: dit is het aantal paarsgewijze waarnemingen dat wordt gebruikt om de Spearman-correlatiecoëfficiënt te berekenen. Omdat sommige waarden voor de variabele rep78 ontbraken, gebruikte Stata slechts 69 waarnemingen per paar (in plaats van de volledige 74).
  • Spearman’s Rho: Dit is de Spearman-correlatiecoëfficiënt. In dit geval is het -0,2235, wat aangeeft dat er een negatieve correlatie bestaat tussen de twee variabelen. Naarmate de één toeneemt, heeft de ander de neiging af te nemen.
  • Waarschijnlijk > |t| : Dit is de p-waarde die is gekoppeld aan de hypothesetest. In dit geval is de p-waarde 0,0649, wat aangeeft dat er geen statistisch significante correlatie bestaat tussen de twee variabelen bij α = 0,05.

We kunnen de Spearman-correlatiecoëfficiënt voor meerdere variabelen vinden door simpelweg meer variabelen te typen na het speerman- commando. We kunnen de correlatiecoëfficiënt en de bijbehorende p-waarde voor elke paarsgewijze correlatie vinden met behulp van de opdracht stats(rho p) :

speerman kofferbak rep78 gear_ratio, statistieken (rho p)

Spearman-correlatie voor meerdere variabelen in Stata

Zo interpreteert u het resultaat:

  • Spearman-correlatie tussen romp en rep78 = -0,2235 | p-waarde = 0,0649
  • Spearman-correlatie tussen trunk en gear_ratio = -0,5187 | p-waarde = 0,0000
  • Spearman-correlatie tussen gear_ratio en rep78 = 0,4275 | p-waarde = 0,0002

Hoe de correlatie van Kendall in Stata te vinden

We kunnen de Kendall-correlatiecoëfficiënt tussen de trunk- en rep78 -variabelen vinden met behulp van de ktau- opdracht:

ktau kofferbak rep78

Kendall's correlatie in Stata

Zo interpreteert u het resultaat:

  • Aantal obs: dit is het aantal paarsgewijze waarnemingen dat wordt gebruikt om de Kendall-correlatiecoëfficiënt te berekenen. Omdat sommige waarden voor de variabele rep78 ontbraken, gebruikte Stata slechts 69 waarnemingen per paar (in plaats van de volledige 74).
  • Kendall’s Tau-b: Dit is de Kendall’s correlatiecoëfficiënt tussen de twee variabelen. Over het algemeen gebruiken we deze waarde in plaats van tau-a, omdat tau-b aanpassingen doorvoert in geval van gelijkspel. In dit geval is tau-b = -0,1752, wat wijst op een negatieve correlatie tussen de twee variabelen.
  • Waarschijnlijk > |z| : Dit is de p-waarde die is gekoppeld aan de hypothesetest. In dit geval is de p-waarde 0,0662, wat aangeeft dat er geen statistisch significante correlatie bestaat tussen de twee variabelen bij α = 0,05.

We kunnen de correlatiecoëfficiënt van Kendall voor meerdere variabelen vinden door simpelweg meer variabelen te typen na de opdracht ktau . We kunnen de correlatiecoëfficiënt en de bijbehorende p-waarde voor elke paarsgewijze correlatie vinden met behulp van de opdracht stats(taub p) :

ktau trunk rep78 gear_ratio, statistieken (taub p)

Kendall's Tau voor meerdere variabelen in Stata

  • Kendall-correlatie tussen romp en rep78 = -0,1752 | p-waarde = 0,0662
  • Kendall’s correlatie tussen trunk en gear_ratio = -0,3753 | p-waarde = 0,0000
  • Kendall-correlatie tussen gear_ratio en rep78 = 0,3206 | p-waarde = 0,0006

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert