Hoe u een correlatiematrix maakt in stata
In de statistiek proberen we vaak de relatie tussen twee variabelen te begrijpen. We willen bijvoorbeeld inzicht krijgen in de relatie tussen het aantal uren dat een student studeert en het cijfer dat hij of zij voor het examen krijgt.
Eén manier om deze relatie te kwantificeren is door dePearson-correlatiecoëfficiënt te gebruiken , die een maatstaf is voor de lineaire associatie tussen twee variabelen . Het heeft een waarde tussen -1 en 1 waarbij:
- -1 geeft een perfect negatieve lineaire correlatie aan tussen twee variabelen
- 0 geeft aan dat er geen lineaire correlatie is tussen twee variabelen
- 1 geeft een perfect positieve lineaire correlatie aan tussen twee variabelen
Hoe verder de correlatiecoëfficiënt van nul verwijderd is, hoe sterker de relatie tussen de twee variabelen.
Maar in sommige gevallen willen we de correlatie tussen meerdere paren variabelen begrijpen. In deze gevallen kunnen we een correlatiematrix maken, een vierkante tabel die de correlatiecoëfficiënten tussen verschillende paarsgewijze combinaties van variabelen weergeeft.
In deze tutorial leggen we uit hoe je een correlatiematrix maakt in Stata.
Hoe u een correlatiematrix maakt in Stata
Het corr- commando kan worden gebruikt om een correlatiematrix te produceren voor een bepaalde dataset in Stata.
Laten we, om dit te illustreren, de censusgegevens van 1980 in Stata laden door het volgende in het opdrachtvenster te typen:
gebruik https://www.stata-press.com/data/r13/census13
We kunnen dan een snel overzicht van de dataset krijgen door het volgende in het opdrachtvenster te typen:
samenvatten
Dit levert de volgende tabel op:
We zien dat de dataset negen verschillende variabelen bevat. Om een correlatiematrix te maken voor elke paarsgewijze combinatie van variabelen in de dataset, kunnen we het volgende in het opdrachtvenster invoeren:
corr
Dit levert de volgende correlatiematrix op:
De getallen in de tabel vertegenwoordigen de Pearson-correlatiecoëfficiënten voor elke paarsgewijze combinatie van variabelen. De correlatie tussen bevolking en staat is bijvoorbeeld -0,0540 . Dit geeft aan dat deze twee variabelen enigszins negatief gecorreleerd zijn.
Merk op dat de correlaties langs de diagonalen van de tabel elk 1,0000 zijn, aangezien elke variabele perfect met zichzelf gecorreleerd is.
U kunt ook alleen een correlatiematrix maken voor een bepaalde subset van variabelen in een gegevensset door de variabelen op te geven na de opdracht corr . U kunt bijvoorbeeld als volgt een correlatiematrix maken, alleen voor de variabelen pop , medage en region :
corr pop medage regio
Dit levert alleen voor deze drie variabelen de volgende correlatiematrix op:
Het is ook mogelijk om een ster te plaatsen naast correlatiecoëfficiënten die statistisch significant zijn op een bepaald significantieniveau met behulp van de opdracht pwcorr (die hetzelfde resultaat oplevert als corr ) met de opdracht star() .
De volgende code produceert bijvoorbeeld een correlatiematrix voor elke variabele in de censusgegevensset en plaatst een ster naast correlatiecoëfficiënten die statistisch significant zijn bij α = 0,05:
pwcorr, ster (.05)
Merk op hoe verschillende correlatiecoëfficiënten in de tabel statistisch significant zijn bij α = 0,05. We kunnen α op elk gewenst getal instellen, maar gebruikelijke keuzes zijn 0,01, 0,05 en 0,10.
In het algemeen geldt dat hoe lager de waarde van α, hoe minder statistisch significant de correlatiecoëfficiënten zullen zijn. Stel bijvoorbeeld dat we α = 0,01 instellen.
pwcorr, ster (.01)
Merk op hoe minder correlatiecoëfficiënten een ster naast zich hebben.