Een correlatiematrix maken in sas (met voorbeeld)


Een correlatiematrix is een vierkante tabel die decorrelatiecoëfficiënten tussen variabelen in een dataset weergeeft.

Het biedt een snelle manier om de kracht van lineaire relaties tussen variabelen in een dataset te begrijpen.

U kunt de PROC CORR- instructie in SAS gebruiken om een correlatiematrix te maken voor een bepaalde gegevensset:

 /*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;

Standaard wordt hierdoor een matrix gemaakt die de correlatiecoëfficiënten tussen alle numerieke variabelen in de gegevensset weergeeft.

Om alleen specifieke variabelen in de correlatiematrix op te nemen, kunt u de VAR- instructie gebruiken:

 /*create correlation matrix using only var1, var2 and var3 in my_data*/
proc corr data =my_data;
    var var1, var2, var3;
run ;

In het volgende voorbeeld ziet u hoe u een correlatiematrix maakt in SAS.

Voorbeeld: een correlatiematrix maken in SAS

Stel dat we de volgende dataset in SAS hebben die informatie bevat over verschillende basketbalspelers:

 /*create dataset*/
data my_data;
    input team $ assists rebounds points;
    datalines ;
A 4 12 22
A 5 14 24
A 5 13 26
A 6 7 26
B 7 8 29
B 8 8 32
B 8 9 20
B 10 13 14
;
run ;

/*view dataset*/
proc print data =my_data; 

We kunnen de PROC CORR- instructie gebruiken om een correlatiematrix te maken die standaard elke numerieke variabele in de dataset bevat:

 /*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ; 

correlatiematrix in SAS

De uitvoer geeft samenvattende statistieken weer van de numerieke variabelen in de eerste tabel, samen met een correlatiematrix.

Merk op dat de variabele ‘team’ niet in de correlatiematrix was opgenomen omdat deze geen numerieke variabele was.

Zo interpreteert u de correlatiematrixwaarden:

(1) De Pearson-correlatiecoëfficiënt (r) tussen assists en rebounds is -0,24486 . De overeenkomstige p-waarde is 0,5589 .

Omdat r kleiner is dan nul, vertelt dit ons dat er een negatief lineair verband bestaat tussen deze twee variabelen. De p-waarde is echter niet minder dan 0,05, dus deze correlatie is niet statistisch significant.

(2) De Pearson-correlatiecoëfficiënt (r) tussen assists en punten is -0,32957 . De overeenkomstige p-waarde is 0,4253 .

Er bestaat een negatief lineair verband tussen deze twee variabelen, maar dit is niet statistisch significant.

(3) De Pearson-correlatiecoëfficiënt (r) tussen rebounds en punten is -0,52209 . De overeenkomstige p-waarde is 0,1844 .

Er bestaat een negatief lineair verband tussen deze twee variabelen, maar dit is niet statistisch significant.

Merk op dat we de VAR- instructie ook kunnen gebruiken om alleen specifieke numerieke variabelen in de correlatiematrix op te nemen:

 /*create correlation matrix using only assists and rebounds variables*/
proc corr data =my_data;
    var assists rebounds;
run ; 

Merk op dat alleen de assists- en rebounds- variabelen in deze correlatiematrix zijn opgenomen.

Aanvullende bronnen

In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende taken in SAS kunt uitvoeren:

Hoe u een spreidingsdiagrammatrix in SAS maakt
Draaitabellen maken in SAS
Hoe de variantie-inflatiefactor (VIF) in SAS te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert