Correlatie in sas berekenen (met voorbeelden)


Eén manier om de relatie tussen twee variabelen te kwantificeren is door dePearson-correlatiecoëfficiënt te gebruiken, die de lineaire associatie tussen twee variabelen meet .

Er is altijd een waarde tussen -1 en 1 nodig, waarbij:

  • -1 geeft een perfect negatieve lineaire correlatie aan tussen twee variabelen
  • 0 geeft aan dat er geen lineaire correlatie is tussen twee variabelen
  • 1 geeft een perfect positieve lineaire correlatie aan tussen twee variabelen

Hoe verder de correlatiecoëfficiënt van nul verwijderd is, hoe sterker de relatie tussen de twee variabelen.

De volgende voorbeelden laten zien hoe u proc corr in SAS kunt gebruiken om de correlatiecoëfficiënt te berekenen tussen variabelen in de geïntegreerde SAS-gegevensset genaamd Fish , die verschillende metingen bevat voor 159 verschillende vissen die zijn gevangen in een meer in Finland.

We kunnen proc print gebruiken om de eerste 10 waarnemingen van deze dataset weer te geven:

 /*view first 10 observations from Fish dataset*/
proc print data =sashelp.Fish( obs = 10 );

run ;

Voorbeeld 1: Correlatie tussen twee variabelen

We kunnen de volgende code gebruiken om de Pearson-correlatiecoëfficiënt tussen de variabelen Hoogte en Breedte te berekenen:

 /*calculate correlation coefficient between Height and Width*/
proc corr data =sashelp.fish;
	var HeightWidth;

run ;

De eerste tabel toont samenvattende statistieken voor hoogte en breedte.

De tweede tabel toont de Pearson-correlatiecoëfficiënt tussen de twee variabelen, inclusief een p-waarde die ons vertelt of de correlatie statistisch significant is.

Uit het resultaat kunnen we zien:

  • Pearson-correlatiecoëfficiënt: 0,79288
  • P-waarde: <0,0001

Dit vertelt ons dat er een sterke positieve correlatie bestaat tussen hoogte en breedte en dat de correlatie statistisch significant is, aangezien de p-waarde kleiner is dan α = 0,05.

Gerelateerd: Wat wordt beschouwd als een “sterke” correlatie?

Voorbeeld 2: Correlatie tussen alle variabelen

We kunnen de volgende code gebruiken om de Pearson-correlatiecoëfficiënt te berekenen tussen alle paarsgewijze combinaties van variabelen in de dataset:

 /*calculate correlation coefficient between all pairwise combinations of variables*/
proc corr data =sashelp.fish;

run;

correlatiematrix in SAS

Het resultaat geeft een correlatiematrix weer, die de Pearson-correlatiecoëfficiënt en bijbehorende p-waarden bevat voor elke paarsgewijze combinatie van numerieke variabelen in de dataset.

Bijvoorbeeld:

  • De Pearson-correlatiecoëfficiënt tussen gewicht en lengte1 is 0,91644.
  • De Pearson-correlatiecoëfficiënt tussen gewicht en lengte2 is 0,91937.
  • De Pearson-correlatiecoëfficiënt tussen gewicht en lengte3 is 0,92447.

Enzovoort.

Voorbeeld 3: Visualiseer de correlatie met een spreidingsdiagram

We kunnen ook de plotfunctie gebruiken om een spreidingsdiagram te maken om de correlatie tussen twee variabelen te visualiseren:

 /*visualize correlation between Height and Width*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
	var HeightWidth;

run; 

In de grafiek zien we de sterke positieve correlatie tussen hoogte en breedte. Naarmate de hoogte toeneemt, heeft de breedte ook de neiging toe te nemen.

In de linkerbovenhoek van de grafiek kunnen we ook het totaal aantal gebruikte waarnemingen zien, de correlatiecoëfficiënt en de p-waarde van de correlatiecoëfficiënt.

Aanvullende bronnen

In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in SAS uitvoert:

Hoe frequentietabellen in SAS te maken
Hoe beschrijvende statistieken in SAS te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert