Jak utworzyć macierz korelacji w sas-ie (z przykładem)


Macierz korelacji to kwadratowa tabela pokazująca współczynniki korelacji pomiędzy zmiennymi w zbiorze danych.

Zapewnia szybki sposób zrozumienia siły zależności liniowych istniejących między zmiennymi w zbiorze danych.

Za pomocą instrukcji PROC CORR w SAS-ie możesz utworzyć macierz korelacji dla danego zbioru danych:

 /*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;

Domyślnie spowoduje to utworzenie macierzy wyświetlającej współczynniki korelacji pomiędzy wszystkimi zmiennymi numerycznymi w zbiorze danych.

Aby uwzględnić w macierzy korelacji tylko określone zmienne, można skorzystać z instrukcji VAR :

 /*create correlation matrix using only var1, var2 and var3 in my_data*/
proc corr data =my_data;
    var var1, var2, var3;
run ;

Poniższy przykład pokazuje, jak utworzyć macierz korelacji w SAS-ie.

Przykład: Tworzenie macierzy korelacji w SAS-ie

Załóżmy, że mamy następujący zbiór danych w SAS-ie, który zawiera informacje o różnych koszykarzach:

 /*create dataset*/
data my_data;
    input team $ assists rebounds points;
    datalines ;
A 4 12 22
A 5 14 24
A 5 13 26
A 6 7 26
B 7 8 29
B 8 8 32
B 8 9 20
B 10 13 14
;
run ;

/*view dataset*/
proc print data =my_data; 

Możemy użyć instrukcji PROC CORR, aby utworzyć macierz korelacji, która domyślnie zawiera każdą zmienną numeryczną w zbiorze danych:

 /*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ; 

macierz korelacji w SAS-ie

Dane wyjściowe wyświetlają statystyki podsumowujące zmiennych numerycznych w pierwszej tabeli wraz z macierzą korelacji.

Należy zauważyć, że zmienna „zespół” nie została uwzględniona w macierzy korelacji, ponieważ nie była zmienną liczbową.

Oto jak interpretować wartości macierzy korelacji:

(1) Współczynnik korelacji Pearsona (r) pomiędzy asystami i zbiórkami wynosi -0,24486 . Odpowiednia wartość p wynosi 0,5589 .

Ponieważ r jest mniejsze od zera, mówi nam to, że pomiędzy tymi dwiema zmiennymi istnieje ujemna zależność liniowa. Jednakże wartość p jest nie mniejsza niż 0,05, więc korelacja ta nie jest istotna statystycznie.

(2) Współczynnik korelacji Pearsona (r) pomiędzy asystami i punktami wynosi -0,32957 . Odpowiednia wartość p wynosi 0,4253 .

Istnieje negatywna zależność liniowa pomiędzy tymi dwiema zmiennymi, ale nie jest ona istotna statystycznie.

(3) Współczynnik korelacji Pearsona (r) pomiędzy zbiórkami i punktami wynosi -0,52209 . Odpowiednia wartość p wynosi 0,1844 .

Istnieje negatywna zależność liniowa pomiędzy tymi dwiema zmiennymi, ale nie jest ona istotna statystycznie.

Należy zauważyć, że możemy również użyć instrukcji VAR , aby uwzględnić w macierzy korelacji tylko określone zmienne numeryczne:

 /*create correlation matrix using only assists and rebounds variables*/
proc corr data =my_data;
    var assists rebounds;
run ; 

Należy zauważyć, że w tej macierzy korelacji uwzględniono jedynie zmienne asyst i zbiórek .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:

Jak utworzyć macierz wykresu rozrzutu w SAS-ie
Jak tworzyć tabele przestawne w SAS-ie
Jak obliczyć współczynnik inflacji wariancji (VIF) w SAS

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *