Jak obliczyć korelację w sas-ie (z przykładami)


Jednym ze sposobów ilościowego określenia związku między dwiema zmiennymi jest użycie współczynnika korelacji Pearsona , który mierzy liniowy związek między dwiema zmiennymi .

Zawsze przyjmuje wartość z zakresu od -1 do 1, gdzie:

  • -1 oznacza całkowicie ujemną korelację liniową pomiędzy dwiema zmiennymi
  • Wartość 0 oznacza brak liniowej korelacji pomiędzy dwiema zmiennymi
  • 1 wskazuje doskonale dodatnią korelację liniową pomiędzy dwiema zmiennymi

Im współczynnik korelacji jest bardziej od zera, tym silniejszy jest związek między obiema zmiennymi.

Poniższe przykłady pokazują, jak używać proc corr w SAS do obliczenia współczynnika korelacji między zmiennymi w zintegrowanym zbiorze danych SAS o nazwie Fish , który zawiera różne pomiary dla 159 różnych ryb złowionych w jeziorze w Finlandii.

Możemy użyć proc print do wyświetlenia pierwszych 10 obserwacji tego zbioru danych:

 /*view first 10 observations from Fish dataset*/
proc print data =sashelp.Fish( obs = 10 );

run ;

Przykład 1: Korelacja między dwiema zmiennymi

Możemy użyć poniższego kodu do obliczenia współczynnika korelacji Pearsona pomiędzy zmiennymi Wysokość i Szerokość:

 /*calculate correlation coefficient between Height and Width*/
proc corr data =sashelp.fish;
	var HeightWidth;

run ;

Pierwsza tabela wyświetla podsumowanie statystyk dotyczących wysokości i szerokości.

Druga tabela przedstawia współczynnik korelacji Pearsona pomiędzy dwiema zmiennymi, łącznie z wartością p , która mówi nam, czy korelacja jest istotna statystycznie.

Z wyniku możemy zobaczyć:

  • Współczynnik korelacji Pearsona: 0,79288
  • Wartość P: <0,0001

To mówi nam, że istnieje silna dodatnia korelacja między wysokością a szerokością i że korelacja jest istotna statystycznie, ponieważ wartość p jest mniejsza niż α = 0,05.

Powiązane: Co uważa się za „silną” korelację?

Przykład 2: Korelacja pomiędzy wszystkimi zmiennymi

Możemy użyć poniższego kodu, aby obliczyć współczynnik korelacji Pearsona pomiędzy wszystkimi parami kombinacji zmiennych w zbiorze danych:

 /*calculate correlation coefficient between all pairwise combinations of variables*/
proc corr data =sashelp.fish;

run;

macierz korelacji w SAS-ie

Wynik wyświetla macierz korelacji , która zawiera współczynnik korelacji Pearsona i odpowiadające mu wartości p dla każdej pary kombinacji zmiennych numerycznych w zbiorze danych.

Na przykład:

  • Współczynnik korelacji Pearsona między masą a długością1 wynosi 0,91644.
  • Współczynnik korelacji Pearsona między masą a długością2 wynosi 0,91937.
  • Współczynnik korelacji Pearsona między masą a długością3 wynosi 0,92447.

I tak dalej.

Przykład 3: Wizualizuj korelację za pomocą wykresu rozrzutu

Możemy również użyć funkcji plots , aby utworzyć wykres rozrzutu w celu wizualizacji korelacji między dwiema zmiennymi:

 /*visualize correlation between Height and Width*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
	var HeightWidth;

run; 

Na wykresie widać silną dodatnią korelację pomiędzy wysokością a szerokością. Wraz ze wzrostem wysokości zwiększa się również szerokość.

W lewym górnym rogu wykresu widać także całkowitą liczbę wykorzystanych obserwacji, współczynnik korelacji oraz wartość p współczynnika korelacji.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje w SAS-ie:

Jak tworzyć tabele częstości w SAS-ie
Jak obliczyć statystyki opisowe w SAS-ie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *