Stata'da korelasyon matrisi nasıl oluşturulur
İstatistikte sıklıkla iki değişken arasındaki ilişkiyi anlamaya çalışırız. Örneğin bir öğrencinin ders çalıştığı saat ile sınavda aldığı not arasındaki ilişkiyi anlamak isteyebiliriz.
Bu ilişkiyi ölçmenin bir yolu , iki değişken arasındaki doğrusal ilişkinin bir ölçüsü olan Pearson korelasyon katsayısını kullanmaktır . -1 ile 1 arasında bir değere sahiptir; burada:
- -1, iki değişken arasında tamamen negatif bir doğrusal korelasyonu gösterir
- 0, iki değişken arasında doğrusal bir korelasyon olmadığını gösterir
- 1, iki değişken arasında mükemmel pozitif doğrusal bir korelasyonu gösterir
Korelasyon katsayısı sıfırdan ne kadar uzaksa, iki değişken arasındaki ilişki o kadar güçlüdür.
Ancak bazı durumlarda birden fazla değişken çifti arasındaki korelasyonu anlamak isteriz. Bu durumlarda, değişkenlerin çeşitli ikili kombinasyonları arasındaki korelasyon katsayılarını gösteren kare bir tablo olan birkorelasyon matrisi oluşturabiliriz.
Bu derste Stata’da korelasyon matrisinin nasıl oluşturulacağını açıklıyoruz.
Stata’da korelasyon matrisi nasıl oluşturulur
Corr komutu, Stata’daki belirli bir veri kümesi için bir korelasyon matrisi oluşturmak için kullanılabilir.
Bunu örneklendirmek için komut kutusuna aşağıdakini yazarak 1980 nüfus sayımı verilerini Stata’ya yükleyelim:
https://www.stata-press.com/data/r13/census13 adresini kullanın
Daha sonra aşağıdakini komut kutusuna yazarak veri kümesinin hızlı bir özetini alabiliriz:
özetlemek
Bu, aşağıdaki tabloyu oluşturur:
Veri setinin dokuz farklı değişken içerdiğini görüyoruz. Veri kümesindeki değişkenlerin her ikili kombinasyonu için bir korelasyon matrisi oluşturmak amacıyla komut kutusuna aşağıdakileri girebiliriz:
düzelt
Bu, aşağıdaki korelasyon matrisini üretir:
Tabloda gösterilen sayılar, değişkenlerin her bir ikili kombinasyonu için Pearson korelasyon katsayılarını temsil etmektedir. Örneğin nüfus ile eyalet arasındaki korelasyon -0,0540’tır . Bu durum, bu iki değişkenin hafif negatif korelasyona sahip olduğunu göstermektedir.
Her değişken kendisiyle mükemmel bir korelasyona sahip olduğundan, tablonun köşegenleri boyunca korelasyonların her birinin 1,0000 olduğuna dikkat edin.
Ayrıca, corr komutundan sonra değişkenleri belirterek, bir veri kümesindeki yalnızca belirli bir değişken alt kümesi için bir korelasyon matrisi oluşturabilirsiniz. Örneğin, yalnızca pop , medage ve bölge değişkenleri için bir korelasyon matrisinin nasıl oluşturulacağı aşağıda açıklanmıştır:
doğru pop medage bölgesi
Bu, yalnızca bu üç değişken için aşağıdaki korelasyon matrisini üretir:
Ayrıca star() komutu ile birlikte pwcorr komutu ( corr ile aynı sonucu veren) kullanılarak istatistiksel olarak belirli bir anlamlılık düzeyinde anlamlı olan korelasyon katsayılarının yanına bir yıldız yerleştirmek de mümkündür.
Örneğin, aşağıdaki kod, nüfus sayımı veri kümesindeki her değişken için bir korelasyon matrisi üretir ve α = 0,05’te istatistiksel olarak anlamlı olan korelasyon katsayılarının yanına bir yıldız yerleştirir:
pwcorr, yıldız (.05)
Tablodaki korelasyon katsayılarından birkaçının α = 0,05’te istatistiksel olarak ne kadar anlamlı olduğuna dikkat edin. α’yı istediğimiz herhangi bir sayıya ayarlayabiliriz ancak genel seçimler 0,01, 0,05 ve 0,10’dur.
Genel olarak, α değeri ne kadar düşük olursa korelasyon katsayıları istatistiksel olarak o kadar az anlamlı olacaktır. Örneğin, α = 0,01 olarak ayarladığımızı varsayalım.
pwcorr, yıldız (.01)
Korelasyon katsayılarının yanında ne kadar az yıldız olduğuna dikkat edin.