Stata'daki korelasyonlar: pearson, spearman ve kendall
İstatistikte korelasyon , iki değişken arasındaki ilişkinin gücünü ve yönünü ifade eder. Korelasyon katsayısının değeri -1 ile 1 arasında değişebilir; -1, mükemmel bir negatif ilişkiyi, 0, hiçbir ilişkinin olmadığını ve 1, mükemmel bir pozitif ilişkiyi belirtir.
Korelasyonu ölçmenin üç yaygın yolu vardır:
Pearson Korelasyonu: İki sürekli değişken arasındaki korelasyonu ölçmek için kullanılır. (örneğin boy ve kilo)
Spearman Korelasyonu: İki sınıflandırılmış değişken arasındaki korelasyonu ölçmek için kullanılır. (örneğin bir öğrencinin matematik sınavı puanının sıralaması ile fen bilimleri sınavı puanının sınıftaki sıralaması)
Kendall Korelasyonu: Spearman korelasyonunu kullanmak istediğinizde ancak örneklem büyüklüğünün küçük olduğu ve ilgili birçok sıralamanın olduğu durumlarda kullanılır.
Bu eğitimde Stata’da üç tür korelasyonun nasıl bulunacağı açıklanmaktadır.
Veri yükleniyor
Aşağıdaki örneklerin her biri için auto adlı bir veri kümesi kullanacağız. Komut kutusuna aşağıdakini yazarak bu veri kümesini yükleyebilirsiniz:
https://www.stata-press.com/data/r13/auto adresini kullanın
Komut kutusuna aşağıdakini yazarak veri kümesine hızlı bir genel bakış elde edebiliriz:
özetlemek
Veri setinde toplam 12 değişkenin olduğunu görebiliriz.
Stata’da Pearson korelasyonu nasıl bulunur?
Ağırlık ve uzunluk değişkenleri arasındaki Pearson korelasyon katsayısını pwcorr komutunu kullanarak bulabiliriz:
pwcorr ağırlık uzunluğu
Bu iki değişken arasındaki Pearson korelasyon katsayısı 0,9460’dır . Bu korelasyon katsayısının anlamlı olup olmadığını belirlemek için sig komutunu kullanarak p değerini bulabiliriz:
pwcorr ağırlık uzunluğu, sig
P değeri 0,000’dir . Bu 0,05’ten küçük olduğundan bu iki değişken arasındaki korelasyon istatistiksel olarak anlamlıdır.
Birden fazla değişken için Pearson korelasyon katsayısını bulmak için pwcorr komutundan sonra değişkenlerin bir listesini yazmanız yeterlidir:
pwcorr ağırlık uzunluğu yer değiştirmesi, sig
Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:
- Ağırlık ve uzunluk arasındaki Pearson korelasyonu = 0,9460 | p-değeri = 0,000
- Ağırlık ve yer değiştirme arasındaki Pearson korelasyonu = 0,8949 | p-değeri = 0,000
- Yer değiştirme ve uzunluk arasındaki Pearson korelasyonu = 0,8351 | p-değeri = 0,000
Stata’da Spearman korelasyonu nasıl bulunur?
Spearman komutunu kullanarak trunk ve rep78 değişkenleri arasındaki Spearman korelasyon katsayısını bulabiliriz:
mızrak gövdesi rep78
Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:
- Obs sayısı: Bu, Spearman korelasyon katsayısını hesaplamak için kullanılan ikili gözlemlerin sayısıdır. Rep78 değişkeni için bazı değerler eksik olduğundan Stata, çift başına yalnızca 69 gözlem kullandı (74’ün tamamı yerine).
- Spearman’s Rho: Spearman korelasyon katsayısıdır. Bu durumda -0,2235 olması iki değişken arasında negatif bir korelasyon olduğunu gösterir. Biri artarken diğeri azalma eğilimindedir.
- Olasılık > |t| : Bu, hipotez testiyle ilişkili p değeridir. Bu durumda p değeri 0,0649’dur; bu, α = 0,05’te iki değişken arasında istatistiksel olarak anlamlı bir korelasyon olmadığını gösterir.
Spearman komutundan sonra basitçe daha fazla değişken yazarak birden fazla değişken için Spearman korelasyon katsayısını bulabiliriz. stats(rho p) komutunu kullanarak her ikili korelasyon için korelasyon katsayısını ve karşılık gelen p değerini bulabiliriz:
spearman gövde rep78 dişli_ratio, istatistikler (rho p)
Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:
- Gövde ve rep78 arasındaki Spearman korelasyonu = -0,2235 | p-değeri = 0,0649
- Gövde ve dişli oranı arasındaki Spearman korelasyonu = -0,5187 | p-değeri = 0,0000
- Gear_ratio ve rep78 arasındaki Spearman korelasyonu = 0,4275 | p değeri = 0,0002
Stata’da Kendall korelasyonu nasıl bulunur?
Trunk ve rep78 değişkenleri arasındaki Kendall korelasyon katsayısını ktau komutunu kullanarak bulabiliriz:
ktau bagaj temsilcisi78
Sonucun nasıl yorumlanacağı aşağıda açıklanmıştır:
- Obs sayısı: Bu, Kendall korelasyon katsayısını hesaplamak için kullanılan ikili gözlemlerin sayısıdır. Rep78 değişkeni için bazı değerler eksik olduğundan Stata, çift başına yalnızca 69 gözlem kullandı (74’ün tamamı yerine).
- Kendall’s Tau-b: İki değişken arasındaki Kendall korelasyon katsayısıdır. Tau-b’nin eşitlik olması durumunda ayarlamalar yapması nedeniyle genellikle tau-a yerine bu değeri kullanırız. Bu durumda tau-b = -0,1752, iki değişken arasında negatif bir korelasyon olduğunu gösterir.
- Olasılık > |z| : Bu, hipotez testiyle ilişkili p değeridir. Bu durumda p değeri 0,0662’dir; bu, α = 0,05’te iki değişken arasında istatistiksel olarak anlamlı bir korelasyon olmadığını gösterir.
Ktau komutundan sonra basitçe daha fazla değişken yazarak birden fazla değişken için Kendall korelasyon katsayısını bulabiliriz. stats(taub p) komutunu kullanarak her ikili korelasyon için korelasyon katsayısını ve karşılık gelen p değerini bulabiliriz:
ktau trunk rep78 vites_ratio, istatistikler (taub p)
- Gövde ve rep78 arasındaki Kendall korelasyonu = -0,1752 | p-değeri = 0,0662
- Kendall’ın gövde ve dişli oranı arasındaki korelasyonu = -0.3753 | p değeri = 0,0000
- Gear_ratio ve rep78 arasındaki Kendall korelasyonu = 0,3206 | p-değeri = 0,0006