“güçlü” sayılanlar; korelasyon?
İstatistikte sıklıkla iki değişkenin birbiriyle nasıl ilişkili olduğunu anlamaya çalışırız. Örneğin şunu bilmek isteyebiliriz:
- Bir öğrencinin ders çalıştığı saat sayısı ile sınavda aldığı not arasındaki ilişki nedir?
- Dış sıcaklık ile bir yiyecek kamyonunda satılan dondurma külahlarının sayısı arasındaki ilişki nedir?
- Belirli bir işletme için pazarlamaya harcanan dolar ile kazanılan toplam gelir arasındaki ilişki nedir?
Bu senaryoların her birinde iki farklı değişken arasındaki ilişkiyi anlamaya çalışıyoruz.
İstatistikte, iki değişken arasındaki ilişkiyi ölçmenin en yaygın yollarından biri, iki değişken arasındaki doğrusal ilişkinin bir ölçüsü olan Pearson korelasyon katsayısını kullanmaktır . -1 ile 1 arasında bir değere sahiptir; burada:
- -1, iki değişken arasında tamamen negatif bir doğrusal korelasyonu gösterir
- 0, iki değişken arasında doğrusal bir korelasyon olmadığını gösterir
- 1, iki değişken arasında mükemmel pozitif doğrusal bir korelasyonu gösterir
Çoğunlukla r olarak gösterilen bu sayı, iki değişken arasındaki ilişkinin gücünü anlamamıza yardımcı olur. R sıfırdan ne kadar uzaksa, iki değişken arasındaki ilişki o kadar güçlüdür .
İki değişkenin güçlü bir pozitif korelasyona veya güçlü bir negatif korelasyona sahip olabileceğini not etmek önemlidir.
Güçlü pozitif korelasyon: Bir değişkenin değeri arttığında diğer değişkenin değeri de aynı şekilde artar. Örneğin, bir öğrenci ders çalışmaya ne kadar çok saat ayırırsa sınav puanı da o kadar yüksek olur. Çalışılan saatler ve sınav puanları güçlü bir pozitif korelasyona sahiptir.
Güçlü negatif korelasyon: Bir değişkenin değeri arttığında diğer değişkenin değeri düşme eğilimindedir. Örneğin, bir tavuk yaşlandıkça daha az yumurta üretme eğilimi gösterir. Tavuk yaşı ile yumurta üretimi arasında güçlü bir negatif korelasyon vardır.
Aşağıdaki tablo, r değerine bağlı olarak iki değişken arasındaki ilişkinin gücünü yorumlamak için temel kuralı göstermektedir:
r’nin mutlak değeri | İlişkinin gücü |
---|---|
r < 0,25 | İlişki yok |
0,25 < r < 0,5 | Zayıf ilişki |
0,5 < r < 0,75 | Orta düzeyde ilişkiler |
r > 0,75 | Güçlü ilişkiler |
r’nin mutlak değeri 0,75’ten büyükse iki değişken arasındaki korelasyonun güçlü olduğu kabul edilir. Ancak “güçlü” bir korelasyonun tanımı bir alandan diğerine farklılık gösterebilir.
Tıbbi
Örneğin tıp alanlarında “güçlü” ilişkinin tanımı genellikle çok daha düşüktür. Belirli bir ilacı almakla kalp krizini azaltmak arasındaki ilişki r = 0,3 ise, bu diğer alanlarda “zayıf pozitif” bir ilişki olarak kabul edilebilir, ancak tıpta bu, kalp krizi olasılığını azaltmak için ilacı almaya değer olacak kadar önemlidir. kalp krizi geçirmek.
İnsan kaynakları
İnsan kaynakları gibi başka bir alanda da daha düşük korelasyonlar daha sık kullanılabilir. Örneğin, üniversite notları ile iş performansı arasındaki korelasyonun yaklaşık olarak r = 0,16 olduğu gösterilmiştir. Bu oldukça düşük ancak bir şirketin en azından görüşme sürecinde bunu dikkate alması yeterince önemli.
Teknoloji
Ve teknoloji gibi bir alanda değişkenler arasındaki korelasyonun bazı durumlarda “güçlü” olarak değerlendirilmesi için çok daha yüksek olması gerekebilir. Örneğin, bir şirket sürücüsüz bir araba yaratıyorsa ve arabanın dönüş kararları ile kaza yapma olasılığı arasındaki korelasyon r = 0,95 ise, bu muhtemelen arabanın güvenli kabul edilmesi için çok düşüktür. sürücüsüz araba r = 0,95’tir. Kötü bir karar ölümcül olabilir.
Korelasyonları görüntüle
Hangi alanda çalışırsanız çalışın, çalıştığınız iki değişkenin dağılım grafiğini oluşturmak yararlı olacaktır, böylece en azından aralarındaki ilişkiyi görsel olarak inceleyebilirsiniz.
Örneğin, 12 kişinin boy ve kilosunu gösteren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Sadece ham verilere bakarak bu iki değişken arasındaki ilişkiyi anlamak biraz zor. Ancak x ekseninde yükseklik, y ekseninde ağırlık içeren bir dağılım grafiği oluşturursak ilişkiyi anlamak çok daha kolay olur:
İki değişken arasında açıkça pozitif bir ilişki vardır.
Nokta bulutu oluşturmak iki nedenden dolayı iyi bir fikirdir:
(1) Dağılım grafiği, korelasyonu etkileyen aykırı değerleri tanımlamanıza olanak tanır.
Aşırı uç değerler Pearson korelasyon katsayısını önemli ölçüde değiştirebilir. X ve Y değişkenlerinin Pearson korelasyon katsayısının r = 0,00 olduğu aşağıdaki örneği düşünün.
Ancak şimdi veri kümesinde bir aykırı değerin olduğunu hayal edin:
Bu aykırı değer korelasyonun r = 0,878 olmasına neden olur. Bu tek veri noktası, korelasyonu tamamen değiştirir ve X ve Y değişkenleri arasında gerçekte olmadığı halde güçlü bir ilişki varmış gibi görünmesini sağlar.
(2) Dağılım grafiği, değişkenler arasındaki doğrusal olmayan ilişkileri tanımlamanıza yardımcı olabilir.
Pearson korelasyon katsayısı bize basitçe iki değişkenin doğrusal olarak ilişkili olup olmadığını söyler. Ancak Pearson korelasyon katsayısı bize iki değişkenin ilişkili olmadığını söylese bile, yine de bir tür doğrusal olmayan ilişkiye sahip olabilirler. Bu, bir dağılım grafiği oluşturmanın yararlı olmasının başka bir nedenidir.
Örneğin, korelasyonlarının r = 0,00 olduğu X ve Y değişkenleri arasındaki aşağıdaki dağılım grafiğini düşünün.
Değişkenlerin açıkça doğrusal bir ilişkisi yoktur, ancak doğrusal olmayan bir ilişkileri vardır : y değerleri basitçe x değerlerinin karesidir. Bir korelasyon katsayısı tek başına bu ilişkiyi tespit edemez, ancak bir dağılım grafiği bunu tespit edebilir.
Çözüm
Özetle:
- Genellikle 0,75’ten büyük bir korelasyon, iki değişken arasında “güçlü” bir korelasyon olarak kabul edilir.
- Ancak bu temel kural bölgeden bölgeye değişebilir. Örneğin, tıbbi bir alanda teknolojik bir alanla karşılaştırıldığında çok daha zayıf bir korelasyonun güçlü olduğu düşünülebilir. Neyin güçlü olduğuna karar vermek için alana özgü uzmanlığı kullanmak en iyisidir.
- İki değişken arasındaki ilişkiyi tanımlamak için korelasyon kullanıldığında, veri kümesindeki aykırı değerlerin yanı sıra potansiyel doğrusal olmayan ilişkiyi tanımlayabilmeniz için bir dağılım grafiği oluşturmak da yararlı olacaktır.
Ek kaynaklar
Ne “zayıf” korelasyon olarak kabul edilir?
Korelasyon Matrisi Hesaplayıcı
Korelasyon matrisi nasıl okunur