Korelasyon
Bu makale, iki değişken arasındaki korelasyonun anlamını, korelasyon katsayısının nasıl hesaplanacağını ve mevcut farklı korelasyon türlerini açıklamaktadır. Ayrıca iki değişken arasındaki korelasyonun değerinin nasıl yorumlanacağı gösterilmektedir.
Korelasyon nedir?
Korelasyon , iki değişken arasındaki ilişkinin derecesini gösteren istatistiksel bir ölçümdür. Daha spesifik olarak doğrusal korelasyon , iki farklı değişken arasındaki doğrusal korelasyonun derecesini belirlemek için kullanılır.
İki değişken birbirine bağlıdır, bir değişkenin değerlerini değiştirirken diğer değişkenin değerleri de değişir. Örneğin A değişkeninin artması B değişkenini de artırıyorsa A ve B değişkenleri arasında bir korelasyon vardır.
Korelasyon türleri
İki rastgele değişken arasındaki ilişkiye bağlı olarak aşağıdaki doğrusal korelasyon türleri ayırt edilir:
- Doğrudan korelasyon (veya pozitif korelasyon) : Bir değişken arttığında diğeri de artar.
- Ters korelasyon (veya negatif korelasyon) : Bir değişken arttığında diğeri azalır ve bunun tersi de geçerlidir; bir değişken azaldığında diğeri artar.
- Sıfır korelasyon (korelasyon yok) : İki değişken arasında herhangi bir ilişki yoktur.
Bunların mevcut farklı doğrusal korelasyon türleri olduğunu unutmayın; ancak iki değişken arasındaki matematiksel ilişki düz bir çizgiyle temsil edilemeyebilir, bunun yerine bir benzetme gibi daha karmaşık bir fonksiyonun kullanılması gerekebilir. veya bir logaritma. Bu durumda doğrusal olmayan bir korelasyon olacaktır.
Korelasyon katsayısı
Korelasyonun tanımını ve mevcut farklı korelasyon türlerini göz önünde bulundurarak bu istatistiksel değerin nasıl hesaplandığına bakalım.
Doğrusal korelasyon katsayısı veya Pearson korelasyon katsayısı olarak da adlandırılan korelasyon katsayısı, iki değişken arasındaki korelasyonun değeridir.
İki istatistiksel değişkenin korelasyon katsayısı, değişkenlerin kovaryansı ile her değişkenin varyansının çarpımının karekökü arasındaki bölüme eşittir. Bu nedenle korelasyon katsayısını hesaplama formülü aşağıdaki gibidir:
Bir popülasyondaki korelasyon katsayısı hesaplanırken korelasyon sembolü Yunanca ρ harfidir. Ancak katsayı bir örneğe göre hesaplanırken sembol olarak genellikle r harfi kullanılır.
Korelasyon indeksinin değeri -1 ile +1 arasında olabilir. Aşağıda korelasyon katsayısı değerinin nasıl yorumlandığını göreceğiz.
Aşağıdaki bağlantıda korelasyon katsayısının nasıl hesaplandığına dair somut bir örnek görebilirsiniz:
Spearman’ın veya Kendall’ın korelasyon katsayısı gibi başka türde korelasyon katsayılarının da olduğunu unutmayın. Ancak en yaygın olanı şüphesiz Pearson korelasyon katsayısıdır.
Korelasyonun yorumlanması
Korelasyon katsayısının değeri -1’den +1’e kadar değişebilir. Yani korelasyon katsayısının değerine bağlı olarak iki değişken arasındaki ilişkinin bir yönde veya diğer yönde olduğu anlamına gelir. Korelasyon değerinin nasıl yorumlanacağı aşağıda açıklanmıştır:
- r=-1 : iki değişken mükemmel bir negatif korelasyona sahiptir, dolayısıyla tüm noktaların birbirine bağlandığı negatif eğimli bir çizgi çizebiliriz.
- -1<r<0 : iki değişken arasındaki korelasyon negatiftir, yani bir değişken arttığında diğeri azalır. Değer -1’e ne kadar yakınsa değişkenler o kadar negatif ilişkilidir.
- r=0 : İki değişken arasındaki korelasyon çok zayıftır, aslında aralarındaki doğrusal ilişki sıfırdır. Bu, değişkenlerin bağımsız olduğu anlamına gelmez çünkü doğrusal olmayan bir ilişkiye sahip olabilirler.
- 0<r<1 : İki değişken arasındaki korelasyon pozitiftir, değer +1’e ne kadar yakınsa değişkenler arasındaki ilişki o kadar güçlüdür. Bu durumda değişkenlerden biri artarken diğeri de değerini artırma eğilimindedir.
- r=1 : iki değişken mükemmel pozitif korelasyona sahiptir, yani pozitif doğrusal ilişkiye sahiptirler.
Yukarıdaki dağılım grafiklerinde görebileceğiniz gibi, iki değişken arasındaki korelasyon ne kadar güçlü olursa, grafikteki noktalar birbirine o kadar yakın olur. Öte yandan noktaların birbirinden çok uzak olması korelasyonun zayıf olduğu anlamına gelir.
Unutmayın ki iki değişken arasında korelasyon olsa bile bu, aralarında nedensellik olduğu anlamına gelmez; yani iki değişken arasındaki korelasyon, bir değişkendeki değişimin diğerindeki değişimin nedeni olduğu anlamına gelmez. değişken.
Örneğin, vücudun iki farklı hormon üretmesi arasında pozitif bir ilişki olduğunu bulursak, bu, bir hormondaki artışın diğer hormonda da artışa yol açacağı anlamına gelmez. Vücudun her iki hormonu da üretmesi, çünkü bir hastalıkla mücadele etmek için her ikisine de ihtiyaç duyması ve bu nedenle her ikisinin de düzeylerini aynı anda artırması mümkündür; bu durumda nedeni hastalık olabilir. İki hormon arasında nedensel bir bağlantı olup olmadığının tespiti için daha detaylı bir çalışma yapılması gerekmektedir.
Korelasyon ve regresyon
Korelasyon ve regresyon genel olarak birbiriyle ilişkili iki kavramdır çünkü her ikisi de iki değişken arasındaki ilişkiyi analiz etmek için kullanılır.
Korelasyon, iki değişken arasındaki ilişkiyi ölçen istatistiksel bir ölçümdür; ancak regresyon, iki değişkenin ilişkilendirilmesine olanak tanıyan bir denklem (doğrusal bir regresyon ise düz bir çizgi olacaktır) oluşturmayı içerir.
Bu nedenle korelasyon, değişkenler arasındaki ilişkiye basitçe sayısal bir değer sağlarken regresyon, bir değişkenin diğerine göre değerini tahmin etmeye çalışmak için kullanılabilir.
Genel olarak öncelikle korelasyon katsayısını hesaplayarak değişkenlerin korelasyonlu olup olmadığını analiz ederiz. Korelasyon anlamlıysa veri setinde bir regresyon gerçekleştiririz.
Korelasyon katsayısını doğrusal regresyonda elde edilen doğrunun eğimi değeriyle karıştırmak yaygındır ancak bunlar eşdeğer değildir.
Korelasyon matrisi
Korelasyon matrisi, i,j konumunda i ve j değişkenleri arasındaki korelasyon katsayısını içeren bir matristir.
Dolayısıyla korelasyon matrisi, ana köşegen üzerindekilerle dolu bir kare matris olup, i satırı ve j sütununun elemanı, i değişkeni ile j değişkeni arasındaki korelasyon katsayısının değerinden oluşur.
Dolayısıyla korelasyon matrisinin formülü aşağıdaki gibidir:
Altın
değişkenler arasındaki korelasyon katsayısıdır
Ve
Korelasyon matrisi, sonuçları özetlemek ve birden fazla değişken arasındaki korelasyonu aynı anda karşılaştırmak için çok kullanışlıdır çünkü hangi ilişkilerin güçlü olduğunu hızlı bir şekilde görebilirsiniz.