Anova vs regresyon: fark nedir?
İstatistikte yaygın olarak kullanılan iki model ANOVA ve regresyon modelleridir.
Bu iki model türü aşağıdaki benzerliği paylaşır:
- Her modeldeki yanıt değişkeni süreklidir. Sürekli değişkenlere örnek olarak ağırlık, boy, uzunluk, genişlik, zaman, yaş vb. verilebilir.
Ancak bu iki model türü aşağıdaki farkı paylaşmaktadır:
- ANOVA modelleri, yordayıcı değişkenlerin kategorik olduğu durumlarda kullanılır. Kategorik değişkenlere örnek olarak eğitim düzeyi, göz rengi, medeni durum vb. verilebilir.
- Regresyon modelleri, yordayıcı değişkenlerin sürekli olduğu durumlarda kullanılır.*
*Regresyon modelleri kategorik yordayıcı değişkenlerle kullanılabilir ancak bunları kullanabilmek için kukla değişkenler oluşturmamız gerekir.
Aşağıdaki örnekler ANOVA veya regresyon modellerinin pratikte ne zaman kullanılacağını göstermektedir.
Örnek 1: Tercih Edilen ANOVA Modeli
Bir biyoloğun, dört farklı gübrenin bir aylık süre boyunca aynı ortalama bitki büyümesine (inç cinsinden) yol açıp açmadığını anlamak istediğini varsayalım. Bunu test etmek için her gübreyi 20 bitkiye uyguluyor ve bir ay sonra her bitkinin büyümesini kaydediyor.
Bu senaryoda biyolog, gübreler arasındaki farkları analiz etmek için tek yönlü bir ANOVA modeli kullanmalıdır çünkü bir öngörücü değişken vardır ve bu kategoriktir.
Başka bir deyişle, yordayıcı değişkenin değerleri aşağıdaki “kategorilere” göre sınıflandırılabilir:
- Gübre 1
- Gübre 2
- Gübre 3
- Gübre 4
Tek yönlü bir ANOVA, biyoloğa dört farklı gübre arasında ortalama bitki büyümesinin eşit olup olmadığını söyleyecektir.
Örnek 2: Tercih Edilen Regresyon Modeli
Diyelim ki bir emlakçı metrekare ile emlak fiyatı arasındaki ilişkiyi anlamak istiyor. Bu ilişkiyi analiz etmek için belirli bir şehirdeki 200 evin metrekaresi ve fiyatına ilişkin veriler topluyor.
Bu senaryoda, tahmin değişkeni (metrekare) sürekli olduğundan emlakçı bu iki değişken arasındaki ilişkiyi analiz etmek için basit bir doğrusal regresyon modeli kullanmalıdır.
Basit doğrusal regresyon kullanarak emlakçı aşağıdaki regresyon modelini uygulayabilir:
Gayrimenkul fiyatı = β 0 + β 1 (kare alanı)
β 1 değeri, her ilave metrekare ile ilişkili ev fiyatındaki ortalama değişimi temsil edecektir.
Bu, emlakçının metrekare ile mülk fiyatı arasındaki ilişkiyi ölçmesine olanak tanıyacaktır.
Örnek 3: Tercih edilen kukla değişkenli regresyon modeli
Bir emlakçının “metrekare” ve “ev tipi” (tek aile, apartman dairesi, şehir evi) belirleyici değişkenleri ile gayrimenkul fiyatının yanıt değişkeni arasındaki ilişkiyi anlamak istediğini varsayalım.
Bu senaryoda emlakçı, halihazırda kategorik bir değişken olduğu için “ev tipi”ni kukla bir değişkene dönüştürerek çoklu doğrusal regresyon kullanabilir.
Emlakçı daha sonra aşağıdaki çoklu doğrusal regresyon modelini uygulayabilir:
Gayrimenkul fiyatı = β 0 + β 1 (kare alanı) + β 2 (tek aile) + β 3 (apartman dairesi)
Model katsayılarını şu şekilde yorumlayabiliriz:
- β 1 : İlave bir metrekare ile ilişkili ev fiyatındaki ortalama değişiklik.
- β 2 : Metrekarenin sabit kaldığı varsayılarak, müstakil ev ile şehir evi arasındaki ortalama fiyat farkı.
- β 3 : Sabit bir yüzey alanı varsayılarak, tek aileli bir ev ile bir apartman dairesi arasındaki ortalama fiyat farkı.
Farklı istatistik yazılımlarında kukla değişkenlerin nasıl oluşturulacağını görmek için aşağıdaki eğitimlere göz atın:
Ek kaynaklar
Aşağıdaki eğitimler ANOVA modellerine derinlemesine bir giriş sağlar:
Aşağıdaki eğitimler doğrusal regresyon modellerine derinlemesine bir giriş sağlar: