Kukla değişken tuzağı nedir? (tanım & #038; örnek)
Doğrusal regresyon, bir veya daha fazla öngörücü değişken ile bir yanıt değişkeni arasındaki ilişkiyi ölçmek için kullanabileceğimiz bir yöntemdir.
Genellikle niceliksel değişkenlerle doğrusal regresyon kullanırız. Bazen “sayısal” değişkenler olarak da adlandırılan bunlar ölçülebilir bir miktarı temsil eden değişkenlerdir. Örnekler şunları içerir:
- Bir evin metrekare sayısı
- Bir şehrin nüfus büyüklüğü
- Bir bireyin yaşı
Ancak bazen kategorik değişkenleri yordayıcı değişken olarak kullanmak isteriz. Bunlar adları veya etiketleri alan ve kategorilere ayrılabilen değişkenlerdir. Örnekler şunları içerir:
- Göz rengi (örneğin “mavi”, “yeşil”, “kahverengi”)
- Cinsiyet (örneğin “erkek”, “kadın”)
- Medeni durum (örneğin “evli”, “bekar”, “boşanmış”)
Kategorik değişkenler kullanılırken “mavi”, “yeşil”, “kahverengi” gibi değerlere sadece 1, 2, 3 gibi değerler atamak mantıklı değildir, çünkü bunu söylemek mantıklı değildir. o yeşil çifttir. Mavi veya kahverengi kadar renkli olan, maviden üç kat daha renklidir.
Bunun yerine çözüm kukla değişkenleri kullanmaktır. Bunlar regresyon analizi için özel olarak oluşturduğumuz ve iki değerden birini alan değişkenlerdir: sıfır veya bir.
Oluşturmamız gereken kukla değişken sayısı k -1’e eşittir; burada k , kategorik değişkenin alabileceği farklı değerlerin sayısıdır.
Örneğin, aşağıdaki veri setine sahip olduğumuzu ve geliri tahmin etmek için medeni durumu ve yaşı kullanmak istediğimizi varsayalım:
Medeni durumu bir regresyon modelinde yordayıcı değişken olarak kullanmak için onu kukla değişkene dönüştürmemiz gerekir.
Bu şu anda üç farklı değer alabilen kategorik bir değişken olduğundan (“Bekar”, “Evli” veya “Boşanmış”) k -1 = 3-1 = 2 kukla değişken oluşturmamız gerekiyor.
Bu kukla değişkeni oluşturmak için, en sık göründüğü için temel değer olarak “Tek” değerini bırakabiliriz. İşte medeni durumu kukla değişkenlere nasıl dönüştüreceğimiz:
Daha sonra bir regresyon modelinde Yaş , Evli ve Boşanmış’ı yordayıcı değişkenler olarak kullanabiliriz.
Kukla değişkenler oluştururken ortaya çıkabilecek soruna kukla değişken tuzağı denir. Bu, k -1 kukla değişken yerine k kukla değişken oluşturduğumuzda olur.
Bu gerçekleştiğinde kukla değişkenlerden en az ikisi mükemmel çoklu bağlantıdan zarar görecektir. Başka bir deyişle, mükemmel bir şekilde ilişkilendirileceklerdir. Bu, regresyon katsayılarının ve bunlara karşılık gelen p değerlerinin yanlış hesaplanmasına neden olur.
Kukla değişken tuzağı: Oluşturulan kukla değişken sayısı, kategorik değerin alabileceği değer sayısına eşit olduğunda. Bu, çoklu doğrusallığa yol açar ve bu da regresyon katsayılarının ve p değerlerinin yanlış hesaplanmasına neden olur.
Örneğin, medeni durumu aşağıdaki kukla değişkenlere dönüştürdüğümüzü varsayalım:
Bu durumda Bekar ve Evli mükemmel bir korelasyona sahiptir ve korelasyon katsayısı -1’dir.
Yani çoklu doğrusal regresyon yaptığımızda regresyon katsayısı hesaplamaları hatalı olacaktır.
Sahte değişken tuzağından nasıl kaçınılır
Sahte değişkenlerin tuzağına düşmemek için tek bir kuralı hatırlamanız yeterli:
Kategorik bir değişken k farklı değer alabiliyorsa, regresyon modelinde kullanmak üzere yalnızca k-1 kukla değişken oluşturmalısınız.
Örneğin, kategorik bir değişken olan “okul yılı”nı kukla değişkenlere dönüştürmek istediğinizi varsayalım. Bu değişkenin aşağıdaki değerleri aldığını varsayalım:
- Birinci sınıf öğrencisi
- İkinci sınıf öğrencisi
- Genç
- Kıdemli
Bu değişken 4 farklı değer alabildiği için sadece 3 kukla değişken oluşturacağız. Örneğin kukla değişkenlerimiz şunlar olabilir:
- X 1 = 1 eğer ikinci sınıf öğrencisiyse; 0 aksi takdirde
- X 2 = 1 eğer Junior ise; 0 aksi takdirde
- X 3 = 1 porsuk ağacı Kıdemli; 0 aksi takdirde
Kukla değişken sayısı “okul yılının” alabileceği değer sayısından bir eksik olduğu için kukla değişken tuzağından ve çoklu bağlantı probleminden kaçınabiliriz.
Ek kaynaklar
Regresyon analizinde kukla değişkenler nasıl kullanılır?
Çoklu Doğrusal Regresyona Giriş
Regresyonda Çoklu Doğrusallık Rehberi