Regresyonun standart hatasını anlamak
Bir veri kümesine bir regresyon modeli uydurduğumuzda, genellikle regresyon modelinin veri kümesine ne kadar iyi “uyduğu” ile ilgileniriz. Uyumun iyiliğini ölçmek için yaygın olarak kullanılan iki ölçüm , R kareyi ( R2 ) ve genellikle S olarak gösterilen standart regresyon hatasını içerir.
Bu eğitim, regresyonun standart hatasının (S) nasıl yorumlanacağını ve bunun neden R2’den daha yararlı bilgiler sağlayabileceğini açıklamaktadır.
Regresyonda R-kare’ye karşı standart hata
Diyelim ki, önemli bir sınava kadar 12 öğrencinin bir ay boyunca günde kaç saat çalıştığını ve sınav puanlarını gösteren basit bir veri setimiz var:
Excel’deki bu veri kümesine basit bir doğrusal regresyon modeli uydurursak aşağıdaki sonucu alırız:
R kare , yanıt değişkenindeki yordayıcı değişken tarafından açıklanabilen varyansın oranıdır. Bu durumda sınav puanlarındaki varyansın %65,76’sı ders çalışma saatiyle açıklanabilir.
Regresyonun standart hatası, gözlemlenen değerler ile regresyon çizgisi arasındaki ortalama mesafedir. Bu durumda gözlenen değerler regresyon doğrusundan ortalama 4,89 birim sapmaktadır.
Gerçek veri noktalarını regresyon çizgisiyle çizersek şunu daha net görebiliriz:
Bazı gözlemlerin regresyon çizgisine çok yakın olduğunu, bazılarının ise böyle olmadığını unutmayın. Ancak ortalama olarak gözlemlenen değerler regresyon çizgisinden 4,19 birim sapmaktadır.
Regresyonun standart hatası özellikle kullanışlıdır çünkü tahminlerin doğruluğunu değerlendirmek için kullanılabilir. Gözlemin yaklaşık %95’i, regresyonun +/- iki standart hatası dahilinde kalmalıdır; bu, %95’lik bir tahmin aralığının hızlı bir tahminidir.
Regresyon modelini kullanarak tahminlerde bulunmak istiyorsak, regresyonun standart hatası R-kareden daha yararlı bir ölçüm olabilir çünkü bize tahminlerimizin birim cinsinden ne kadar doğru olduğuna dair bir fikir verir.
Bir modelin “uyumunu” değerlendirmede regresyonun standart hatasının neden daha yararlı bir ölçü olabileceğini göstermek için, 12 öğrencinin önemli bir sınavdan önceki bir ay boyunca günde kaç saat çalıştığını ve bunun yanı sıra önemli bir sınavdan önce kaç saat çalıştığını gösteren başka bir örnek veri setini ele alalım. sınav sonucu:
Tüm s değerlerinin yarıya indirilmesi dışında bunun öncekiyle tamamen aynı veri kümesi olduğunu unutmayın . Böylece, bu veri setindeki öğrenciler önceki veri setindeki öğrencilerin tam yarısı kadar çalıştılar ve sınav notunun tam yarısını aldılar.
Excel’deki bu veri kümesine basit bir doğrusal regresyon modeli uydurursak aşağıdaki sonucu alırız:
%65,76’lık R karenin önceki örnektekiyle tamamen aynı olduğuna dikkat edin.
Ancak regresyonun standart hatası 2,095’tir , bu da önceki örnekteki regresyonun standart hatasının tam yarısıdır.
Gerçek veri noktalarını regresyon çizgisiyle çizersek şunu daha net görebiliriz:
Gözlemlerin regresyon çizgisi etrafında nasıl daha yakından kümelendiğine dikkat edin. Gözlemlenen değerler ortalama olarak regresyon doğrusundan 2.095 birim uzakta yer almaktadır.
Yani her iki regresyon modelinin de R-kare değeri %65,76 olmasına rağmen, ikinci modelin daha düşük regresyon standart hatasına sahip olması nedeniyle daha doğru tahminler sağlayacağını biliyoruz.
Standart Hata Kullanmanın Yararları
Regresyonun standart hatasını (S) bilmek çoğu zaman modelin R karesini bilmekten daha faydalıdır çünkü bize gerçek birimleri verir. Tahmin üretmek için bir regresyon modeli kullanmak istersek, S bize bir modelin tahmin amacıyla kullanılacak kadar doğru olup olmadığını çok kolay bir şekilde söyleyebilir.
Örneğin, sınav puanlarını gerçek puanın 6 puanı dahilinde tahmin edebileceğimiz %95’lik bir tahmin aralığı üretmek istediğimizi varsayalım.
İlk modelimizin R-kare değeri %65,76’dır, ancak bu bize tahmin aralığımızın doğruluğu hakkında hiçbir şey söylemez. Neyse ki ilk modelin S değerinin 4,19 olduğunu da biliyoruz. Bu, %95’lik bir tahmin aralığının yaklaşık 2*4,19 = +/- 8,38 birim genişliğinde olacağı anlamına gelir; bu da bizim tahmin aralığımız için çok geniştir.
İkinci modelimizin de R-kare değeri %65,76’dır, ancak yine bu bize tahmin aralığımızın doğruluğu hakkında hiçbir şey söylemez. Ancak ikinci modelin S değerinin 2,095 olduğunu biliyoruz. Bu, %95’lik bir tahmin aralığının yaklaşık 2*2,095 = +/- 4,19 birim genişliğinde olacağı anlamına gelir; bu, 6’dan küçüktür ve bu nedenle, tahmin aralıkları oluşturmak için kullanılabilecek kadar doğrudur.
daha fazla okuma
Basit Doğrusal Regresyona Giriş
İyi bir R-kare değeri nedir?