İstatistiklerde tahmin hatası nedir? (tanım ve örnekler)
İstatistikte tahmin hatası , belirli modellerin tahmin ettiği değerler ile gerçek değerler arasındaki farkı ifade eder.
Tahmin hatası genellikle iki bağlamda kullanılır:
1. Doğrusal regresyon: Sürekli yanıt değişkeninin değerini tahmin etmek için kullanılır.
Genellikle doğrusal bir regresyon modelinin tahmin hatasını, ortalama kare hatası anlamına gelen RMSE olarak bilinen bir metrikle ölçeriz.
Aşağıdaki şekilde hesaplanır:
RMSE = √ Σ(ŷ ben – y ben ) 2 / n
Altın:
- Σ “toplam” anlamına gelen bir semboldür
- ŷ i, i’inci gözlem için tahmin edilen değerdir
- y i, i’inci gözlem için gözlemlenen değerdir
- n örneklem büyüklüğüdür
2. Lojistik regresyon: ikili yanıt değişkeninin değerini tahmin etmek için kullanılır.
Lojistik regresyon modelinin tahmin hatasını ölçmenin yaygın bir yolu, toplam sınıflandırma hatası oranı olarak bilinen bir ölçüm kullanmaktır.
Aşağıdaki şekilde hesaplanır:
Toplam yanlış sınıflandırma oranı = (# yanlış tahmin / # toplam tahmin)
Yanlış sınıflandırma oranının değeri ne kadar düşük olursa, model yanıt değişkeninin sonuçlarını o kadar iyi tahmin edebilir.
Aşağıdaki örneklerde doğrusal regresyon modeli ve lojistik regresyon modeli için tahmin hatasının pratikte nasıl hesaplanacağı gösterilmektedir.
Örnek 1: Doğrusal regresyonda tahmin hatasını hesaplama
Bir basketbol maçında 10 oyuncunun kaç puan alacağını tahmin etmek için bir regresyon modeli kullandığımızı varsayalım.
Aşağıdaki tablo, model tarafından tahmin edilen puanların, oyuncuların attığı gerçek puanlarla karşılaştırmasını göstermektedir:
Hatanın ortalama karekökünü (RMSE) şu şekilde hesaplarız:
- RMSE = √ Σ(ŷ ben – y ben ) 2 / n
- RMSE = √(((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
- RMSE = 4
Ortalama kare hatası 4’tür. Bu bize, atılan tahmin edilen puanlar ile atılan gerçek puanlar arasındaki ortalama sapmanın 4 olduğunu söyler.
İlgili: İyi bir RMSE değeri nedir?
Örnek 2: Lojistik regresyonda tahmin hatasını hesaplama
10 kolej basketbol oyuncusunun NBA’e alınıp alınmayacağını tahmin etmek için lojistik regresyon modeli kullandığımızı varsayalım.
Aşağıdaki tablo, her oyuncunun tahmini sonucunu gerçek sonuca göre gösterir (1 = taslak, 0 = taslaksız):
Toplam yanlış sınıflandırma oranını şu şekilde hesaplayabiliriz:
- Toplam yanlış sınıflandırma oranı = (# yanlış tahmin / # toplam tahmin)
- Toplam sınıflandırma hata oranı = 4/10
- Toplam yanlış sınıflandırma oranı = %40
Toplam sınıflandırma hata oranı %40’tır .
Bu değer oldukça yüksek, bu da modelin bir oyuncunun draft edilip edilmeyeceğini tahmin etme konusunda pek iyi bir iş çıkarmadığını gösteriyor.
Ek kaynaklar
Aşağıdaki eğitimler farklı regresyon yöntemlerine giriş sağlar:
Basit Doğrusal Regresyona Giriş
Çoklu Doğrusal Regresyona Giriş
Lojistik Regresyona Giriş