Rmse ve r-squared: hangi metriği kullanmalısınız?


Regresyon modelleri, bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi ölçmek için kullanılır.

Ne zaman bir regresyon modeli uydursak, modelin verilere ne kadar iyi uyduğunu anlamak isteriz. Başka bir deyişle, model, tahmin değişkenlerinin değerlerini, yanıt değişkeninin değerini tahmin etmek için ne kadar iyi kullanabiliyor?

Bir modelin bir veri kümesine ne kadar iyi uyduğunu ölçmek için istatistikçilerin sıklıkla kullandığı iki ölçüm, hatanın ortalama karekökü (RMSE) ve R karedir ( R2 ), bunlar aşağıdaki şekilde hesaplanır:

RMSE : Bir veri setinde tahmin edilen değerlerin gözlemlenen değerlerden ortalama ne kadar uzakta olduğunu bize söyleyen bir ölçüm. RMSE ne kadar düşük olursa, model bir veri setine o kadar iyi uyar.

Aşağıdaki şekilde hesaplanır:

RMSE = √ Σ(P ben – Ö ben ) 2 / n

Altın:

  • Σ “toplam” anlamına gelen bir semboldür
  • P i, i’inci gözlem için tahmin edilen değerdir
  • O i, i’inci gözlem için gözlemlenen değerdir
  • n örneklem büyüklüğüdür

R 2 : Bir regresyon modelinin yanıt değişkenindeki varyansın ne kadarının yordayıcı değişkenler tarafından açıklanabileceğini bize söyleyen bir ölçüm. Bu değer 0 ile 1 arasındadır. R2 değeri ne kadar yüksek olursa model bir veri kümesine o kadar iyi uyum sağlar.

Aşağıdaki şekilde hesaplanır:

R2 = 1 – (RSS/TSS)

Altın:

  • RSS, artıkların karelerinin toplamını temsil eder
  • TSS toplam karelerin toplamını temsil eder

RMSE vs R 2 : Hangi Metriği Kullanmalısınız?

Bir modelin veri setine uyumunu değerlendirirken hem RMSE değerini hem de R 2 değerini hesaplamak faydalıdır çünkü her metrik bize farklı bir şey anlatır.

Bir yandan RMSE bize regresyon modelinin tahmin ettiği değer ile gerçek değer arasındaki tipik mesafeyi anlatır.

Öte yandan R2 bize yordayıcı değişkenlerin yanıt değişkenindeki değişimi ne ölçüde açıklayabildiğini anlatır.

Örneğin, belirli bir şehirdeki evler hakkındaki bilgileri görüntüleyen aşağıdaki veri kümesine sahip olduğumuzu varsayalım:

Şimdi bir evin fiyatını tahmin etmek için metrekare, banyo sayısı ve yatak odası sayısını kullanmak istediğimizi varsayalım.

Aşağıdaki regresyon modelini uyarlayabiliriz:

Fiyat = β 0 + β 1 (metrekare) + β 2 (# banyo) + β 3 (# yatak odası)

Şimdi bu modele uyduğumuzu ve ardından modelin uyum iyiliğini değerlendirmek için aşağıdaki ölçümleri hesapladığımızı varsayalım:

  • RMSE : 14.342
  • R2 : 0,856

RMSE değeri bize modelin tahmin edilen konut fiyatı ile gerçek konut fiyatı arasındaki ortalama farkın 14.342 $ olduğunu söylüyor.

R 2 değeri bize modelin yordayıcı değişkenlerinin (metrekare, banyo sayısı ve yatak odası sayısı) konut fiyatlarındaki değişimin %85,6’sını açıklayabildiğini söylüyor.

Bu değerlerin “iyi” olup olmadığını belirlemek için bu ölçümleri alternatif modellerle karşılaştırabiliriz.

Örneğin, farklı bir tahmin değişkenleri kümesi kullanan başka bir regresyon modelini uydurduğumuzu ve bu model için aşağıdaki ölçümleri hesapladığımızı varsayalım:

  • RMSE : 19.355
  • R2 : 0,765

Bu modelin RMSE değerinin bir önceki modele göre daha yüksek olduğunu görebiliyoruz. Ayrıca bu modelin R 2 değerinin bir önceki modele göre daha düşük olduğu da görülebilmektedir. Bu bize bu modelin önceki modele göre verilere daha az uyum sağladığını söylüyor.

Özet

İşte bu makalede vurgulanan ana noktalar:

  • RMSE ve R2, bir regresyon modelinin bir veri setine ne kadar iyi uyduğunu ölçer.
  • RMSE bize bir regresyon modelinin yanıt değişkeninin değerini mutlak terimlerle ne kadar iyi tahmin edebildiğini söylerken, R2 bize bir modelin yanıt değişkeninin değerini yüzde cinsinden ne kadar iyi tahmin edebildiğini söyler.
  • Belirli bir model için hem RMSE’yi hem de R2’yi hesaplamak faydalıdır çünkü her ölçüm bize faydalı bilgiler verir.

Ek kaynaklar

Çoklu Doğrusal Regresyona Giriş
R vs R-Square: fark nedir?
İyi bir R-kare değeri nedir?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir