Mae vs. rmse: hangi metriği kullanmalısınız?


Regresyon modelleri, bir veya daha fazla yordayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi ölçmek için kullanılır.

Ne zaman bir regresyon modeli uydursak, modelin, tahmin değişkenlerinin değerlerini, yanıt değişkeninin değerini tahmin etmek için ne kadar iyi kullanabileceğini anlamak isteriz.

Bir modelin bir veri kümesine ne kadar iyi uyduğunu ölçmek için sıklıkla kullandığımız iki ölçüm, ortalama mutlak hata (MAE) ve ortalama karekök hatadır (RMSE), bunlar aşağıdaki şekilde hesaplanır:

MAE : Bir veri kümesindeki tahmin edilen değerler ile gerçek değerler arasındaki ortalama mutlak farkı bize bildiren bir metrik. MAE ne kadar düşük olursa, model bir veri setine o kadar iyi uyar.

MAE = 1/n * Σ|y i – ŷ i |

Altın:

  • Σ “toplam” anlamına gelen bir semboldür
  • y i, i’inci gözlem için gözlemlenen değerdir
  • ŷ i, i’inci gözlem için tahmin edilen değerdir
  • n örneklem büyüklüğüdür

RMSE : Bir veri kümesindeki tahmin edilen değerler ile gerçek değerler arasındaki ortalama kare farkının karekökünü bize söyleyen bir metrik. RMSE ne kadar düşük olursa, model bir veri setine o kadar iyi uyar.

Aşağıdaki şekilde hesaplanır:

RMSE = √ Σ(y ben – ŷ ben ) 2 / n

Altın:

  • Σ “toplam” anlamına gelen bir semboldür
  • ŷ i, i’inci gözlem için tahmin edilen değerdir
  • y i, i’inci gözlem için gözlemlenen değerdir
  • n örneklem büyüklüğüdür

Örnek: RMSE ve MAE’nin hesaplanması

Bir basketbol maçında 10 oyuncunun kaç puan alacağını tahmin etmek için bir regresyon modeli kullandığımızı varsayalım.

Aşağıdaki tablo, model tarafından tahmin edilen puanların, oyuncuların attığı gerçek puanlarla karşılaştırmasını göstermektedir:

MAE hesaplayıcısını kullanarak MAE’nin 3,2 olduğunu hesaplayabiliriz.

Bu bize modelin öngördüğü değerler ile gerçek değerler arasındaki ortalama mutlak farkın 3,2 olduğunu söylüyor.

RMSE hesaplayıcısını kullanarak RMSE’nin 4’e eşit olduğunu hesaplayabiliriz.

Bu bize, tahmin edilen puanlar ile gerçek puanlanan puanlar arasındaki ortalama kare farklarının karekökünün 4 olduğunu söyler.

Her metriğin bize model tarafından tahmin edilen değer ile veri kümesindeki gerçek değer arasındaki tipik fark hakkında bir fikir verdiğini ancak her metriğin yorumunun biraz farklı olduğunu unutmayın.

RMSE ve MAE: Hangi Metriği Kullanmalısınız?

Ortalamadan uzaktaki gözlemlere daha fazla ağırlık atamak istiyorsanız (yani 20’lik bir sapma, 10’luk bir sapmanın iki katından daha kötüyse), hatayı ölçmek için RMSE’yi kullanmak daha iyidir, çünkü RMSE ortalamadan uzaktaki gözlemlere daha duyarlıdır.

Bununla birlikte, eğer 20’de “dengelenmek”, 10’da “dengelenmek”ten iki kat daha kötüyse, o zaman MAE’yi kullanmak daha iyidir.

Bunu göstermek için, attığı puan sayısı açısından açık bir şekilde aykırı olan bir oyuncumuz olduğunu varsayalım:

Daha önce bahsedilen çevrimiçi hesaplayıcıları kullanarak MAE ve RMSE’yi şu şekilde hesaplayabiliriz:

  • MAE : 8
  • RMSE : 16.4356

RMSE’nin MAE’den çok daha fazla arttığını unutmayın.

Bunun nedeni, RMSE’nin formülünde karesel farklar kullanması ve gözlenen 76 değeri ile tahmin edilen 22 değeri arasındaki karesel farkın oldukça büyük olmasıdır. Bu, RMSE değerinde önemli bir artışa neden olur.

Uygulamada, genellikle birden fazla regresyon modelini bir veri kümesine sığdırırız ve her model için bu ölçümlerden yalnızca birini hesaplarız.

Örneğin, üç farklı regresyon modelini yerleştirebilir ve her model için RMSE’yi hesaplayabiliriz. Daha sonra RMSE değeri en düşük olan modeli “en iyi” model olarak seçerdik çünkü tahminleri veri setindeki gerçek değerlere en yakın yapan modeldir.

Her iki durumda da, her model için aynı ölçümü hesapladığınızdan emin olun. Örneğin, bir model için MAE’yi ve başka bir model için RMSE’yi hesaplamayın ve ardından bu iki ölçümü karşılaştırmayın.

Ek kaynaklar

Aşağıdaki eğitimler, farklı istatistiksel yazılımlar kullanılarak MAE’nin nasıl hesaplanacağını açıklamaktadır:

Excel’de Ortalama Mutlak Hata Nasıl Hesaplanır
R’de ortalama mutlak hata nasıl hesaplanır
Python’da Ortalama Mutlak Hata Nasıl Hesaplanır?

Aşağıdaki eğitimlerde farklı istatistiksel yazılımlar kullanılarak RMSE’nin nasıl hesaplanacağı açıklanmaktadır:

Excel’de Ortalama Kare Hatası Nasıl Hesaplanır?
R’de ortalama kare hata nasıl hesaplanır
Python’da Ortalama Karesel Hata Nasıl Hesaplanır?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir