Makine öğreniminde sınıflandırma hatası oranı: tanım ve örnek


Makine öğreniminde yanlış sınıflandırma oranı , bize bir sınıflandırma modeli tarafından yanlış tahmin edilen gözlemlerin yüzdesini söyleyen bir ölçümdür.

Aşağıdaki şekilde hesaplanır:

Yanlış sınıflandırma oranı = # yanlış tahmin / # toplam tahmin

Yanlış sınıflandırma oranının değeri 0 ile 1 arasında değişebilir:

  • 0 , yanlış tahminleri olmayan bir modeli temsil eder.
  • 1, tahminleri tamamen yanlış olan bir modeli temsil etmektedir.

Yanlış sınıflandırma oranının değeri ne kadar düşük olursa, bir sınıflandırma modeli yanıt değişkeninin sonuçlarını o kadar iyi tahmin edebilir.

Aşağıdaki örnek, pratikte bir lojistik regresyon modeli için sınıflandırma hata oranının nasıl hesaplanacağını göstermektedir.

Örnek: Lojistik regresyon modeli için sınıflandırma hata oranının hesaplanması

400 farklı kolej basketbol oyuncusunun NBA’e alınıp alınmayacağını tahmin etmek için lojistik regresyon modeli kullandığımızı varsayalım.

Aşağıdaki karışıklık matrisi, modelin yaptığı tahminleri özetlemektedir:

lojistik regresyon modelinin yanlış sınıflandırma oranını hesaplamak

Model için sınıflandırma hata oranının nasıl hesaplanacağı aşağıda açıklanmıştır:

  • Yanlış sınıflandırma oranı = # yanlış tahmin / # toplam tahmin
  • Sınıflandırma hata oranı = (yanlış pozitifler + yanlış negatifler) / (toplam tahminler)
  • Yanlış sınıflandırma oranı = (70 + 40) / (400)
  • Yanlış sınıflandırma oranı = 0,275

Bu model için sınıflandırma hatası oranı 0,275 veya %27,5’tir .

Bu, modelin oyuncuların %27,5’inin sonucunu yanlış tahmin ettiği anlamına gelir.

Sınıflandırma hata oranının tersi, aşağıdaki şekilde hesaplanan doğruluk olacaktır:

  • Doğruluk = 1 – Sınıflandırma hata oranı
  • Doğruluk = 1 – 0,275
  • Doğruluk = 0,725

Bu, modelin oyuncuların %72,5’inin sonucunu doğru şekilde tahmin ettiği anlamına gelir.

Yanlış Sınıflandırma Oranının Avantajları ve Dezavantajları

Yanlış sınıflandırma oranı aşağıdaki faydaları sağlar:

  • Yorumlaması kolaydır . %10’luk bir sınıflandırma hatası oranı, bir modelin toplam gözlemlerin %10’u için hatalı tahmin yaptığı anlamına gelir.
  • Hesaplaması kolaydır . Yanlış sınıflandırma oranı, hatalı tahminlerin toplam sayısının toplam tahmin sayısına bölünmesiyle hesaplanır.

Ancak sınıflandırma hata oranının aşağıdaki dezavantajları vardır:

  • Bu, verilerin nasıl dağıtıldığını dikkate almaz . Örneğin, oyuncuların %90’ının NBA’e seçilmediğini varsayalım. Basitçe her oyuncunun draft edilmeyeceğini öngören bir modelimiz olsaydı, modelin sınıflandırma hata oranı yalnızca %10 olurdu. Bu düşük görünüyor ancak model aslında draft edilecek oyuncuyu doğru bir şekilde tahmin edemiyor.

Uygulamada genellikle bir modelin sınıflandırma hata oranını aşağıdaki gibi diğer ölçümlerle hesaplarız:

  • Hassasiyet : “Gerçek pozitif oran” – modelin tespit edebildiği pozitif sonuçların yüzdesi.
  • Özgüllük : “Gerçek negatif oran” – modelin tespit edebildiği negatif sonuçların yüzdesi.
  • F1 Puanı : Verilerin nasıl dağıtıldığına göre bize bir modelin ne kadar doğru olduğunu söyleyen bir ölçüm .

Bu metriklerin her birinin değerini hesaplayarak modelin ne kadar iyi tahminler yapabildiğini tam olarak anlayabiliriz.

Ek kaynaklar

Aşağıdaki eğitimler yaygın makine öğrenimi kavramları hakkında ek bilgi sağlar:

Lojistik Regresyona Giriş
Dengeli doğruluk nedir?
F1 Puanı ve Doğruluk: Hangisini Kullanmalısınız?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir