“i̇yi” nedir? makine öğrenimi modellerinin doğruluğu?
Makine öğreniminde sınıflandırma modellerini kullanırken, bir modelin kalitesini değerlendirmek için sıklıkla kullandığımız bir ölçüm doğruluktur .
Hassasiyet, model tarafından doğru şekilde sınıflandırılan tüm gözlemlerin yüzdesidir.
Aşağıdaki şekilde hesaplanır:
Doğruluk = (# gerçek pozitif + # gerçek negatif) / (toplam örnek boyutu)
Öğrencilerin doğrulukla ilgili sıklıkla sordukları bir soru şudur:
Bir makine öğrenimi modelinin doğruluğu için “iyi” değer olarak kabul edilen şey nedir?
Bir modelin doğruluğu %0 ila %100 arasında değişebilse de, bir modelin “iyi” doğruluğa sahip olup olmadığını belirlemek için kullandığımız evrensel bir eşik yoktur.
Bunun yerine genellikle modelimizin doğruluğunu referans modelin doğruluğuyla karşılaştırırız.
Temel model, bir veri setindeki her gözlemin en yaygın sınıfa ait olduğunu basitçe tahmin eder.
Uygulamada, referans modelden daha yüksek doğruluğa sahip herhangi bir sınıflandırma modeli “faydalı” olarak kabul edilebilir, ancak açıkçası bizim modelimiz ile referans model arasındaki doğruluk farkı ne kadar büyükse o kadar iyidir.
Aşağıdaki örnek, bir sınıflandırma modelinin “iyi” doğruluğa sahip olup olmadığının kabaca nasıl belirleneceğini gösterir.
Örnek: Bir modelin “iyi” doğruluğa sahip olup olmadığının belirlenmesi
400 farklı kolej basketbol oyuncusunun NBA’e alınıp alınmayacağını tahmin etmek için lojistik regresyon modeli kullandığımızı varsayalım.
Aşağıdaki karışıklık matrisi, modelin yaptığı tahminleri özetlemektedir:
Bu modelin doğruluğunu şu şekilde hesaplayabilirsiniz:
- Doğruluk = (# gerçek pozitif + # gerçek negatif) / (toplam örnek boyutu)
- Doğruluk = (120 + 170) / (400)
- Doğruluk = 0,725
Model, oyuncuların %72,5’inin sonucunu doğru bir şekilde tahmin etti.
Doğruluğun “iyi” olup olmadığına dair bir fikir edinmek için temel bir modelin doğruluğunu hesaplayabiliriz.
Bu örnekte oyuncular için en yaygın sonuç draft edilmemekti. Özellikle 400 oyuncudan 240’ı draft edilmedi.
Temel bir model, her oyuncunun draft edilmeyeceğini basitçe tahmin eden bir model olabilir.
Bu modelin doğruluğu şu şekilde hesaplanacaktır:
- Doğruluk = (# gerçek pozitif + # gerçek negatif) / (toplam örnek boyutu)
- Doğruluk = (0 + 240) / (400)
- Doğruluk = 0,6
Bu temel model, oyuncuların %60’ının sonucunu doğru bir şekilde tahmin edebiliyordu.
Bu senaryoda, lojistik regresyon modelimiz temel modele göre doğrulukta kayda değer bir iyileşme sağlıyor, dolayısıyla modelimizin en azından “faydalı” olduğunu düşünüyoruz.
Uygulamada, muhtemelen birkaç farklı sınıflandırma modelini bir araya getiririz ve nihai modeli, temel modelle karşılaştırıldığında doğruluk açısından en büyük kazanımı sağlayan model olarak seçeriz.
Model Performansını Değerlendirmek İçin Doğruluğu Kullanmaya İlişkin Önlemler
Kesinlik, yorumlanması kolay olduğundan yaygın olarak kullanılan bir ölçümdür.
Örneğin bir modelin %90 doğru olduğunu söylersek gözlemlerin %90’ını doğru sınıflandırdığını biliyoruz.
Ancak doğruluk, verilerin nasıl dağıtıldığını dikkate almaz.
Örneğin, oyuncuların %90’ının NBA’e seçilmediğini varsayalım. Basitçe her oyuncunun draft edilmeyeceğini öngören bir modelimiz olsaydı, model oyuncuların %90’ının sonucunu doğru bir şekilde tahmin ederdi.
Bu değer yüksek gibi görünse de aslında model hangi oyuncuların draft edileceğini doğru bir şekilde tahmin edemiyor.
Sıklıkla kullanılan alternatif bir ölçüm, verilerin nasıl dağıtıldığını dikkate alan F1 Puanı olarak adlandırılır.
Örneğin, veriler oldukça dengesizse (örneğin tüm oyuncuların %90’ı seçilmemiş ve %10’u seçilmişse), o zaman F1 puanı modelin performansının daha iyi bir şekilde değerlendirilmesini sağlayacaktır.
Doğruluk ve F1 puanı arasındaki farklar hakkında daha fazla bilgiyi burada bulabilirsiniz.
Ek kaynaklar
Aşağıdaki eğitimler, makine öğrenimi sınıflandırma modellerinde kullanılan ölçümler hakkında ek bilgi sağlar: