F1 puanı ve doğruluk: hangisini kullanmalısınız?

İle Dr.benjamin anderson Temmuz 23, 2023 Rehber 0 Yorum

Makine öğreniminde sınıflandırma modellerini kullanırken model kalitesini değerlendirmek için sıklıkla kullandığımız iki ölçüm F1 puanı ve doğruluktur .

Her iki ölçüm için de değer ne kadar yüksek olursa, model gözlemleri sınıflara ayırma konusunda o kadar yetenekli olur.

Ancak her metrik farklı bir formül kullanılarak hesaplanır ve onu kullanmanın avantaj ve dezavantajları vardır.

Aşağıdaki örnek, her bir metriğin pratikte nasıl hesaplanacağını göstermektedir.

Örnek: F1 puanının ve doğruluğunun hesaplanması

400 farklı kolej basketbol oyuncusunun NBA’e alınıp alınmayacağını tahmin etmek için lojistik regresyon modeli kullandığımızı varsayalım.

Aşağıdaki karışıklık matrisi, modelin yaptığı tahminleri özetlemektedir:

Karışıklık matrisi için çeşitli ölçümleri nasıl hesaplayacağınız aşağıda açıklanmıştır:

Doğruluk: pozitif tahminlerin toplam pozitif tahminlere göre doğru olması

Doğruluk = Doğru Pozitif / (Doğru Pozitif + Yanlış Pozitif)
Doğruluk = 120 / (120 + 70)
Doğruluk = 0,63

Hatırlatma: Pozitif tahminleri toplam gerçek pozitiflere göre düzeltin

Hatırlama = Doğru Pozitif / (Doğru Pozitif + Yanlış Negatif)
Geri çağırma = 120 / (120 + 40)
Geri çağırma = 0,75

Doğruluk: Doğru şekilde sınıflandırılan tüm gözlemlerin yüzdesi

Doğruluk = (Doğru pozitif + Gerçek negatif) / (Toplam örneklem büyüklüğü)
Doğruluk = (120 + 170) / (400)
Doğruluk = 0,725

F1 puanı: hassaslık ve geri çağırmanın harmonik ortalaması

F1 puanı = 2 * (Hassaslık * Geri Çağırma) / (Hassaslık + Geri Çağırma)
F1 puanı = 2 * (0,63 * 0,75) / (0,63 + 0,75)
F1 puanı = 0,685

Doğruluğa karşı F1 puanı ne zaman kullanılmalı?

F1 skorunu ve doğruluğunu kullanmanın artıları ve eksileri var.

Doğruluk :

Artıları : Yorumlanması kolaydır. Bir modelin %90 doğru olduğunu söylersek, gözlemlerin %90’ını doğru sınıflandırdığını biliyoruz.

Dezavantajı : Verilerin nasıl dağıtıldığını dikkate almaz. Örneğin, oyuncuların %90’ının NBA’e seçilmediğini varsayalım. Basitçe her oyuncunun draft edilmeyeceğini öngören bir modelimiz olsaydı, model oyuncuların %90’ının sonucunu doğru bir şekilde tahmin ederdi. Bu değer yüksek gibi görünse de aslında model hangi oyuncuların draft edileceğini doğru bir şekilde tahmin edemiyor.

F1 sonuçları :

Artıları : Verilerin nasıl dağıtıldığını düşünün. Örneğin, veriler oldukça dengesizse (örneğin tüm oyuncuların %90’ı seçilmemiş ve %10’u seçilmişse), o zaman F1 puanı modelin performansının daha iyi bir şekilde değerlendirilmesini sağlayacaktır.

Dezavantajı : Yorumlanması daha zordur. F1 puanı, hassasiyet ve model hatırlamanın bir karışımıdır ve yorumlanmasını biraz daha zorlaştırır.

Genel olarak:

Sınıflar dengeli olduğunda ve yanlış negatifleri tahmin etmenin büyük bir dezavantajı olmadığında doğruluğu sıklıkla kullanırız.

Sınıflar dengesiz olduğunda ve yanlış negatifleri tahmin etmede ciddi bir dezavantaj olduğunda F1 puanını sıklıkla kullanırız.

Örneğin, bir kişinin kanser olup olmadığını tahmin etmek için bir lojistik regresyon modeli kullanırsak, yanlış negatifler gerçekten kötüdür (örneğin, bir kişinin gerçekten kanser hastası olduğunu tahmin etmek a), bu nedenle F1 puanı, kansere sahip olan modelleri cezalandıracaktır. çok fazla yanlış negatif. kesinlikten daha fazlası.

Ek kaynaklar

Regresyon vs. sınıflandırma: fark nedir?
Lojistik Regresyona Giriş
R’de lojistik regresyon nasıl gerçekleştirilir
Python’da Lojistik Regresyon Nasıl Gerçekleştirilir

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil

Örnek: F1 puanının ve doğruluğunun hesaplanması

Doğruluğa karşı F1 puanı ne zaman kullanılmalı?

Ek kaynaklar

yazar hakkında

Dr.benjamin anderson

Yorum ekle