Sınıflandırma Modellerinin Değerlendirilmesi: Doğruluk Neden Yeterli Değildir?

Doğruluk, makine öğreniminde sınıflandırma modellerini değerlendirmeyi düşündüğümüzde genellikle akla gelen bir ölçümdür. Anlaması sezgisel ve ölçülmesi kolay olmasına rağmen, dikkatli kullanılması gerekir. Veri bilimi uygulayıcıları olarak, doğruluk metriğinin tam olarak ne zaman ve nasıl kullanılacağını bilmek önemlidir. Bu yazıda doğruluk kavramını yıkıyorum ve varsayımsal bir örnekle neden yanıltıcı olabileceğini açıklıyorum.

Tanıtım

İlk önce sınıflandırma fikrini ortaya koymadan doğruluktan bahsetmek mümkün olmazdı. sınıflandırma verileri farklı sınıflara ayırma görevidir. Makine öğreniminde, kabul edilirdenetimli öğrenme, modellerin etiketlerle verilerden öğrendiği yer.

Basit olması için, sonraki tartışmalar ikili sınıflandırma – yalnızca iki olası sonuçla sınıflandırma – bağlamında olacaktır . Gerçek dünyadaki ikili sınıflandırma örnekleri, bir müşterinin bir pazarlama reklamına yanıt verip vermeyeceğini tahmin etmeyi, spam olması muhtemel e-postaları tespit etmeyi ve bir tümörün kötü huylu mu yoksa iyi huylu mu olduğunu tahmin etmeyi içerir.

Doğruluk nedir?

İkili sınıflandırma gerçekleştirmek için bir makine öğrenimi modeli eğittiğinizi varsayalım. Modelin tahminlerde iyi bir iş çıkardığını nasıl anlarsınız? Genellikle akla gelen bir ölçüm doğruluktur . Özünde doğruluk, model tarafından üretilen doğru tahminlerin oranıdır . Anlaşılması sezgisel ve ölçülmesi kolay olsa da, doğruluk metriğinin dikkatli kullanılması gerekir. Veri bilimi uygulayıcıları olarak doğruluk metriğinin tam olarak ne zaman ve nasıl kullanılacağını bilmek önemlidir.

Doğruluk Paradoksu: Basit Bir Örnek

Veri bilimi öğrenmeye ilk başladığımda, “doğruluk paradoksu” ve “doğruluk yanıltıcı olabilir” gibi ifadeler çok sık ortaya çıktı. Daha derin bir araştırma yapana kadar bunların arkasındaki nedenleri gerçekten anlamadım. Basit, hayali bir örnek oluşturarak kendimi daha iyi anlamaya karar verdim ve bunu sizinle paylaşmak istiyorum. İşte başlıyoruz:

Önce bazı terminolojileri aradan çıkaralım. Her gözlemin bir hastaya karşılık geldiği ve kanserli olup olmadığı bir veri seti düşünün. Sınıf , bu durumda, ifade eder kategorik değişkenler hastanın kansere sahip olması önemli değildir. Genellikle, bir gözlemin belirli bir sınıfa ait olup olmadığını bilmek isteriz. Bu genellikle ilgilenilen sınıf olarak bilinir ve pozitif sınıf olarak etiketlenir . Pozitif sınıf bazen daha nadir görülen sınıftır, yani azınlık sınıfıdır (ancak bunun istisnaları olabilir!).

Kanser tahmini örneğimizde, bir hastanın kanser olup olmadığını bilmekle daha çok ilgilenirdik çünkü bu, daha ciddi sonuçları olan bir sonuçtur. Ayrıca kansere sahip olmak istatistiksel olarak daha nadirdir. Böylece pozitif sınıf, kanserli bir hastaya karşılık gelir.

Sadece 100’ü pozitif sınıfa, yani kanserli hastalara ait olan 1000 gözlemimiz olduğunu varsayalım. Ayrı bir veri kümesi üzerinde eğitilmiş bir ikili sınıflandırma modelimiz olduğunu ve modelin bu 1.000 gözlem üzerinde tahminler ürettiğini varsayalım. Şekil 1, varsayımsal tahmin sonuçlarını özetleyen bir karışıklık matrisini göstermektedir.

Model Doğru… Yoksa Doğru mu?

Yeşille gölgelenen hücreler, modelin doğru tahmin ettiği gözlemleri temsil eder. 1000 tahminden 900’ü doğru çıktı. Doğruluk %90 ve sevinçten zıplamaya başlıyorsunuz ve “Yaşasın! Modelimiz harika!” Gerçekte, bu yanıltıcıdır . İşte nedeni:

Doğruluğun, model tarafından yapılan doğru tahminlerin oranı olduğunu hatırlayın. İkili sınıflandırma problemleri için doğru tahminlerin sayısı iki şeyden oluşur:

  1. Doğru tahmin edilen pozitif sınıflar (Tablo 1’in sol üst çeyreğinde 80 değeri); ve
  2. Doğru tahmin edilen negatif sınıflar (Tablo 1’in sağ alt çeyreğindeki 820 değeri)

%90 doğruluk elde ettiğimizde, modelin hem pozitif hem de negatif sınıfları ne kadar iyi tahmin ettiğini yansıtır . Bu durumda, hem kanseri hem de kanser olmadığını tahmin etmede %90 doğruydu .

Bununla birlikte, ikili sınıflandırmada bilmek istediğimiz şey, yalnızca ilgilenilen sınıfı ne kadar iyi tahmin ettiğidir, bu durumda kanseri ne kadar iyi tahmin ettiğidir. Modelimiz kanseri tahmin etmede iyi bir iş çıkardı mı? Yanlış yönlendirildiğini düşünmek çok kolaydır. Gerçek şu ki, yalnızca doğruluktan söyleyemeyiz.

Doğruluk Nasıl Bir Paradokstur?

“Doğruluk paradoksu” ifadesiyle ne demek istiyoruz? Bunu örneğimizi kullanarak açıklayalım. Bir yandan doğruluk yüksekti ve bu da muhtemelen modelin doğruluğunu ima ediyordu. Öte yandan, modelin ilgilenilen sınıfı tahmin etmede nasıl bir performans gösterdiğini bize söylemediği için kullanışlı değildi.

“Bir paradoks, iki zıt olgu veya özellik içerdiği için imkansız görünen veya anlaşılması zor olan bir durum veya ifadedir.” — Cambridge Sözlüğü .

Toplama

Bunu düşünürseniz, yukarıdaki örnekte doğruluğu kullanma sorunu, veri setimizin oldukça dengesiz olmasından kaynaklanıyordu – kanserli 100 gözlem ve kansersiz 900 gözlem. Bu aynı zamanda sınıf dengesizliği olarak da bilinir . Çoğu gerçek dünya veri kümesinde sınıf dengesizliği vardır, bu da doğruluk metriğinin tuzaklarının farkında olmamızı ve sınıflandırma modellerini değerlendirmek için kullanırken dikkatli olmamızı bizim için daha önemli hale getirir.

Wasikowski ve Chen²’ye göre, çoğunluk sınıfı üzerindeki performanstan ödün vermek anlamına gelse bile, azınlık sınıfı üzerinde daha iyi tahminde bulunan bir model tercih edilmektedir. Örneğimizde, kanseri iyi tahmin eden iyi bir model olacaktır. Doğruluk metriği, doğru tahmin edilen pozitif sınıflar ile doğru tahmin edilen negatif sınıflar arasında ayrım yapmadığından, kanseri, yani pozitif sınıfı ne kadar iyi tahmin ettiğini bize söyleyemez. Peki, o zaman model performansını nasıl değerlendirebiliriz? Cevaplar kesinlikte ve hatırlamada yatar ! Bir sonraki yazımda, ikili sınıflandırma modellerini değerlendirmek için bunun yerine kesinlik ve geri çağırmayı nasıl kullanabileceğimizi paylaşacağım.

Referanslar

  1. Foster Provost ve Tom Fawcett. İşletmeler için Veri Bilimi . O’Reilly Media, Inc., ilk baskı, Aralık 2013.
  2. Mike Wasikowski ve Xue-wen Chen. Özellik Seçimini Kullanarak Küçük Örnek Sınıfı Dengesizlik Problemiyle Mücadele. IEEE İşlemleri Bilgi ve Veri Mühendisliği , 22(10):1388–1400, Ekim 2010. ISSN 1041–4347.

Şimdilik bu kadar. Bu yazıyı okuduğunuz için teşekkür ederiz. Herhangi bir sorunuz veya geri bildiriminiz varsa, bana aşağıdan bir mesaj bırakmaktan çekinmeyin.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*