MAKİNE ÖĞRENMESİ (II)

MAKİNE ÖĞRENMESİ TÜRLERİ

ÇIKARIM VE TAHMİN İKİLEMİ

Bu bölümde, farklı makine öğrenimi türlerini gözden geçireceğiz. Nedensel ve tahmin modelleri arasındaki farkları inceleyeceğiz, gözetimli ve gözetimsiz öğrenmeyi keşfedeceğiz ve son olarak gözetimli öğrenmenin alt türlerini anlayacağız: sınıflandırma ve regresyon.

Öncelikle, çıkarımsal veya nedensel modelleri tahmin modellerinden ayrıştıralım. Çıkarımsal veya nedensel modeller, belirleyicilerin ortaya çıkarılmasına ve bunların müşteri kaybı, dolandırıcılık veya müşteri memnuniyeti gibi belirli bir ticari sonuçlar için önemine odaklanır. Örneğin, "müşteri ayrılmalarının göstergeleri nelerdir?", "En önemli ürün özellikleri nelerdir?" veya "dolandırıcılığın nedenleri nelerdir?" gibi. Ayrıca, adından da anlaşılacağı gibi, çıkarımsal ve nedensel modellerin amaçları, yorumlanabilir içgörüler sağlamaktır. "Yorumlanabilir" olma, modelin ne yaptığını anlamak ve açıklamanın kolay olduğu anlamına gelir. Diğer taraftan, daha az karmaşık oldukları için, tahmin odaklı modeller kadar doğru değildirler.

Tahmin modellerinin tek amacı, model ne kadar karmaşık ve yorumlanamaz olursa olsun, en iyi tahmini elde etmektir. Bir kara kutu olarak çalışırlar ve verilerdeki karmaşık kalıpları öğrenirler, bu da onlara nedensel modellere kıyasla üstün bir doğruluk yeteneği sağlar.

Bilgimizi pekiştirmek için birkaç örneğe bakalım. Bir iş sorusu soralım ve bu soruyu "çıkarım" veya "tahmin odaklı" makine öğrenmesi problemi olarak tanımlayalım:

  • "Dolandırıcılığın ana nedenlerinin nedir?": Nedensel içgörüler aradığımız için, bu bir çıkarım modelidir.
  • "Belirli koşullar kalp krizi riskini ne kadar etkiler?": Yine, farklı koşulların etkilerini tartmak, yani çıkarım yapmak istiyoruz.
  • "Hangi işlemler muhtemelen hilelidir?": Bir risk olasılığı atamaya çalıştığımız için, bu tahmin odaklı bir sorudur.
  • "Müşterileri kalp krizi olasılığına göre puanlayalım": Nedenlerin peşinde değil, belirlenen riskin peşinde olduğumuzdan, bu tahmin odaklı bir görevdir.

Şimdi, modelleme veri yapısına bakalım ve çıkarım ve tahmin ayrımını görsel olarak açıklayalım. Aşağıda tipik bir modelleme veri yapısı görüyoruz:

image.png

Bu yapı, örneğin, hileli işlemleri (etiket) tahmin etmeyi amaçlayan ve işlem ve müşteri özelliklerini içeren veri seti olabilir.

Etiket (hedef değişken), tahmin etmeye çalıştığımız şeydir. Bizim durumumuzda bu, bir işlemin hileli olma olasılığıdır. Özellik sütunlarında her işlem için, o işlem hakkında bankanın toplayabileceği diğer bilgiler bulunmaktadır. Bazı özellikler, müşterinin kaç kredi kartına sahip olduğu, geçmişte kaç adet reddedilmiş işlemi olduğu, kredi geçmişi, işlem tutarının geçmiş ortalamanın üzerinde veya altında olup olmadığı şeklinde olabilir.

Makine öğrenmesi modelleri, işlemlerle ilgili özellikleri girdi olarak kullanır ve ilgilenilen hedef değişkeni bu özellikler yoluyla tahmin eder.

Çıkarımsal veya nedensel modeller özellikle belirli işlem özelliklerinin, dolandırıcılık olasılığını ne kadar etkilediğini ortaya çıkarmakla ilgilenir. Hangi tür işlemlerin hileli olma olasılığının daha yüksek olduğuna dair bir açıklama alma ve bu içgörüleri stratejik iş kararlarında kullanma amacı taşır.

Tahmin modelleri yalnızca, bu işlemlerin hileli olup olmadığına dair en doğru tahmini almayı önemsemektedir.

ÇIKARIMSAL (NEDENSEL) MODELLER

Şimdi çıkarımsal (nedensel) modelleri daha derin bir şekilde ele alacağız ve nasıl çalıştıklarını anlamak için belirli bir örnek üzerinden geçeceğiz.

Nedenselliğin ne olduğunu anlamakla başlayalım. Belirli bir eylemin veya eylemlerin, sonucu ne kadar etkilediğine ilişkin nedensel bir ilişki belirlemek istediğimizde nedensellik devreye girer. Kısaca, "neden?" ve "neler etkili?" sorularına yanıt bulmaya çalışırız. Örneğin, "Bu ay satışlar neden arttı?", "Müşteriler aboneliklerini neden iptal ediyorlar?" veya "Bir dolandırıcılık işleminin en öngörücü göstergeleri nelerdir?" Bu modeller, performans veya doğruluğu değil, yorumlanabilirliği optimize eder.

Nedensel modeller, deneyin olmadığı gözlemsel verilerle kullanılır. Mükemmel bir senaryoda, deneyler nedensel modellere tercih edilir, çünkü bunlar daha doğru ve daha güçlü sonuçlar verir. Maalesef, etik, maliyet veya diğer nedenlerden dolayı deney yapmak her zaman mümkün değildir. Bu nedenle araştırmacılar gözlemsel verilerle uğraşmak ve oradaki nedensel ilişkileri çıkarmak zorunda kalabilirler. Örneğin, belirli kimyasalların insanlar üzerindeki etkisini değerlendirirken, deney yapmak yasadışı olacaktır. Bu nedenle bu kimyasallara kazara maruz kalan kişilerden alınan veriler kullanılarak ve bu kişilerin sağlık göstergelerini önceden maruz kalmamış insanlarla karşılaştırarak bir nedensel model oluşturulmalıdır. Mümkün olduğunda, deneyler, daha hızlı ve daha kolay sonuca varıldığı için, gözlemsel çalışmalara tercih edilmelidir.

Şimdi, çıkarımsal modellere bir örnek verelim. Aşağıda hedef değişkeni ve özellikleri belli olan bir veri seti bulunmaktadır:

image.png

Amacımız bu özelliklerin sonucu (yani hedef değişkeni) ne kadar etkilediğini anlamaktr. Bunun için, gelecek ayın harcamasını nasıl tahmin edeceğimizle ilgili kuralları öğrenmek için bir regresyon modeli çalıştırabiliriz.

image.png

Model çıktısı olarak, her bir özellik için bir katsayının bulunduğu, yukarıdaki gibi, bir rapor elde ederiz. Bu katsayıların herbiri, ait olduğu özelliğin sonucu (hedef değişkeni) ne kadar etkilediğini gösterir. Katsayı ne kadar büyükse, özelliğin sonuca etkisi o kadar büyük olur. Pozitif sayılar ve negatif katsayılar da sonucu buna göre etkiler.

Buradaki ilk özelik, 0,52'lik en büyük katsayı ile sonucu en çok etkileyen özelliktir. Bu, ortalama olarak, geçen ay diğer müşterilere göre 1 dolar daha fazla harcayan bir müşterinin önümüzdeki ay 0.52 dolar daha fazla harcama olasılığı olduğu anlamına gelir.

TAHMİN MODELLERİ

GÖZETİMLİ ÖĞRENME

Gözetimli öğrenme modellerinde, bir sınıfı, türü, tutarı, miktarı olabilen bir hedef değişken (etiket) vardır. Bir modelin, müşterinin bir aboneliği iptal etmesi, bir işlemin hileli olması veya harcama tutarı gibi bir sonucu tahmin etmesi gibi örnekler verilebilir.

Gözetimsiz öğrenme modelleri, hedef değişkenleri olmadığı için farklıdır. Gözlemlerin benzer gruplara ayrıldığı kümeleme işlemi, güzel bir örnek olabilir. Bu yöntem, müşteri segmentasyonunda geniş ölçüde uygulanır. Bir sonraki kısımda bu konuya odaklanacağız.

Yukarıda bahsettiğimiz gibi, iki tür gözetimli öğrenme modeli vardır. Hedef değişken kategorik olduğunda sınıflandırma modeli, hedef değişken sürekli olduğunda da regresyon modeli.

Sınıflandırma örnekleri:

  • Bir müşterinin hizmet aboneliğini iptal edip etmeyeceği,
  • Bir işlemin hileli olup olmadığının tahmini,

gibi kategorik değişkenlerdir.

Regresyon örnekleri:

  • Ürün satın alma sayısı,
  • Oyun saatleri,
  • Harcanan tutar

gibi sürekli değişkenlerdir.

Makine öğrenmesi ekipleri, sonuç değişkenini en iyi şekilde tahminleyebilmek için sistemlerden, müşterilerden ve diğer kaynaklardan veri toplar. Örneğin, müşteri satın alma tahminleri durumunda, tahmine dayalı modellerimizde kullanmak için müşteri bilgilerini, satın alma geçmişini, tarama geçmişini, cihaz ayrıntılarını, kullanım sıklığını ve diğer bilgileri toplamamız gerekebilir.

Sınıflandırma Örneği:

Şimdi, bir sınıflandırma örneğiyle başlayalım. Aşağıda, işlemlerin bir listesi ve her biri için toplanan bazı verilerin yanı sıra, işlemin hileli olup olmadığını tanımlayan bir hedef değişken de içeren örnek bir veri setimiz bulunmaktadır:

image.png

Burada giriş özelliklerini ve hedef değişkeni (etiket), verilerdeki dolandırıcılık olasılığını tahmin etmek için, gerekli kuralları öğrenmek amacıyla kullanırız. Makine öğrenmesi modeli, etiketli verilerle ilgili kuralları bu şekilde öğrenir.

Veri setindeki belirli işlemlerin hileli olup olmadıklarını, etiket (hedef) değişkeni aracılığıyla kesin olarak biliyoruz. Yeni işlemlerin hileli olup olmayacağını tahmin etmek için, makine öğrenmesi modelinin öğrendiği kuralları kullanırız.

Regresyon Örneği:

Şimdide regresyon örneğine bakalım. Aşağıda, çıkarımsal (nedensel) model örneğinde kullandığımız müşteri düzeyinde özellikleri içeren veri setimiz bulunuyor. Bu özelliklerle önümüzdeki ayın harcama miktarını tahmin etmeye çalışacağız:

image.png

Gelecek ayın harcama miktarını tahmin etmek için gerekli kuralları öğrenmek amacıyla, veri setinde bulunan özellikleri kullanırız. Makine öğrenmesi modeli, etiketli verilerle ilgili kuralları bu şekilde öğrenir. Yeni veriler için özellikleri kullanarak, gelecek ayın harcama tutarını bulmak için makine öğrenmesi modelinin öğrendiği kuralları kullanırız.

GÖZETİMSİZ ÖĞRENME

Gözetimsiz öğrenme modellerinin bir hedef değişkeni yoktur ve genel olarak "kümeleme"(clustering) yapmak için kullanılırlar. Diğer bir deyişle gözlemler, benzer öğelerden oluşan kümeler halinde gruplandırılır. Bu yöntem, örneğin, müşteri segmentasyonunda geniş bir şekilde uygulanır. Diğer bir kullanım durumu, keşfedilen düzenli kalıpların veya kümelerin dışında kalan anormallikleri tespit etmek ve ardından bu bilgileri ya oluşturulacak modellere girdi olarak ya da karar verme süreçlerine girdi olarak kullanmaktır. Son olarak, gözetimsiz öğrenme modelleri tavsiye motorları için de kullanılabilir. Örneğin Netflix'teki film önerileri veya Amazon'daki ürün önerileri bu algoritmaları kullanır.