MAKİNE ÖĞRENMESİ (IV)

MAKİNE ÖĞRENMESİ PROJELERİNİN YÖNETİLMESİ

MAKİNE ÖĞRENMESİ HATALARI

Makine öğrenmesinde pek çok hatalı örneğe rastlamak mümkündür. Burada göreceğimiz örnekler bunların tamamını kapsamasa da, dikkatli olmamız gereken konularda bize yeterince ipucu verecek derecede yeterli sayılabilir. Özellikle aşağıdaki durumlar üzerinde duracağız:

  • Gerekli hazırlık yapılmadan makine öğrenmesi projesine başlanması,
  • Veri bulunabilirliğinin önemi,
  • Hedef değişken tanımının önemi,
  • Özellik seçimlerinin önemi

Herhangi bir iş probleminin çözülmesi sürecinde makine öğrenmesi hemen, ilk aşamada başlanabilecek bir iş değildir. Öncelikle, daha önceki bölümlerde görmüş olduğumuz veri piramidiyle ilgili aşamaların her birinde sağlam bir yapı oluşturulmalıdır. Sadece popüler olduğu için makine öğrenmesi araçlarını kullanmaya başlama niyeti, bugünlerde pek çok şirketin düştüğü hatalardan en önemlisidir. Ancak öncesinde tamamlanması ve emin olması gereken iki güçlü yapının varlığı genellikle unutulmaktadır:

  1. Gerekli verinin ulaşılabilir ve temiz olması,
  2. Problemin anlaşılması için yapılması gereken keşifçi analizler.

Makine öğrenmesinin iş fırsatlarını tam olarak belirleyebilmesi, ancak bu iki yapı tamamlandıktan sonra mümkün olabilir.

Gerekli veriye sahip olmak, başarılı makine öğrenmesi projelerinin anahtarıdır. Çok az ya da çok karılık veriler makine öğrenmesi için her zaman risk yaratır. Makine öğrenmesinin sonuçlarının kaliteli ve kullanılabilmesi için, girdi verilerin de kaliteli, kullanılabilir, konuyla ilgisi olan ve temiz veriler olması gereklidir.

Daha önce de bahsettiğimiz gibi, işle ilgili çözülmesi gereken problemin ve buna dayalı oluşturulan hedef değişkenin iyi tanımlanması kritik bir konudur. Tahmin etmeye çalıştığımız değişkenin ne olduğunun iyi anlaşılması gerekir. Hedef değişkeni gözlemleyebiliyor muyuz? Hedef değişkeni iyi tanımlayabiliyor muyuz, yoksa onu yaratmamız mı gerekiyor? gibi soruların başta cevaplanması gerekir. Örneğin, müşteri iptali bir kontratın iptali ile sağlanıyorsa, bunu gözlemleyebilmek mümkündür. Diğer taraftan, müşteri iptali bir kontratın iptaline bağlı değilse, bu iptali gözlemleyebilmek ve müşterinin ayrıldığına karar vermek tam olarak gözlemlenebilir ve kesin olarak karar verilebilir bir kavram değildir.

Sonucun tam olarak gözlemlenemediği bir durumda, model oluşturulmadan önce detaylı bir analiz yapılması gerekebilir. Bu durumda, farklı ekipler tanımlama aşamasında bir araya gelmeli, kendi alanları ile ilgili bilgileri hedef değişken tanımlamasında ortaya koymalıdır. Bu, makine öğrenmesi probleminin tanımlanmasındaki kritik bir aşamadır.

Özelliklerin tanımlanması da, az araştırma yapıldığında kritik hatalara neden olan çok önemli aşamalardan biridir. Modelin çıkarımsal ya da tahminsel olmasına bağlı olarak, dikkate alınması gereken farklı konular bulunmaktadır.

Çıkarımsal modellerde, etkileyebileceğimiz ya da kontrol edebileceğimiz değişkenleri seçmemiz gerekir. Bu gibi değişkenlere örnek olarak fiyat, teslimat seçenekleri, ödeme vadesi seçenekleri, verilen hizmetleri sayabiliriz. İş kollarının kendi iş deneyim ve bilgilerini bu konuda da kullanmaları önemlidir.

Tahminsel modellerde ise bu süreç daha yinelemeli olarak gerçekleştirilebilir ve makine öğrenmesi ekipleri özellik seçiminde daha özgür davranabilir. Öncelikle, mevcut veri ile basit bir model oluşturulur. Daha sonra, model test edilir. Performansının iyi olduğu anlaşılırsa kullanıma sunulur.

Hedef değişken ve özellikler belirlendikten, uygun bir temel model oluşturulduktan sonra, üzerinde aksiyon alınabilecek bir model olup olmadığını anlamak için, bu modelin test edilmesi gerekir. Çoğu durumda, makine öğrenmesi ekipleri model mükemmelliği peşinde koşarak, modelin performansını arttırmaya çalışabilir ve bu durumda test aşamasına geçmeyebilir. Ancak, mükemmel bir modelin bile üzerinde aksiyon alınmaya uygun olmayabileceğini daha önce de öğrenmiştik. Dolayısıyla, test aşaması kullanılabilir/uygulanabilir bir makine öğrenmesi için kritik bir aşamadır. Bu nedenle, makine öğrenmesi ekibinden test aşamasında ne zaman geçileceğiyle ilgili olarak kesin bir tarih almakta fayda vardır.

İLETİŞİM YÖNETİMİ

Proje fonlandırıldıktan ve başlatıldıkdıktan sonra, aşağıdaki konuları takip etmek üzere bir kontakt kişisi belirlemek ve ilerleme toplantıları düzenlemek önemlidir. Toplantının sıklığı şirket içinde karar verilecek bir konu olmakla beraber, haftalıktan daha sık veya aylıktan daha seyrek aralıklı olmamalıdır.

Bu toplantılarda:

  • İş gereklilikleri,
  • Makine öğrenmesi modelinin gözden geçirilmesi,
  • Çıkarımsal ve tahminsel kullanım durumlarının tartışılması,
  • Temel model sonuçları,
  • Pazar testi stratejilerinin belirlenmesi,
  • Bu modelin kullanılacağı üretim sistemleri hakkındaki tartışmalar

yer alır.

İş gerekliliklerini toplama sürecinde, tartışılacak üç anahtar konu vardır:

  1. Mevcut durumun ve problemin belirlenmesi (örneğin, müşteri iptal oranının artması),
  2. Fırsat büyüklüğünün değerlendirilmesi ve makine öğrenmesi sonucunun uygulanması ile gerçekleştirilebilecek potansiyel gelişme (örneğin, müşteri iptal oranının belirli bir seviyeye çekilmesi, azaltılması),
  3. Alınabilecek aksiyon detayları (örneğin, iptal riskine sahip olan müşteriler ile ilgili yapılabilecekler)

Veri bilimi dünyasında, "Bütün modeller yanlıştır ama bazıları faydalıdır" diye bir deyiş vardır. Bütün modellerin yanlış olduğu iddiası, yaklaşık sonuçlar vermeleri ve mutlaka hata payı taşımaları nedeniyle doğrudur. Bunu aslında bütün modeller yüzdeyüz doğru değildir şeklinde de yorumlayabiliriz. Şirketin, her bir model hatası türündeki tolerans seviyesine karar vermesi gerekir. Burada sorulması gereken soru hangi sınıfı yanlış tahmin ettiğimizde maliyetin daha pahallı olacağıdır. Örneğin hileli işlemlerin tahmin edilmesinde, bir hileli işlemin yanlış sınıflandırılmasının (yani, hileli olmayan olarak sınıflandırılmasının) maliyeti, hileli olmayan bir işlemin hileli olarak sınıflandırılmasından daha çok maliyet taşır. Regresyon problemlerinde ise, model hatası nedeniyle şirketin ne kadar daha fazla kaynak harcaması gerektiği değerlendirilmelidir. Örneğin, sezonsal bir talep tahmininde fazla gerçekleşecek bir tahmin hatası, olması gerektiğinden daha fazla stok maliyeti, işçi maliyeti ve depo maliyetine neden olacaktır. Dolayısıyla, şirketin bu tür maliyetlerin ne kadar fazlasına tolerans gösterebileceğine karar vermesi önemlidir.

Tekrar tekrar belirtmemize rağmen, pazar testi detayları erken belirlenmesi gereken konulardan biridir.

Pazar testleri uygulanırken, istediğimiz pozitif gelişmeleri gerçekleştirip gerçekleştiremediğimizi belirlememiz gerekir. Bu sonuçların zaman içinde tekrarlanan testlerde de aynı olması gereklidir.

MAKİNE ÖĞRENMESİNİN ÜRETİM ORTAMINA TAŞINMASI

Üretim ortamı, işin içsel parçaları olan yazılım ve uygulamalar, hatta işin kendisidir. Müşteri hizmetleri yönetimi sistemi, hileli işlem tespit sistemi, online bankacılık platformu üretim ortamına birer örnektir. Bunlar, daha iyi müşteri ve üretim tecrübesi için gerçek zamanlı makine öğrenmesi modellerinin uygulandığı üretim sistemlerdir.

Müşteri ilişkileri yönetim sistemleri, otomatik ya da manuel olarak bazı kampanyalar uygular. Bir makine öğrenmesi örneği olarak, iptal riski olan müşterilere bu sistem aracılığıyla gönderilecek olan bazı tutundurma kampanyası e-postaları sayılabilir.

Hileli işlem belirleme sistemi, arka planda çalışarak her bir işlemle için binlerce veri noktasını analiz eder. daha sonra makine öğrenmesini kullanarak olası hileli işlem hareketlerini tespit eder, bu işlemleri bloke eder ve manuel kontrol edilmek üzere istek açar.

Müşterilerin neredeyse tüm bankacılık hizmetlerine erişim sağladığı online bankacılık platformu, onların yeni ürünleri keşfetmelerine ve davranışlarını tahmin etmeye yarayacak olan pek çok makine öğrenmesi modeli içerirler. Bir örnek, müşterilerin ilgilenebilecekleri ürünleri tahmin edip, internet sitesini onların ilgilenecekleri ürünleri içerecek şekilde değiştiren önerme motorları olabilir.

Makine öğrenmesi modellerinin üretim ortamına taşınması ile ilgili detaylar bu eğitimimizin kapsamı dışındadır. Ancak bilmemiz gereken konu, bu sürecin bir yazılım geliştirme süreci olduğu ve veri bilimcilerden daha farklı kişilerin bu sürece dahil olması gerektiğidir. Prototip modeller veri bilimciler ve makine öğrenmesi mühendisleri tarafından geliştirilir, ancak makine öğrenmesi algoritmalarının üretim ortamına taşınması yazılım ve veri mühendisleri tarafından ayrıca altyapının sahipleri tarafından gerçekleştirilir. Dolayısıyla, makine öğrenmesinin ğretim ortamına taşınmasının yüksek maliyetli bir iş olabileceği ve kaynak planlamasının çok önceden yapılması gerektiği unutulmamalıdır.

Üretim ortamına taşınan makine öğrenmesinin kullanılmaya başlanması üzerinde de biraz duralım. Öncelikle Murphy kanunun da belirttiği gibi, eğer bir şey kötü gidebilecekse, kötü gider. Dolayısıyla en kötüsüne hazır olmak ve bunun için plan yapmak her zaman iyi bir uygulamadır. Dolayısıyla, makine öğrenmesini kullanmaya başta küçük bir ölçekte, örneğin müşterilerin bir kısmına uygulayarak başlanabilir. Bu şekilde kullanılmaya başlanan algoritma için performans sonuçları. herşeyin beklediğimiz gibi gittiğinden ve tutarlı olduğundan emin olana ve kadar kayıt altına alınmalıdır. Modelin iyi performans gösterdiğinden ve sistemin düzgün çalıştığından emin olduğumuzda, algoritma uygulanan müşteri kitlesini genişletebilir ve her aşamada daha fazla müşteriye uygulayabiliriz.