VERİ BİLİMİ (III)

VERİ HAZIRLAMA, KEŞFETME VE GÖRSELLEŞTİRME

VERİ HAZIRLAMA

Veri hazırlama, verilerin toplanmasından ve depolanmasından sonra gerçekleşir. Veriler analiz için hazır halde elimize nadiren gelir. Gerçek hayattaki veriler dağınık ve kirlidir. Temizlenmesi gerekir. Bu adımı atlamak, daha sonraki aşamalarda hatalara, yanlış sonuçlara veya algoritmalarımızın yanlış çalışmasına neden olabilir.

Çorba yaparken sebzeleri temizlemeden, soymadan ve dilimlemeden kullanamayız. Çünkü bunları yapmazsak, çorbamız garip bir tada sahip olur ve kimse onu yemez. Verilerimizi de analize hazır hale getirmez ve temizlemezsek, sonuçlarımız garip görünür ve kimse bunları kullanmaz.

Temiz verinin temel özellikleri aşağıdaki gibidir:

  • Veriler "düzenli" olmalıdır. Düzenli veriler, satırlarda gözlemlerin, sütunlarda değişkenlerin yer aldığı bir veri matrisidir.
  • Veriler tekrarlanan kayıtları içermez. Tekrarlanan (kopya) kayıtların temizlenmesi gerekir.
  • Verilerin benzersiz kimlik kayıtları olmalıdır. Örneğin, bir müşterinin işlemleri ile ilgili, işlemlerin belirli bir müşteriye ait olduğunu anlayabilmek için, o müşteriye ait benzersiz bir kimlik numarası bulunması gerekir.
  • Bir değişkenin değerleri, belirli bir standart ölçüm değerine göre belirlenmeli ve homojen olarak ölçeklendirilmelidir. Örneğin, tüm değerlerin metrik sistemde "m" (metre) olarak ifade edilmesi homojenliğe bir örnekk olabilir.
  • Verideki tüm değerlerin analize uygun veri tipinde olması gereklidir. Örneğin, yaş bilgisini içeren bir sütun için ortalama yaş istatistiğini hesaplama amacımız varsa, bu sütunun sayısal veri türünde tanımlanmış olması gereklidir.
  • Verideki eksik değerler; veri girişi yapan kişinin dikkatsizliği, ankete katılan kişinin soruyu anlamaması ya da kasıtlı olarak boş bırakması, henüz gerçekleşmemiş bir olay için değer beklentisi olması gibi nedenlerle ortaya çıkar.
    Eksik değerlerle başa çıkmanın birkaç yolu vardır:
    • Kaynağa erişimimiz varsa, değeri tamamlayabiliriz. Duruma bağlı olarak ortalama, medyan veya maksimum gibi bir değeri eksik değerin yerine yerleştrebiliriz.
    • Gözlemi tamamen silebiliriz, ancak sildiğimiz her gözlem, modelimiz için daha az eğitim verisi anlamına gelir. Ya da algoritmamız izin veriyorsa, eksik veriyi olduğu gibi tutabilir ve görmezden gelebiliriz.

KEŞİFÇİ VERİ ANALİZİ

Keşif Veri Analizi veya kısaca EDA (Exploratory Data Analysis), saygın bir istatistikçi olan John Tukey tarafından teşvik edilen bir süreçtir. Verilerin araştırılması ve bununla ilgili hipotezlerin formüle edilmesi ve görselleştirmeye güçlü bir vurgu yaparak temel özelliklerinin değerlendirilmesinden oluşur.

EDA, genellikle verilerin hazırlanmasından sonra gerçekleşir, ancak aynı anda da yapılabilir. EDA, temizlenmesi gereken yeni noktaları ortaya çıkarabilir.

Keşif Veri Analizi (EDA), veri analizi için çeşitli teknikler (çoğunlukla grafiksel) kullanan bir yaklaşım/felsefedir. Amaçları:

  • Bir veri kümesinde içgörüyü en üst düzeye çıkarma,
  • Altta yatan yapıyı ortaya çıkarma,
  • Önemli değişkenlerin ayıklanması,
  • Aykırı değerlerin ve anomalilerin tespit edilmesi,
  • Temel varsayımların test edilmesi,
  • Sağlam ve temkinli modeller geliştirilmesi.

EDA tekniklerinin çoğu, birkaç kantitatif teknik dışında genelde grafikseldir. Grafiklere olan yoğun bağımlılığın nedeni, doğası gereği EDA'nın ana rolünün açık fikirli bir şekilde keşif olması, grafiklerin analistlere bunu yapmak için eşsiz bir güç vermesi, verilerin yapısal sırlarını ortaya çıkarmak için cazip hale getirmesi ve verilere dair beklenmedik bir fikir vermeye hazır olmasıdır. Grafikler, hepimizin sahip olduğu doğal tanıma yetenekleri ile birlikte, bunu gerçekleştirmek için eşsiz bir güç sağlar.

GÖRSELLEŞTİRME

"Bir resim bin kelimeye bedeldir" diye bir deyiş vardır. Bu deyişle aynı fikirde olma eğilimindeyiz. Dolayısıyla, veri biliminde grafiklerin önemini yadsıyamayız. Bununla birlikte, grafiğimizin kolayca anlaşılabilir ve doğrudan vermek istediği mesaja yönelik olduğundan emin olmak için dikkat etmeniz gereken birkaç nokta vardır:

  • Renklerin amacına uygun olarak kullanılması gerekir. Bu bağlamda, çok fazla renk kullanmak her zaman doğru bir yaklaşım değildir. Estetik olarak iyi görünüyor olması, kafa karışıklığına yol açması anlamına geliyorsa, grafikteki renklerin kullanım şeklinin tekrar değerlendirilmesi uygun olacaktır. Her bir rengin belirli bir şeye karşılık gelmesine dikkat edilmesi gerekir.
  • Ayrıca "renk körlüğü" konusuna dikkat edilmelidir. Kırmızı ve yeşili çok iyi ayırt edebilirsiniz, ancak bazı insanlar bunu yapmaz ve bu kişilerin sayısı düşündüğümüzden daha fazladır. Dolayısıyla, renk körlüğüne uygun renk paletlerin kullanılması, grafiklerin okunurluğunu arttıracaktır.
  • Okunabilir yazı tiplerinin kullanılması gerekir. Sans-serif olan formatların okunması daha kolaydır. Elbette, daha güzel yazı tipleri bulunmaktadır. Ancak okuyucularımız yazı tipine değil, mesajımıza odaklanmalıdır.
  • Grafiklerimiz her zaman bir başlığa sahip olmalıdır. Neye baktığımızı bilmemiz için bu gereklidir. x ve y eksenleri de etiketlere sahip olmalıdır.
  • Eksenlerimizi sıfırdan daha yüksek başlatabileceğimiz bazı durumlar vardır. Ancak bazı durumlarda bu yanıltıcı olabilir. Dolayısıyla, genelde eksenleri sıfırdan başlatmak doğru bir yaklaşımdır.

Birkaç grafiğin bir panoda bir araya getirilmesi, onlara ayrı ayrı bakmaktan veya tüm içgörüleri tek bir grafikte toplamaya çalışmaktan daha anlayışlı olabilir. Gösterge tabloları bunu yapar. Yani, içgörüleri toplamak için ve bunlara göre hareket etmeyi kolaylaştırmak için ilgili tüm bilgileri tek bir yerde gruplar.

İş zekası araçları, herhangi bir programlama bilgisine ihtiyaç duymadan verileri temizlemenize, keşfetmenize, görselleştirmenize ve gösterge tabloları oluşturmanıza olanak tanır. Bu tür araçlar Tableau, Looker veya Power BI'dır. Tabii ki, bunu Python, R veya hatta JavaScript kullanıp programlı olarak da yapabiliriz. Bir sonraki seviye, BI araçlarının gerçekten kolay hale getirdiği, görselleştirmemizin etkileşimli hale getirilmesidir.