Veri Madenciliği Nedir?

Veri madenciliği nedir? Veriyi nasıl değerlendiriyoruz? Temel olarak veri ne işimize yarıyor? Veri madenciliği süreçlerini nasıl değerlendiriyoruz? Gelin bu soruların yanıtlarını arayalım.

Veri, araştırmalardan, gözlemlerden, internetten, sosyal medyadan, sensörlerden vb. çok farklı ortamlardan, farklı türlerde elde edilen genel bir terimi ifade etmektedir. Kişisel veriler, sürekli kayıt aldığımız ‘log’ dosyaları, fotoğraf arşivleri, kredi kartı verileri, hava durumu verileri, trafik verileri, sıcaklık verileri gibi veriye bir çok örnek verilebilir. Dolayısıyla veri aslında genel bir terimi ifade eder.

Teknolojinin ilerlemesi ve internetin hızla gelişmesi sonucu verilerin hızla artmasıyla öncelikle, genelde Veri Tabanlarında Bilgi Keşfi diye adlandırılan yeni bir paradigma ortaya çıkmıştır. Daha yaygın bir kullanımda bu alana Veri Madenciliği denilmektedir.

Verinin oluşabilmesi için geçmişe dair olması gerekmektedir. Bir kaydın tutulması gibi. Geçmişte oluşturulmuş veriler veri tabanlarında tutularak geleceğe ilişkin tahminlerde bulunulmaya çalışılır. Dolayısıyla Veri Madenciliği çalışmaları sayesinde veriler arasındaki ilişkiler ortaya konularak gerektiğinde ileriye yönelik tahminlerde bulunulmaktadır.

Veri Madenciliği bir veri tabanı sorgulama şekli değildir. Veri Madenciliğinde önemli olan, var olan verilerdeki saklı örüntülerin bulunmaya çalışılmasıdır.

Veri madenciliği çalışmaları;

  • sınıflandırma,
  • ilişki kurma
  • kümeleme,
  • regresyon
  • veri özetleme
  • değişikliklerin analizi,
  • sapmaların tespiti

gibi belirli teknik yaklaşımları içerir.

Ver Madenciliğinin yapay zekanın bir alt dalı olarak görülmektedir. Ancak tamamen bağımlı da değildir. Bağımsız olarak kullanıldığı alanlar da vardır.

Veri Madenciliği ile İlişkili Diğer Disiplinler

  • Veritabanı Teknolojisi
  • Yapay Sinir Ağları
  • İstatistik
  • Bilişim
  • Makine Öğrenmesi
  • Görselleştirme
  • Diğer Disiplinler

Veri Madenciliği Nerelerde Kullanılmaktadır?

Tahmin edileceği gibi verinin bulunduğu her alana veri madenciliği girebilmektedir. Aşağıda örnek olarak bir kaç kullanım alanı maddelenmiştir.

  • pazar araştırmaları,
  • veritabanı analizi ve karar verme desteği,
  • kalite kontrolü,
  • belgeler arası benzerlik,
  • müşteriler arası benzerliklerin uygulanması,
  • sepet analizi,
  • risk analizi,
  • belgeler arasındaki benzerliklerin saptanması,
  • astronomide görüntü işleme,
  • genom araştırmaları,
  • web analizi,
  • arama motorları,
  • sağlık,
  • ilaç keşfi,
  • biyoinformatik,
  • üretim,
  • eğlence,
  • telekom,
  • reklamcılık,
  • e-ticaret,
  • text mining,
  • devlet terörist modelleri,
  • terörle mücadele

Veri Kaynakları Nedir? Veri Nereden Geliyor?

Konunun ilk başında özetlediğimiz yerdeki gibi bir çok veri türü vardır.

Bu veriler Data Streaming (Akan Veri) dediğimiz hali hazırda gelmeye devam eden veriler olabilir. Örneğin; konuşma verileri, twitter verileri, algılayıcıların akıllı etmenlerin kendi sensörlerinden gelen (görüntü, ses, sıcaklık, adım sayısı, kalp artışı) verileri vs.

Zaman serileri ya da sıralı diziler gibi daha çok biyolojik veriler üzerinden gelen veriler vardır. Bu verilerden yola çıkılarak “Bunun geleceği nasıl olur?”, “Bu gen nasıl değişir?”, “Bu gen mutasyona nasıl uğrar?” soruları belirlenebilmektedir.

Sosyal ağlar üzerinden gelen veriler vardır. Graph Mining (Çizge Madenciliği)’nin temel verilerini oluştururlar.

Konumsal veriler (Spatial Data) bir diğer veri kaynağıdır. Google Timeline örnek verilebilir.

Web’in kendisi (www) başlı başına çok büyük bir veridir.

Bunları haricinde daha bir çok veri kaynağı bulunmaktadır.

Veri Madenciliği Algoritmaları

Veri Madenciliği algoritmalarındaki temel amaç veriyi bir modele uydurmaktır. Bir model (tahmin modeli, tanımlayıcı model vb.) oluşturulmaya çalışılır. Bu modellerin çıkarılabilmesi için çeşitli algoritmalar vardır. Temel olarak 2’ye ayrılmaktadır.

  1. Tanımlayıcı (Description) Algoritma Türleri
  2. Kestirimsel, Kestirime Dayalı (Predictive) Algoritma Türleri

Tanımlayıcı (Description) Algoritma Türleri

  • En iyi müşterilerim kimler? (Golden üyelik, indirim, avantaj)
  • Hangi ürünler birlikte satılıyor? (Çapraz satış analizleri)
  • Hangi müşteri gruplarının alışveriş alışkanlıkları benzer? (Hedef kitle)
  1. Kümeleme (Clustering)
  2. Birliktelik Analizi (Association Analysis)
  3. Sıralı Dizi Analizi (Sequence Analysis)
  4. Özetleme (Summerization)
  5. Tanımlayıcı İstatistik (Descriptive Statics)
  6. İstisna Analizi (Outliner Analysis)
  7. Diğer Yöntemler

Kestirime Dayalı (Predictive) Algoritma Türleri

  • Ben bu krediyi verirsem, geri dönüşü olur mu?
  • Borsa, döviz, geleceğe yönelik tahminler
  • Şirketle çalışmayı bırakacak müşterileri öngörme
  1. Sınıflandırma (Classification) Algoritmaları
    1. Karar Ağaçları (Decision Trees)
    1. Bayes Sınıflandırması (Bayesian Classification)
    1. En Yakın Komşu (Nearest Neighbour)
    1. Yapay Sinir Ağları (Neural Networks)
    1. Karar Destek Makineleri (Support Vector Machines)
    1. Zaman Serisi Analizi (Time Series Analysis)
    1. Diğer Yöntemler
  2. Eğri Uydurma (Regression)

Veriye göre uygun algoritma seçilir. Veri üzerinde oluşturulan modele göre arama işlemi yapılarak alt veri alanı çıkartılır. Alt veri alanı üzerinden örüntüler belirlenir.

Veri Madenciliğinde Temel Kavramlar

  1. Veri (Data)
  2. Enformasyon (Information)
  3. Bilgi (Knowledge)
  4. Bilgelik (Wisdom)

Veri (Data)

Kelime kökeni olarak Latince’den gelmiştir. “Gerçek, reel” anlamına gelen “datum” kelimesine karşılık gelir. Temel olarak varlığı işlenmemiş ham haldeki bilinen kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş, düzenlenmemiş ve anlamlandırılmamıştır.

Verinin bir sonraki aşaması olan enformasyona dönüşebilmesi için veriler arasındaki ilişkilerin ortaya konması gerekmektedir.

Enformasyon (Information)

Adreslemedeki ikinci bölümdür. Verilerin ilişkilendirilmiş, düzenlenmiş, anlamlandırılmış, işlenmiş halidir. Veriler enformasyona dönüştürülerek kullanışlı hale getirilir. Kısaca enformasyon, anlam katılmış verilerdir.

Bilgi (Knowledge)

Sürecin üçüncü aşamasıdır. Enformasyonun bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir. Diğer bir ifadeyle yargılama, düşünme, karar verme yeteneği olan insan tarafından anlama dönüşürse (bu, bu anlama gelir) ortaya bilgi çıkar.

Bilgelik (Wisdom)

Bilgelik ulaşılmaya çalışılan noktadır. Zirvedir. Bilgilerin bir kişi tarafından toplanıp bir sentez haline getirilmesi ile ortaya çıkan olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır. Bilgelik bilginin teferruatlı ve hassas kullanımını gerektirir. Karar alma ve kararın uygulanması sırasında tecrübe edilir.

2 yorum
Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Bunları da okumak ister misiniz