Metin Madenciliği (Text Mining) Nedir?

Metin madenciliği (text mining) doğal metin dilinden anlamlı bilgi çıkarmayı amaçlayan gelişen yeni bir alandır. Metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır. Özel amaçlar için gerekli olan bilginin çıkarımı metni analiz etme süreci olarak nitelendirilebilir. Veri tabanlarında depolanan veri çeşitleri ile karşılaştırıldığında, metin yapılandırılmamış, şekilsiz ve algoritmik olarak uğraşılması zordur. Fakat günümüzde metin, bilginin değişiminde resmi bir araçtır.

Yapısal ve Yapısal Olmayan Veri Nedir?

Yapısal olmayan veriden yola çıkarak metin madenciliğine kısa bir giriş yaptıktan sonra devam edelim. Yapısal veri ne demek? Yapısal olmayan veri ne demek? Aralarındaki fark ne?

Veri yapısal (structured) veri ve yapısal olmayan (unstructured) veri olarak ikiye ayrılır.

Yapısal veri, verinin kendi içinde yapısının alanlarının belli olduğu yorumlanabilen veridir. Veriler birer veritabanı satırı gibi, birer kayıt gibi olabilmektedir.

Yapısal olmayan veri, yorumlayacak kişinin zihinsel birikimine bağlıdır. Önceden tanımlı bir veri modeline sahip olmayan ya da önceden tanımlı bir modele uyarlanamayan verilerdir. Genellikle metin ağırlıklı olmakla birlikte içerisinde tarih, sayı, koordinat verileri içerebilir. Metin verileri, görüntü verileri yapısal olmayan verilerdir. Blog makaleleri, sosyal medya paylaşımları, forumlar, geri bildirim formları, anketler yapılandırılmamış verilere verebileceğimiz örneklerden bazılarıdır.

Yapısal olmayan metin verilerinin içindeki yapısal bir takım veriyi çıkararak bu çıkarım üzerinden veriyi değerlendirme işlemine metin madenciliği (text mining) denmektedir.

Dünyada hızla artan verinin büyük bir çoğunluğu yapısal olmayan veridir. Bu kadar yapılandırılmamış veri ise birçok bilgiyi içerir. Yeni doğacak trendleri önceden tahmin etmek, çok sayıda metindeki ilişkileri belirlemek, tüketici duyarlılıklarını tespit etmek, uzun belgelerin özetlerini çıkarmak gibi çok farklı sebeplerden dolayı metinlerden bazı veriler toplamak ve adımlarını bu veriler doğrultusunda atmak isterler.

Metin Madenciliği (Text Mining)’nin Kullanıldığı Yerler

Metin Madenciliği (Text Mining) Nerelerde Kullanılıyor?

  1. Document Classification (Doküman Sınıflandırma)

    Bu doküman neyle ilgili?
    Doküman ne kadar x konusuyla ilgili?
    Örnek: Bir haber metninin hangi konuyla ilgili olduğuna göre otomatik sınıflandırılması

  2. Clustering (Kümeleme)

    Birbiriyle ilişkili olan dokümanların bir araya toplanması

  3. Dokümanların Görselleştirilmesi

    Sözel olarak ifade edilen metni resme çevirme

  4. Öneri Sistemleri

    Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme (Natural Language Processing – NLP) çalışmaları ile birlikte yürütülür.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Bunları da okumak ister misiniz