İçeriğe atla

Metin madenciliği

Metin madenciliği, çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (İngilizcedata mining) çalışmasıdır. Diğer bir tanımla metin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği, metinlerin sınıflandırılması, bölütlenmesi (İngilizceclustering), metinlerden konu çıkarılması (İngilizceconcept/entity extraction), metinler için sınıf taneciklerinin üretilmesi (İngilizceproduction of granular taxonomy), metinlerde görüş analizi yapılması (İngilizcesentimental analysis),[1] metin özetlerinin çıkarılması (İngilizcedocument summarization) ve metinin özü ile ilgili ilişki modellemesi (İngilizceentity relationship modelling) gibi çalışmaları hedefler.

Yukarıdaki hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon getirimi (İngilizceinformation retrieval), hece analizi (İngilizcelexical analysis), kelime frekans dağılımı (İngilizceword requency distribution), örüntü tanıma (İngilizcepattern recognition), etiketleme (İngilizcetagging), enformasyon çıkarımı (İngilizceinformation extraction), veri madenciliği (İngilizcedata mining) ve hatta görselleştirme (İngilizcevisualization) gibi yöntemleri kullanmaktadır.

Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme (İngilizcenatural language processing, NLP) çalışmaları ile çoğu zaman beraber yürütülmektedir. Doğal dil işleme çalışmaları daha çok yapay zeka altındaki dil bilim bilgisine dayalı çalışmaları kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatistiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır.[2]

Tarihçe

İnsan-yoğun elle metin madenciliği çalışmalarının 1980'lerin ortalarında başladığı söylenebilir,[3] ancak teknolojik gelişmelerin ışığında konu 2000'lerden sonra parlamıştır. Metin madenciliği disiplinler arası bir çalışma alanı olup enformasyon getirimi, veri madenciliği, makine öğrenmesi, istatistik ve işlemsel dilbilim kavramlarının ortak çalışma alanıdır. Günümüzde enformasyonun büyük kısmı (bilimsel tahminlere göre %80'lik kısmı) metin olarak tutulmaktadır.[4] Bu yüzden metin madenciliği çalışmalarının yüksek ekonomik değeri olduğu ve olacağı söylenebilir. Ayrıca çok dilli veri madenciliği gibi farklı dillerden aynı özellikleri taşıyan değerlerin çıkarılması da güncel konulardandır.

Genelde, metin madenciliği çalışmalarının çözüm aradığı zorluk, yüksek miktardaki yapılandırılmamış verinin, yapısal bir hale dönüştürülmesidir.[5] İş zekası çalışmalarının ilk yayınlarında, aşağıdaki şekilde tanımlandığı görülebilir:

"... makinelerin metinler üzerinde otomatik-özetleme veya otomatik-kodlama gibi işletmelerin ilgilendiği 'eylem noktalarını' ilgi çekici profiller haline getiren veri-işlem'den faydalanmaktır. Hem dışarıdan alınan hem de içeriden üretilen dökümanlar otomatik olarak özetlenebilir, kelime örüntülerine göre yorumlanabilir ve uygun işlere otomatik olarak yönlendirilebilir.

Her ne kadar enformasyon sistemleri 1960'larda başlasa da, iş zekası kavramının yazılım dünyasında kabul gören bir kategori haline dönüşmesi 80'ler ve 90'larda başlamıştır. Ardından metinin 'yapısız' özelliğinden dolayı işlenmesi zor bir hedef olarak seçilmesi ve metin analiz çalışmalarının başarısı için algoritmaların geliştirilmesi 1990'ların sonunu bulmuştur. Prof. Marti A. Hearst, 'Untangling Text Data Mining' başlıklı makalesinde bu konudan detaylıca bahseder.[6]

Neredeyse 10 yıllık bir süreçte, işlenebilir dilbilim camiası, büyük metin kümelerini daha iyi bir metin analiz algoritması bulmak için inceledi. Bu makalede, yeni bir yaklaşım sunmak istiyorum: Büyük çevrimiçi metin birikimlerini dünyanın kendisi ile ilgili gerçekleri keşfetmek için kullanmayı öneriyorum. Bu önerimin arkasında, tamamen yapay zeka ile metin analizi yapan ve hatta işlemsel olarak veya kullanıcılar tarafından yönlendirilen analizlerin ötesinde, heyecan verici yeni bir kapı açmak isteği vardır.

Hearst'ün 1999 yılındaki bu makalesinden 10 yıl kadar sonra, metin madenciliği çalışmaları kabul gören ve çok sayıda uygulama alanı olan bir dünyaya dönüşmüştü.

Uygulama Alanları

Metin madenciliği çalışmaları genelde devlet seviyesi, bilimsel araştırma ve iş dünyası ihtiyaçları için çeşitli çözümler sunmaktadır. Bu amaçlardan bazıları aşağıdaki şekilde sıralanabilir:

  • Kurumsal İş Zekası, Veri Madenciliği ve Rekabet Zekası (İngilizceCompetitive Intelligence)
  • E-Keşif, Kayıt Yönetimi
  • Ulusal Güvenlik ve İstihbarat
  • Özellikle beşeri bilimler başta olmak üzere bilimsel metinlerin işlenmesi
  • Duygusal Analiz Araçları
  • Doğal Dil / Anlambilimsel araç veya hizmetler
  • Yayıncılık
  • Otomatik reklam yerleştirme
  • Arama / Bilgi Erişimi
  • Sosyal medya gözetlemesi

Kaynakça

  1. ^ Şadi Evren Şeker, Khaled Al-Naami, Sentimental Analysis on Turkish Blogs via Ensemble Classifier, (DMIN'13), Proceedings of the 2013 International Conference on Data Mining, ISBN=1-60132-239-9, pp. 10-16, 2013
  2. ^ Şadi Evren Şeker. "Metin Madenciliği". MISSozluk. 5 Mart 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  3. ^ "Content Analysis of Verbatim Explanations". 13 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  4. ^ "Unstructured Data and the 80 Percent Rule". 18 Şubat 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Kasım 2016. 
  5. ^ "Arşivlenmiş kopya". 8 Aralık 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Haziran 2014. 
  6. ^ Hearst, Marti A. (1999). Untangling text data mining"Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics". ss. 3-10. doi:10.3115/1034678.1034679. ISBN 1-55860-609-2. 

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

Veri madenciliği, büyük ölçekli veriler arasından faydalı bilgiye ulaşma, bilgiyi madenleme işidir. Büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranması olarak da tanımlanabilir.

<span class="mw-page-title-main">Doğal dil işleme</span> bilgisayar bilimi ve dil bilimi alanı

Doğal Dil İşleme, yaygın olarak NLP olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır.

Konuşma sentezleyici, İnsan seslerinin bilgisayar yapay zekası tarafından üretimidir. Genellikle Metin okuma sistemlerinde kullanılan Konuşma sentezleyicisi bu sistemlerde bir dilin tüm ses bilgisi ve benzeri kurallarına göre çevri yapacak şekilde programlanırlar. Bu sentezleyicinin metni doğru telaffuz etmesini sağlar.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

<span class="mw-page-title-main">İş zekası</span> şirketlerin ve kurumların başarısı için yapılan analizleri anlayabilme ve geliştirebilme kabiliyeti

İş zekası veya kısaca: BI, iş amaçları için ham veriyi anlamlı ve kullanışlı bilgiye dönüştüren teorilerin, yöntemlerin, süreçlerin, mimarilerin ve teknolojilerin bir kümesidir. BI yeni fırsatlar tanımlamak ve geliştirmeye yardım etmek için büyük miktarlarda bilgi yönetir. Yeni fırsatların ve etkili strateji gerçekleştirmek için bir rekabet piyasası avantajı ve uzun soluklu kararlılık sağlar.

<span class="mw-page-title-main">Weka</span>

Weka, makine öğrenimi amacıyla Waikato Üniversitesinde geliştirilmiş ve "Waikato Environment for Knowledge Analysis" kelimelerinin baş harflerinden oluşmuş yazılımın ismidir. Günümüzde yaygın kullanımı olan çoğu makine öğrenimi algoritmalarını ve metotlarını içermektedir.

Anlamsal Zekâ bir organizasyonun tüm düzeyinde anlamsal boşlukları tanımlamak, algılamak ve çözmek için gerekli bilgileri toplamak yeteneğidir. İş süreçlerinin yerine süreçlerin anlamsal istihbarat hedefleri bilgileri, belirlenmesi, algılanması ve daha sonra problemini eniyilemeyi amaçlayan Operasyonel İstihbarat veya İş Süreçleri Zekası türevidir. Tüm paydaşlar tarafından verilerinde daha iyi anlaşılma ve fikir sağlanmasıdır. Bu, daha iyi bilgi paylaşımını desteklemek için yeniden ve yönetişim ve iyi iş kararı vermeyi desteklemek olacaktır.

Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.

Bilgisayar dilinde, etkisiz kelimeler, doğal data dilinin (text) işlenmeden önce veya sonra filtrelenmiş kelimeleridir. Genelde etkisiz kelimeler bir dildeki sık kullanılan kelimeleri kapsar, etkisiz kelimeler için işleme araçları tarafından kullanılan tek evrensel bir liste bulunmamaktadır, hatta tüm araçların böyle bir liste kullandığı bile söylenemez. Bazı kullanılan araçlar cümle aramalarını daha iyi destekleyebilmek için etkisiz kelimelerin çıkarılmasından kaçınmaktadır.

<span class="mw-page-title-main">RapidMiner</span>

RapidMiner makine öğrenmesi, veri madenciliği, metin madenciliği, tahmin edici analiz ve iş analizi amaçlarına yönelik olarak geliştirilmiş bir yazılım platformudur. Yazılım aynı isme sahip firma tarafından üretilmiştir. Yazılım genel olarak iş ve ticari uygulamalarda kullanıldığı gibi aynı zamanda araştırma, eğitim, hızlı prototipleme ve uygulama geliştirme gibi amaçlarla da kullanılabilir. Ayrıca, veri madenciliği sürecinin tüm adımları yazılım tarafından desteklenmektedir, bu yüzden veri hazırlama, sonuçları görselleştirme, doğrulama ve optimizasyon gibi amaçlarla da yazılımın kullanılması mümkündür. RapidMiner açık çekirdek modeli ile geliştirilmiştir ve RapidMiner Temel Sürümü AGPL lisansı ile indirilebilir . Profesyonel versiyonu ise mevcut haliyle $1,999'dan temin edilebilir.

<span class="mw-page-title-main">Ayrıştırıcı (yazılım)</span>

Ayrıştırıcı, girdi verilerini alır ve girdinin yapısal bir temsilini vererek, süreçte doğru sözdizimini kontrol eden bir veri yapısı oluşturan bir yazılım bileşenidir. Ayrıştırma öncesinde veya sonrasında başka adımlar izlenebilir veya bunlar tek bir adımda birleştirilebilir. Ayrıştırıcı, genelde girilen karakter dizisinden belirteçler oluşturan ayrı bir sözcük tabanlı analiz motorunu takip eder. Ayrıştırıcılar elle programlanabilir veya bir ayrıştırıcı üreteci tarafından otomatik olarak veya yarı otomatik olarak oluşturulabilir. Ayrıştırma, biçimlendirilmiş çıktı üretimlerini tek bir şablonda tamamlama görevi görür. Bunlar, farklı etki alanlarına uygulanabilir, ancak bir derleyicinin girdi ve çıktı aşamaları gibi genellikle bir arada sunulur.

<span class="mw-page-title-main">KNIME</span>

KNIME (Telaffuz/naɪm/) ismi Konstanz Information Miner yani Konstanz Bilgi Madencisinin kısaltmasından oluşmuştur. KNIME açık kaynak ve çapraz platform veri analizi, raporlama, entegrasyon platformudur. KNIME, modüler veri hattı konsepti aracılığıyla makine öğrenimi ve veri madenciliği için çeşitli bileşenleri içerir ve bu araçlara "node" denir. Görselleştirme, modelleme ve veri analizi için (ETL) temel veri önişleme nodelarını bir kullanıcı grafik arabiriminde herhangi bir kod yazmadan kullanılmasını sağlar.

<span class="mw-page-title-main">Veri analizi</span>

Veri analizi, faydalı bilgiler bulma, sonuçları bilgilendirme ve karar vermeyi destekleme amacı ile verileri inceleme, temizleme, dönüştürme ve modelleme işlemidir. Veri analizi, farklı isimler altında çeşitli teknikleri bünyesinde bulunduran, işletme, bilim ve sosyal bilimler gibi farklı alanlarda kullanılan çok çeşitli görünüş ve yaklaşımlara sahiptir. Günümüzün iş dünyasında, veri analizi karar verme işlemlerinin daha bilimsel hale getirilmesine ve işletmelerin daha etkin çalışmalarına yardımcı olmaktadır.

<span class="mw-page-title-main">Veri bilimi</span> verilerden bilgi ve içgörü elde etmeye odaklanan disiplinler arası çalışma alanı

Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.

<span class="mw-page-title-main">Ses analizi</span>

Ses analizi ya da Konuşma analizi, iletişimi ve gelecekteki etkileşimi iyileştirmek için müşteri bilgilerini toplamak üzere kaydedilen çağrıları analiz etme sürecidir. Süreç, öncelikle müşteri iletişim merkezleri tarafından bir işletmeyle müşteri etkileşimlerinde ihtiyaçları çıkarmak için kullanılır.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

Derlem dilbilim; bir dilin, "gerçek dünya" metninin gövdesi olan metin derleminde ifade edildiği şekliyle bir dilin incelenmesidir. Derlem dilbilim, bir dilin güvenilir bir analizinin, minimum deneysel müdahale ile sahada toplanan derlemlerle - o dilin doğal bağlamı ("realia")- ile daha mümkün olduğunu öne sürer. Metin-derlem yöntemi, o dili yöneten soyut kurallar dizisini türetmek için herhangi bir doğal dilde yazılmış metinlerin derlemini kullanır. Bu sonuçlar, konu dili ile benzer bir analizden geçmiş diğer diller arasındaki ilişkileri keşfetmek için kullanılabilir. Bu tür ilk derlemler, kaynak metinlerden manuel olarak türetilmiştir ancak artık bu iş otomatikleştirilmiştir.

Duygu analizi ya da görüş madenciliği, duygusal durumları ve öznel bilgileri sistematik olarak tanımlamak, çıkarmak, ölçmek ve incelemek için doğal dil işleme, metin analizi, hesaplamalı dilbilim ve biyometrinin kullanılmasıdır. Duygu analizi, inceleme ve anket yanıtları gibi müşteri materyallerinde, online ve sosyal medyaya ve müşteri hizmetlerinden klinik tıba ve pazarlamaya kadar değişen uygulamalarda, sağlık materyallerinde uygulanır. RoBERTa gibi derin dil modellerinin yükselişiyle birlikte daha zor veri alanları da analiz edilebilir; yazarların genellikle fikirlerini/duygularını daha az açıkça ifade ettikleri haber metinleri buna örnek verilebilir.

Müzik bilgi işleme (MBİ), müzikten bilgi çıkarma işini inceleyen disiplinler arası bir bilim dalıdır. MBİ ile ilgilenen kişiler, akademik müzikoloji, psikoakustik, psikoloji, sinyal işleme, bilişim, makine öğrenimi, optik müzik tanıma, hesaplamalı zeka veya bunların bir kombinasyonu gibi alanlarda arka plana sahip olabilirler.