İçeriğe atla

Veri madenciliği

Veri madenciliği, büyük ölçekli veriler arasından faydalı bilgiye ulaşma, bilgiyi madenleme işidir. Büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranması olarak da tanımlanabilir.[1][2]

Kavram

Veri madenciliği deyimi yanlış kullanılan bir kavram olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarında bilgi madenciliği (İng. knowledge mining in databases), bilgi çıkarımı (İng. knowledge extraction), veri ve örüntü analizi (İng. data/pattern analysis), veri arkeolojisi gibi.[3] Bu terimler arasında "Veritabanlarında Bilgi Keşfi" (İng. VBK - knowledge discovery in databases - KDD) en yaygınıdır.[4] Alternatif olarak veri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Bu adımlar:

  1. Veri temizleme (gürültülü ve tutarsız verileri çıkarmak)
  2. Veri bütünleştirme (birçok veri kaynağını birleştirebilmek)
  3. Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek)
  4. Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
  5. Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
  6. Örüntü değerlendirme (bâzı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
  7. Bilgi sunumu (mâdenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek).[5]

Yöntem

Veri madenciliği adımı, kullanıcı ve bilgi tabanıyla etkileşim halindedir. İlginç örüntüler kullanıcıya gösterilir ve bunun ötesinde istenirse bilgi tabanına da kaydedilebilir. Buna göre, veri madenciliği işlemi, gizli kalmış örüntüler bulunana kadar devam eder.

Bir veri madenciliği sistemi, aşağıdaki temel bileşenlere sahiptir:[6]

  1. Veritabanı, veri ambarı ve diğer depolama teknikleri
  2. Veritabanı ya da Veri Ambarı Sunucusu
  3. Bilgi Tabanı
  4. Veri Madenciliği Motoru
  5. Örüntü Değerlendirme
  6. Kullanıcı Arayüzü

Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir.

Başka bir deyişle, veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.

Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım tekniklerinin kullanılmasıyla ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.

Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda, veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir.

Veri madenciliği sahası, istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.

Veri sınıflandırma

Veri madenciliğinde üzerinde çalışılan veri farklı terimlerle sınıflandırılır. Geniş veri tek bir iş istasyonunun belleğine sığamayacak kadar büyük veri kümelerini ifade etmektedir. Yüksek hacimli veri ise, tek bir iş istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır. Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.[7]

Ayrıca bakınız

Kaynakça

  1. ^ "5 Temel Soruda Veri Madenciliği (Data Mining) Nedir? - Vizyoner Genç". vizyonergenc.com. 6 Kasım 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  2. ^ User, Alm (25 Eylül 2020). "Veri Madenciliği Nedir? Nasıl Yapılır? Süreç ve Yöntemleri | GTech Blog". G Teknoloji. 31 Ekim 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  3. ^ "Data Mining Tutorial: What is | Process | Techniques & Examples". www.guru99.com. 3 Haziran 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  4. ^ Pinustech. "Veri Madenciliği Nedir?". www.smartmind.com.tr. 4 Nisan 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  5. ^ "Data mining | computer science". Encyclopedia Britannica (İngilizce). 3 Temmuz 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  6. ^ "What is data mining?". www.sas.com (İngilizce). 12 Ocak 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 
  7. ^ "Veri Madenciliği (Data Mining) Nedir? | Kozmos Lisesi". 25 Ağustos 2020. 28 Eylül 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Mart 2021. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Bilgisayar mühendisliği</span> bilgisayar donanımı ve yazılımı geliştirmek için bilgisayar bilimi ve elektrik mühendisliğini entegre eden disiplin

Bilgisayar mühendisliği temel olarak yazılım, programlama ve algoritma ile ilgilenir. Bilgisayar ağları, veri tabanı yöneticiliği ve gömülü sistemler de diğer çalışma alanlarıdır.

<span class="mw-page-title-main">İstatistik</span>

İstatistik veya sayım bilimi, belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Bu çerçevede yapılan işlemlerin tümüne sayımlama denir.

Veritabanları, yapılandırılmış bilgi veya verilerin depolandığı alanlardır. Bilgi artışıyla birlikte bilgisayarda bilgi depolama ve bilgiye erişim konularında yeni yöntemlere ihtiyaç duyulmuştur. Veritabanları; büyük miktardaki bilgileri depolamada geleneksel yöntem olan "dosya-işlem sistemine" alternatif olarak geliştirilmiştir. Telefonlardaki kişi rehberi günlük hayatta çok basit bir şekilde kullanılan veri tabanı örneği olarak kabul edilebilir. Bunların dışında internet sitelerindeki üyelik sistemleri, akademik dergilerin ve üniversitelerin tez yönetim sistemleri de veritabanı kullanımına örnektir. Veritabanları sayesinde bilgilere ulaşılabilir ve onları düzenlenebilir. Veritabanları genellikle bireysel olarak satın alınamayacak kadar yüksek meblağlara sahip olmasına karşın; ücretsiz kullanıma açılan akademik veritabanları da bulunmaktadır. Akademik veritabanları aracılığıyla bazen bibliyografik bilgi bazen de tam metinlere erişmek mümkündür. Veritabanları, veritabanı yönetim sistemleri aracılığıyla oluşturulur ve yönetilir. Bu sistemlere; Microsoft Access, MySQL, IBM DB2, Informix, Interbase, Microsoft SQL Server, PostgreSQL, Oracle ve Sysbase örnek olarak verilebilir.

İçerik Yönetim Sistemi dijital içerik üretilmesini ve düzenlenmesini yönetmeye yarayan yazılım. Bir İYS, genellikle doküman yönetimi, değer yönetimi ve kayıt tutma sistemlerinin birden fazla katılımcı tarafından işbirliği içinde kullanılmasını sağlar.

<span class="mw-page-title-main">Yönetim bilişim sistemleri</span> İşletme ve Bilgisayar bilimlerini kapsayan bir iş alanı

Yönetim Bilişim Sistemi terimi, sonundaki sistem sözcüğü tekil olarak kullanıldığında, hareket işlem kayıtlarını oluşturan verileri özetleyerek yönetim raporları üreten, bir bilgisayar tabanlı bilişim sistemi anlamına gelmektedir. Yönetim bilişim sistemleri ilk kez 1960'lı yılların ortalarında muhasebe, satınalma, stok, üretim, satış ve bordro konularında dönemsel raporlar hazırlamak amacı ile kullanılmıştır.

Veritabanı kuramı, veritabanları ve veritabanı yönetim sistemlerine ilişkin araştırma ve çalışmalar bütününün genel adıdır.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

Veri ambarı, ilişkili verilerin sorgulandığı ve analizlerinin yapılabildiği bir depodur. Veri ambarı veritabanını yormamak için oluşturulmuştur. Bir veri ambarı ilgili veriyi kolay, hızlı ve doğru biçimde analiz etmek için gerekli işlemleri yerine getirir. Veri ambarı, işlemsel sistemlerdeki veriyi kopyalayıp, karar verme işlemi için uygun formda saklar. Veri ve bilgiler, üretildiklerinde heterojen kaynaklardan elde edilirler. Yıldız Teknik Üniversitesi'ne göre: Veri ambarı, başlangıçta farklı kaynaklardan gelen verinin üzerinde daha etkili ve daha kolay sorguların yapılmasını sağlamaktadır.

<span class="mw-page-title-main">Hava veri bilgisayarı</span>

Hava veri bilgisayarı, modern glass kokpitlerde bulunan temel bir aviyonik bileşendir.

Bilgi teknolojisi (IT), genellikle bir işletme veya başka bir girişim bağlamında veri veya bilgi depolamak, almak, iletmek, çalışmak ve işlemek için bilgisayarların kullanılmasıdır. Bilgi Teknolojisi, bilgi ve iletişim teknolojisinin (ICT) bir alt kümesi olarak düşünülür. 2012'de Zuppo, her hiyerarşi düzeyinin "bilgi aktarımını ve çeşitli elektronik ortamdaki iletişim türlerini kolaylaştıran teknolojilerle ilişkili olması nedeniyle bir derece ortaklık içerdiği" bir BİT hiyerarşisini önermişti.

<span class="mw-page-title-main">Metin madenciliği</span>

Metin madenciliği, çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği çalışmasıdır. Diğer bir tanımla metin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği, metinlerin sınıflandırılması, bölütlenmesi, metinlerden konu çıkarılması, metinler için sınıf taneciklerinin üretilmesi, metinlerde görüş analizi yapılması, metin özetlerinin çıkarılması ve metinin özü ile ilgili ilişki modellemesi gibi çalışmaları hedefler.

<span class="mw-page-title-main">RapidMiner</span>

RapidMiner makine öğrenmesi, veri madenciliği, metin madenciliği, tahmin edici analiz ve iş analizi amaçlarına yönelik olarak geliştirilmiş bir yazılım platformudur. Yazılım aynı isme sahip firma tarafından üretilmiştir. Yazılım genel olarak iş ve ticari uygulamalarda kullanıldığı gibi aynı zamanda araştırma, eğitim, hızlı prototipleme ve uygulama geliştirme gibi amaçlarla da kullanılabilir. Ayrıca, veri madenciliği sürecinin tüm adımları yazılım tarafından desteklenmektedir, bu yüzden veri hazırlama, sonuçları görselleştirme, doğrulama ve optimizasyon gibi amaçlarla da yazılımın kullanılması mümkündür. RapidMiner açık çekirdek modeli ile geliştirilmiştir ve RapidMiner Temel Sürümü AGPL lisansı ile indirilebilir . Profesyonel versiyonu ise mevcut haliyle $1,999'dan temin edilebilir.

Bir Tıklama Akışı, bir bilgisayar kullanıcısının web'de gezinirken veya başka bir yazılım uygulamasını kullanırken tıkladığı ekran bölümlerinin kaydedilmesidir. Kullanıcı web sayfasında veya uygulamada herhangi bir yeri tıklattığında, eylem bir istemcide veya web sunucusunda, ayrıca muhtemelen web tarayıcısı, yönlendirici merkezinde, proxy sunucusu veya reklam sunucusunda günlüğe kaydedilir. Tıklama Akışı analizi, web etkinliği analizi, yazılım testi, pazar araştırması ve çalışan verimliliğini analiz etmek için yararlıdır.

<span class="mw-page-title-main">Kümeleme analizi</span>

Küme analizi veya kümeleme, bir nesne kümesini gruplama problemidir. Bu problemde, nesnelerin aynı kümede (salkımda) yer alması için diğer kümelerdeki elemanlardan ziyade herhangi bir şekilde birbirine daha benzer olması gerekmektedir. Veri madenciliğinin ana problemlerinden biri olup, istatistikî veri analizinde de yaygın olarak kullanılan bir tekniktir. Makine öğrenimi, örüntü tanıma, görüntü analizi, bilgi erişimi, biyoenformatik, veri sıkıştırma ve bilgisayar grafikleri alanlarında da kullanımı mevcuttur.

Bir bilgi tabanı (KB), bir bilgisayar sistemi tarafından kullanılan karmaşık yapılandırılmış ve yapılandırılmamış bilgileri depolamak için kullanılan bir veri kayıt ortamı teknolojisidir. Terimin ilk kullanımı, ilk bilgi-tabanlı sistem olan uzman sistemler ile bağlantılıydı.

<span class="mw-page-title-main">Veri bilimi</span> verilerden bilgi ve içgörü elde etmeye odaklanan disiplinler arası çalışma alanı

Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

Bilgisayar biliminde, bellek içi işleme, bellek içi bir veritabanında depolanan verilerin işlenmesi için gelişen bir teknolojidir. Daha eski sistemler, SQL sorgu dilini kullanan disk depolama ve ilişkisel veritabanlarına dayanıyordu, ancak bunlar iş zekası (BI) ihtiyaçlarını karşılamada giderek yetersiz kalıyor. Depolanan verilere, rastgele erişimli belleğe (RAM) veya flash belleğe yerleştirildiğinde çok daha hızlı erişildiğinden, bellek içi işleme, verilerin gerçek zamanlı olarak analiz edilmesini sağlayarak iş dünyasında daha hızlı raporlama ve karar vermeyi mümkün kılar.

Belge odaklı veritabanı veya belge deposu, yarı yapılandırılmış veriler olarak da bilinen belge odaklı bilgileri depolamak, almak ve yönetmek için tasarlanmış bir bilgisayar programı ve veri depolama sistemidir.