İçeriğe atla

Otomatik kümeleme algoritmaları

Otomatik kümeleme algoritmaları, veri kümeleri hakkında önceden bilgi sahibi olmadan kümeleme yapabilen algoritmalardır. Diğer küme analizi tekniklerinin aksine, otomatik kümeleme algoritmaları, gürültü ve aykırı noktaların varlığında bile en iyi küme sayısını belirleyebilir.[1]

Merkez tabanlı

Bir dizi n nesne verildiğinde, merkez tabanlı algoritmalar, k≤n olacak şekilde bir farklılık fonksiyonuna dayalı olarak k küme oluşturur. Bu tür bir algoritmanın uygulanmasındaki en büyük sorun, etiketlenmemiş veriler için uygun sayıda kümenin belirlenmesidir. Bu nedenle, kümeleme analizindeki çoğu araştırma, sürecin otomasyonuna odaklanmıştır.

En çok kullanılan merkez tabanlı kümeleme algoritmalarından biri olan K-ortalama kümeleme algoritmasında k'nin otomatik seçimi, makine öğreniminde hala önemli bir sorundur. Bu soruna en çok kabul edilen çözüm dirsek (elbow) yöntemidir. Bir dizi değerle veri kümesine k-araç kümeleme yapmaktan, her biri için karesel hataların toplamını hesaplamaktan oluşmaktadır. Ayrıca bunları bir çizgi grafiğinde çizmekten oluşmaktadır. Grafik bir kol gibi görünüyorsa, k'nin en iyi değeri "dirsek" üzerinde olacaktır.[2]

Optimal küme sayısını otomatik olarak seçmek için k-ortalamalar algoritmasını değiştiren başka bir yöntem, G-ortalamalar algoritmasıdır. Verilerin bir alt kümesinin bir Gauss dağılımını takip ettiği hipotezinden geliştirilmiştir. Böylece, her k-ortalama merkezinin verileri Gauss olana kadar k arttırılmaktadır. Bu algoritma, parametre olarak yalnızca standart istatistiksel anlamlılık düzeyini gerektirir ve verilerin kovaryansı için sınırlar belirlemez.[3]

Bağlantı tabanlı (hiyerarşik kümeleme)

Bağlantıya dayalı kümeleme veya hiyerarşik kümeleme, nesnelerin yakındaki diğer nesnelerle uzaktakilerden daha fazla benzerliğe sahip olduğu fikrine dayanır. Bu nedenle, bu tür bir algoritmadan oluşturulan kümeler, analiz edilen nesneler arasındaki mesafenin sonucu olacaktır.

Hiyerarşik modeller, bölümlerin mevcut tüm veri kümesinden oluşturulduğu bölücü veya her bölümün tek bir nesneyle başladığı ve kümeye ek nesnelerin eklendiği kümeleme olabilir.[4] Hiyerarşik kümeleme, tanımlanan mesafe olarak herhangi bir geçerli ölçünün kullanılmasına izin verme avantajına sahip olsa da, veri kümesindeki gürültüye ve dalgalanmalara karşı hassastır ve otomatikleştirilmesi daha zordur.

Tek bağlantı hiyerarşik küme analizinin (Hierarchical Cluster Analysis; HCA) otomatikleştirilmiş bir versiyonu gibi mevcut hiyerarşik kümeleme algoritmalarını[5] iyileştirmek ve otomatikleştirmek için yöntemler geliştirilmiştir. Bu bilgisayarlı yöntem, başarısını; doğal kümeleri tanımlamaya izin veren tanımlayıcı bir fonksiyonun oluşturulmasını takip eden, kendi içinde tutarlı bir aykırı değer azaltma yaklaşımına dayandırır. Atılan nesneler de bu kümelere atanabilir. Aslında, doğal kümeleri tanımlamak için dış parametrelere başvurmaya gerek yoktur. HCA'dan toplanan, otomatikleştirilmiş ve güvenilir bilgiler, klasik HCA'da bulunmayan bir seçenek olan doğal kümelerin sayısı ve karşılık gelen ayırma ile bir dendrogramda yeniden başlatılabilir. Bu yöntem, iki adım içerir: aykırı değerlerin kaldırılması (bu, birçok filtreleme uygulamasında uygulanır) ve tüm nesneler kümesiyle kümelerin genişletilmesine izin veren isteğe bağlı bir sınıflandırma.[6]

BIRCH (dengeli yinelemeli indirgeme ve hiyerarşileri kullanarak kümeleme), büyük veri kümeleri için bağlantı tabanlı kümeleme gerçekleştirmek için kullanılan bir algoritmadır.[7] En hızlı kümeleme algoritmalarından biri olarak kabul edilmektedir. Ancak girdi olarak küme sayısı gereksinimi ile sınırlıdır. Bu nedenle, BIRCH tabanlı yeni algoritmalar geliştirilmiştir ve bu algoritmalarda küme sayımının baştan sağlanmasına gerek yoktur. Ancak kümelerin kalitesini ve hızını koruyan algoritmalar geliştirilmiştir. Ana değişiklik, kullanıcının küme sayısını girmesi gereken BIRCH'nin son adımını kaldırmak ve verilerden bir eşik parametresini optimize ederek, ağaç-BIRCH olarak adlandırılan algoritmanın geri kalanını iyileştirmektir. Elde edilen bu algoritmada, eşik parametresi, genellikle bilinen maksimum küme yarıçapından ve kümeler arasındaki minimum mesafeden hesaplanmaktadır. Bu yöntemin on binlerce kümeden oluşan veri kümeleri için verimli olduğu kanıtlanmıştır. Bu miktarın ötesine geçilirse, bir üst küme bölme sorunu ortaya çıkmaktadır. Bunun için, süper küme bölünmesini nispeten yüksek hızda azaltan MDB-BIRCH gibi başka algoritmalar geliştirilmiştir.

Yoğunluğa dayalı

Bölümleme ve hiyerarşik yöntemlerden farklı olarak, yoğunluğa dayalı kümeleme algoritmaları, yalnızca küreleri değil, herhangi bir keyfi şekle sahip kümeleri bulabilir.

Yoğunluğa dayalı kümeleme algoritması, coğrafi konum ve belirli sayıda komşuya olan mesafe ile ilgili kalıpları tanımlayan otonom makine öğrenimini kullanır. Otonom olarak kabul edilir, çünkü kümenin ne olduğu hakkında ön bilgi gerekli değildir.[8] Bu tür bir algoritma, verilerdeki kümeleri bulmak için farklı yöntemler sağlamaktadır. En hızlı yöntem, yoğun bilgi grupları ile seyrek gürültü arasında ayrım yapmak için tanımlanmış bir mesafe kullanan DBSCAN'dır. Ayrıca, HDBSCAN belirli bir mesafe yerine bir dizi mesafeyi kullanarak kendini ayarlayabilmektedir. Son olarak, OPTICS yöntemi, gürültüyü değişen yoğunluktaki kümelerden ayırmak için komşu özelliklerden uzaklığa dayalı bir erişilebilirlik grafiği oluşturmaktadır.

Bu yöntemler yine de kullanıcının küme merkezini sağlamasını gerektirir ve otomatik olarak kabul edilemezdir. Otomatik Yerel Yoğunluk Kümeleme Algoritması (Automatic Local Density Clustering Algorithm; ALDC), otomatik yoğunluğa dayalı kümeleme geliştirmeye odaklanan yeni araştırmaya bir örnektir. ALDC, her noktanın yerel yoğunluğunu ve uzaklık sapmasını hesaplamaktadır. Böylece potansiyel küme merkezi ile diğer noktalar arasındaki farkı genişletir. Bu genişleme, makinenin otomatik olarak çalışmasını sağlamaktadır. Makine, küme merkezlerini tanımlar ve daha yüksek yoğunluklu en yakın komşuları tarafından bırakılan noktaları atar.[9]

Kümeleri tanımlamak için veri yoğunluğunun otomasyonunda, araştırmalar yapay olarak algoritmalar oluşturmaya da odaklandı. Örneğin, Dağıtım Algoritmalarının Tahmini, düğümlerin prosedürleri (yapı bloğu) temsil ettiği ve kenarların iki düğüm arasındaki olası yürütme dizilerini temsil ettiği yönlendirilmiş döngüsüz grafiği (Directed acyclic graph; DAG) tarafından geçerli algoritmaların oluşturulmasını garanti etmektedir. Yapı Taşları, EDA'nın (keşifçi veri analizi) alfabesini veya başka bir deyişle oluşturulan herhangi bir algoritmayı belirlemektedir. Yapay olarak oluşturulan kümeleme algoritmaları, deneysel sonuçlarda manuel bir algoritma olan DBSCAN ile karşılaştırılmaktadır.[10]

Kaynakça

  1. ^ "Ayrıntılı bilgi". 14 Mart 2004 tarihinde kaynağından arşivlendi. 
  2. ^ "Figure S1: Elbow tests of phenotypic microarray array data to determine the number of clusters appropriate for k-means clustering". dx.doi.org. 24 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Haziran 2021. 
  3. ^ "Arşivlenmiş kopya" (PDF). 1 Kasım 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Haziran 2021. 
  4. ^ "Dış bağlantı". 24 Haziran 2021 tarihinde kaynağından arşivlendi. 
  5. ^ "Dış Bağlantı" (PDF). 15 Kasım 2018 tarihinde kaynağından (PDF) arşivlendi. 
  6. ^ Almeida, J.A.S.; Barbosa, L.M.S.; Pais, A.A.C.C.; Formosinho, S.J. (2007-06-15). "Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering" (PDF). Chemometrics and Intelligent Laboratory Systems. 87 (2): 208–217. doi:10.1016/j.chemolab.2007.01.005. hdl:10316/5042. ISSN 0169-7439.
  7. ^ Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron; Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron (1996-06-01). "BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases". ACM SIGMOD Record. 25 (2): 103, 103–114, 114. doi:10.1145/235968.233324. ISSN 0163-5808.
  8. ^ "Dış bağlantı". 22 Aralık 2020 tarihinde kaynağından arşivlendi. 
  9. ^ Xuanzuo, Ye; Dinghao, Li; Xiongxiong, He. "An algorithm for automatic recognition of cluster centers based on local density clustering". 2017 29th Chinese Control And Decision Conference (CCDC). Chongqing, China: IEEE: 1347-1351. doi:10.1109/CCDC.2017.7978726. ISBN 978-1-5090-4657-7. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021. 
  10. ^ Meiguins, Aruanda S. G.; Limao, Roberto C.; Meiguins, Bianchi S.; Junior, Samuel F. S.; Freitas, Alex A. "AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms". 2012 IEEE Congress on Evolutionary Computation. Brisbane, Australia: IEEE: 1-7. doi:10.1109/CEC.2012.6252874. ISBN 978-1-4673-1509-8. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021. 

İlgili Araştırma Makaleleri

Veri yapısı, bilgisayar ortamında verilerin etkin olarak saklanması ve işlenmesi için kullanılan yapı.

<span class="mw-page-title-main">Coğrafi bilgi sistemi</span>

Coğrafi bilgi sistemi (CBS); Dünya üzerindeki karmaşık sosyal, ekonomik, çevresel vb. sorunların çözümüne yönelik mekana/konuma dayalı karar verme süreçlerinde kullanıcılara yardımcı olmak üzere, büyük hacimli coğrafi verilerin toplanması, depolanması, işlenmesi, yönetimi, mekansal analizi, sorgulaması ve sunulması fonksiyonlarını yerine getiren donanım, yazılım, personel, coğrafi veri ve yöntem bütünüdür.

<span class="mw-page-title-main">Hızlı Fourier dönüşümü</span>

Hızlı Fourier dönüşümü bir dizinin ayrık Fourier dönüşümünü (DFT) ya da ters ayrık dönüşümünü hesaplayan bir algoritmadır. Fourier analizinde bir sinyal bulunduğu uzaydaki gösteriminden frekans uzayıki gösterimine ya da tersine dönüştürülür. DFT'de ise ayrık veri dizileri farklı frekans öğelerine ayrılır. Bu operasyon her ne kadar birçok alanda kullanışlı olsa da, doğrudan formüllerle hesabı hızlı ve pratik değildir; bu nedenle DFT hesabı için FFT algoritmaları kullanılmaktadır.

<span class="mw-page-title-main">K-means kümeleme</span>

K-ortalama kümeleme ya da K-means kümeleme yöntemi N adet veri nesnesinden oluşan bir veri kümesini giriş parametresi olarak verilen K adet kümeye bölümlemektir. Amaç, gerçekleştirilen bölümleme işlemi sonunda elde edilen kümelerin, küme içi benzerliklerinin maksimum ve kümeler arası benzerliklerinin ise minimum olmasını sağlamaktır.

Görüntü birleştirme, fotoğraf birleştirme ya da resim birleştirme, parçalar halinde bulunan veya bölümler halinde görüntülenmiş resimlerin, görünüm alanlarının birleştirilerek panoramik veya yüksek çözünürlükte görüntüler üretebilmeyi sağlayan, fotoğrafların çoklu şekilde birleştirilmesine verilen isimdir. Görüntü birleştirme yaygın şekilde bilgisayar yazılımlarının kullanılması ile üretilir. Birleştirme esnasında sorunsuz sonuçların elde edilebilmesi için görüntülerin yaklaşma ve kesişme (birleşme) noktalarının hemen hemen tam olarak birleştirilmesi gerekir. Bazı birleştirme algoritmaları aslında faydalı olmasına rağmen, çakışma bölgelerinde HDR görüntüleme yaparak daha farklı görüntüler elde edilmesine neden olurlar. Bunların yanı sıra bazı dijital kameralar ile dahili görüntü birleştirme yapılabilir. Görüntü birleştirme günümüz dünyasında yaygın şekilde şu uygulamalarda kullanılmaktadır:

Uyarlamalı ağ tabanlı bulanık çıkarım sistemi, Takagi-Sugeno bulanık çıkarım sistemine dayalı bir tür yapay sinir ağı yöntemi. Jang tarafından 1990’ların başlarında geliştirilmiş olup doğrusal olmayan fonksiyonların modellenmesinde ve kaotik zaman serilerinin tahmininde kullanılmıştır.

<span class="mw-page-title-main">Kümeleme analizi</span>

Küme analizi veya kümeleme, bir nesne kümesini gruplama problemidir. Bu problemde, nesnelerin aynı kümede (salkımda) yer alması için diğer kümelerdeki elemanlardan ziyade herhangi bir şekilde birbirine daha benzer olması gerekmektedir. Veri madenciliğinin ana problemlerinden biri olup, istatistikî veri analizinde de yaygın olarak kullanılan bir tekniktir. Makine öğrenimi, örüntü tanıma, görüntü analizi, bilgi erişimi, biyoenformatik, veri sıkıştırma ve bilgisayar grafikleri alanlarında da kullanımı mevcuttur.

<span class="mw-page-title-main">Dendrogram</span> hiyerarşik kümeleme tarafından üretilen kümelerin düzenini göstermek için kullanılan ağaç diyagramı

Bir dendrogram veya dendogram, bir ağacı temsil eden bir diyagramdır. Bu şekilsel gösterim, farklı bağlamlarda sıklıkla kullanılır:

<span class="mw-page-title-main">Veri bilimi</span> verilerden bilgi ve içgörü elde etmeye odaklanan disiplinler arası çalışma alanı

Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.

<span class="mw-page-title-main">Analiz</span> belirli bir türdeki mevcut verilere analitik yöntemler uygulama, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma süreci

Analiz, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma sürecidir. Teknik, matematik ve mantık çalışmalarında Aristoteles'ten önce uygulanmıştır.

Nesne tespiti bilgisayarla görü ve görüntü işleme ile ilgili bilgisayar teknolojisi

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

Video izleme/ Nesne Takip, bir kamera kullanarak zaman içinde hareket eden bir veya birden çok nesneyi bulma işlemidir. İnsan-bilgisayar etkileşimi, güvenlik ve gözetim, video iletişimi ve sıkıştırma, artırılmış gerçeklik, trafik kontrolü, tıbbi görüntüleme ve video düzenleme gibi çeşitli kullanımları vardır. Video izleme, videonun içerdiği veri miktarı nedeniyle zaman alıcı ve yavaş çalışabilen bir süreç olabilmektedir. Tek başına kullanımda bile zor bir problem olan bu metot, nesne tanıma teknikleriyle birlikte de kullanılarak daha işlevsel hale getirilmektedir.

<span class="mw-page-title-main">Görüntü eşikleme</span>

Dijital görüntü işlemede, eşikleme, görüntüleri bölümlere ayırmada kullanılan bir yöntemdir. Görüntülere gri tonlama eklendikten sonra ikili (binary) bir görüntü elde edilir. İkili görüntüler oluşturmak için eşikleme kullanılabilir.

<span class="mw-page-title-main">Bilgisayarlı görü</span> görsellerden veri bilgisi çıkartmak

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

Otomatik hedef tanıma, bir algoritmanın veya cihazın, sensörlerden elde edilen verilere dayanarak hedefleri veya diğer nesneleri tanıma yeteneğidir.

Rastgele yürüten algoritması, görüntü segmentasyonu için bir algoritmadır. Algoritmanın ilk açıklamasında, bir kullanıcı etkileşimli olarak az sayıda pikseli bilinen etiketlerle, örneğin "nesne" ve "arka plan" olarak etiketlemektedir. Etiketlenmemiş piksellerin her birinin rastgele bir yürüteç serbest bıraktığı düşünülmektedir. Her pikselin rastgele yürüteçlerinin ilk olarak her etiketi taşıyan bir tohuma ulaşma olasılığı hesaplanmaktadır. Yani bir kullanıcı her biri farklı bir etikete sahip K tohum yerleştirirse, o zaman gereklidir. Her piksel için, pikselden ayrılan rastgele bir yürüyenin her bir tohuma ilk varma olasılığını hesaplanır. Bu olasılıklar, bir lineer denklem sistemi çözülerek analitik olarak belirlenmektedir. Her piksel için bu olasılıkları hesapladıktan sonra, piksel, rastgele bir yürüteç gönderme olasılığı en yüksek olan etikete atanmaktadır. Görüntü, her pikselin komşu piksellere kenarlarla bağlanan bir düğüme karşılık geldiği ve kenarların pikseller arasındaki benzerliği yansıtacak şekilde ağırlıklandırıldığı bir grafik olarak modellenmektedir. Bu nedenle, rastgele yürüyüş ağırlıklı grafikte geçekleşmektedir.

<span class="mw-page-title-main">Otomatik makine öğrenimi</span>

Otomatik makine öğrenimi (AutoML), makine öğrenimini gerçek dünya sorunlarına uygulanmasını otomatikleştirme sürecidir.

Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.

<span class="mw-page-title-main">Zaman-aktivite eğrisi</span>

Tıbbi görüntülemede, zaman-aktivite eğrisi, x ekseninde çizilen zamana karşı y ekseninde çizilen radyoaktivitenin bir eğrisidir. Dinamik bir taramadan zaman içinde ölçülen, bir görüntüdeki ilgilenilen bir bölgedeki radyo izleyicinin konsantrasyonunu gösterir. Genel olarak, bir doku içinde bir zaman-aktivite eğrisi elde edildiğinde, buna doku zaman-aktivite eğrisi adı verilir; bu, bir doku içinde ilgilenilen bir bölgedeki izleyicinin zaman içindeki konsantrasyonunu temsil eder.