Otomatik kümeleme algoritmaları

Otomatik kümeleme algoritmaları, veri kümeleri hakkında önceden bilgi sahibi olmadan kümeleme yapabilen algoritmalardır. Diğer küme analizi tekniklerinin aksine, otomatik kümeleme algoritmaları, gürültü ve aykırı noktaların varlığında bile en iyi küme sayısını belirleyebilir.^[1]

Merkez tabanlı

Bir dizi n nesne verildiğinde, merkez tabanlı algoritmalar, k≤n olacak şekilde bir farklılık fonksiyonuna dayalı olarak k küme oluşturur. Bu tür bir algoritmanın uygulanmasındaki en büyük sorun, etiketlenmemiş veriler için uygun sayıda kümenin belirlenmesidir. Bu nedenle, kümeleme analizindeki çoğu araştırma, sürecin otomasyonuna odaklanmıştır.

En çok kullanılan merkez tabanlı kümeleme algoritmalarından biri olan K-ortalama kümeleme algoritmasında k'nin otomatik seçimi, makine öğreniminde hala önemli bir sorundur. Bu soruna en çok kabul edilen çözüm dirsek (elbow) yöntemidir. Bir dizi değerle veri kümesine k-araç kümeleme yapmaktan, her biri için karesel hataların toplamını hesaplamaktan oluşmaktadır. Ayrıca bunları bir çizgi grafiğinde çizmekten oluşmaktadır. Grafik bir kol gibi görünüyorsa, k'nin en iyi değeri "dirsek" üzerinde olacaktır.^[2]

Optimal küme sayısını otomatik olarak seçmek için k-ortalamalar algoritmasını değiştiren başka bir yöntem, G-ortalamalar algoritmasıdır. Verilerin bir alt kümesinin bir Gauss dağılımını takip ettiği hipotezinden geliştirilmiştir. Böylece, her k-ortalama merkezinin verileri Gauss olana kadar k arttırılmaktadır. Bu algoritma, parametre olarak yalnızca standart istatistiksel anlamlılık düzeyini gerektirir ve verilerin kovaryansı için sınırlar belirlemez.^[3]

Bağlantı tabanlı (hiyerarşik kümeleme)

Bağlantıya dayalı kümeleme veya hiyerarşik kümeleme, nesnelerin yakındaki diğer nesnelerle uzaktakilerden daha fazla benzerliğe sahip olduğu fikrine dayanır. Bu nedenle, bu tür bir algoritmadan oluşturulan kümeler, analiz edilen nesneler arasındaki mesafenin sonucu olacaktır.

Hiyerarşik modeller, bölümlerin mevcut tüm veri kümesinden oluşturulduğu bölücü veya her bölümün tek bir nesneyle başladığı ve kümeye ek nesnelerin eklendiği kümeleme olabilir.^[4] Hiyerarşik kümeleme, tanımlanan mesafe olarak herhangi bir geçerli ölçünün kullanılmasına izin verme avantajına sahip olsa da, veri kümesindeki gürültüye ve dalgalanmalara karşı hassastır ve otomatikleştirilmesi daha zordur.

Tek bağlantı hiyerarşik küme analizinin (Hierarchical Cluster Analysis; HCA) otomatikleştirilmiş bir versiyonu gibi mevcut hiyerarşik kümeleme algoritmalarını^[5] iyileştirmek ve otomatikleştirmek için yöntemler geliştirilmiştir. Bu bilgisayarlı yöntem, başarısını; doğal kümeleri tanımlamaya izin veren tanımlayıcı bir fonksiyonun oluşturulmasını takip eden, kendi içinde tutarlı bir aykırı değer azaltma yaklaşımına dayandırır. Atılan nesneler de bu kümelere atanabilir. Aslında, doğal kümeleri tanımlamak için dış parametrelere başvurmaya gerek yoktur. HCA'dan toplanan, otomatikleştirilmiş ve güvenilir bilgiler, klasik HCA'da bulunmayan bir seçenek olan doğal kümelerin sayısı ve karşılık gelen ayırma ile bir dendrogramda yeniden başlatılabilir. Bu yöntem, iki adım içerir: aykırı değerlerin kaldırılması (bu, birçok filtreleme uygulamasında uygulanır) ve tüm nesneler kümesiyle kümelerin genişletilmesine izin veren isteğe bağlı bir sınıflandırma.^[6]

BIRCH (dengeli yinelemeli indirgeme ve hiyerarşileri kullanarak kümeleme), büyük veri kümeleri için bağlantı tabanlı kümeleme gerçekleştirmek için kullanılan bir algoritmadır.^[7] En hızlı kümeleme algoritmalarından biri olarak kabul edilmektedir. Ancak girdi olarak küme sayısı gereksinimi ile sınırlıdır. Bu nedenle, BIRCH tabanlı yeni algoritmalar geliştirilmiştir ve bu algoritmalarda küme sayımının baştan sağlanmasına gerek yoktur. Ancak kümelerin kalitesini ve hızını koruyan algoritmalar geliştirilmiştir. Ana değişiklik, kullanıcının küme sayısını girmesi gereken BIRCH'nin son adımını kaldırmak ve verilerden bir eşik parametresini optimize ederek, ağaç-BIRCH olarak adlandırılan algoritmanın geri kalanını iyileştirmektir. Elde edilen bu algoritmada, eşik parametresi, genellikle bilinen maksimum küme yarıçapından ve kümeler arasındaki minimum mesafeden hesaplanmaktadır. Bu yöntemin on binlerce kümeden oluşan veri kümeleri için verimli olduğu kanıtlanmıştır. Bu miktarın ötesine geçilirse, bir üst küme bölme sorunu ortaya çıkmaktadır. Bunun için, süper küme bölünmesini nispeten yüksek hızda azaltan MDB-BIRCH gibi başka algoritmalar geliştirilmiştir.

Yoğunluğa dayalı

Bölümleme ve hiyerarşik yöntemlerden farklı olarak, yoğunluğa dayalı kümeleme algoritmaları, yalnızca küreleri değil, herhangi bir keyfi şekle sahip kümeleri bulabilir.

Yoğunluğa dayalı kümeleme algoritması, coğrafi konum ve belirli sayıda komşuya olan mesafe ile ilgili kalıpları tanımlayan otonom makine öğrenimini kullanır. Otonom olarak kabul edilir, çünkü kümenin ne olduğu hakkında ön bilgi gerekli değildir.^[8] Bu tür bir algoritma, verilerdeki kümeleri bulmak için farklı yöntemler sağlamaktadır. En hızlı yöntem, yoğun bilgi grupları ile seyrek gürültü arasında ayrım yapmak için tanımlanmış bir mesafe kullanan DBSCAN'dır. Ayrıca, HDBSCAN belirli bir mesafe yerine bir dizi mesafeyi kullanarak kendini ayarlayabilmektedir. Son olarak, OPTICS yöntemi, gürültüyü değişen yoğunluktaki kümelerden ayırmak için komşu özelliklerden uzaklığa dayalı bir erişilebilirlik grafiği oluşturmaktadır.

Bu yöntemler yine de kullanıcının küme merkezini sağlamasını gerektirir ve otomatik olarak kabul edilemezdir. Otomatik Yerel Yoğunluk Kümeleme Algoritması (Automatic Local Density Clustering Algorithm; ALDC), otomatik yoğunluğa dayalı kümeleme geliştirmeye odaklanan yeni araştırmaya bir örnektir. ALDC, her noktanın yerel yoğunluğunu ve uzaklık sapmasını hesaplamaktadır. Böylece potansiyel küme merkezi ile diğer noktalar arasındaki farkı genişletir. Bu genişleme, makinenin otomatik olarak çalışmasını sağlamaktadır. Makine, küme merkezlerini tanımlar ve daha yüksek yoğunluklu en yakın komşuları tarafından bırakılan noktaları atar.^[9]

Kümeleri tanımlamak için veri yoğunluğunun otomasyonunda, araştırmalar yapay olarak algoritmalar oluşturmaya da odaklandı. Örneğin, Dağıtım Algoritmalarının Tahmini, düğümlerin prosedürleri (yapı bloğu) temsil ettiği ve kenarların iki düğüm arasındaki olası yürütme dizilerini temsil ettiği yönlendirilmiş döngüsüz grafiği (Directed acyclic graph; DAG) tarafından geçerli algoritmaların oluşturulmasını garanti etmektedir. Yapı Taşları, EDA'nın (keşifçi veri analizi) alfabesini veya başka bir deyişle oluşturulan herhangi bir algoritmayı belirlemektedir. Yapay olarak oluşturulan kümeleme algoritmaları, deneysel sonuçlarda manuel bir algoritma olan DBSCAN ile karşılaştırılmaktadır.^[10]

Kaynakça

^ "Ayrıntılı bilgi". 14 Mart 2004 tarihinde kaynağından arşivlendi.
^ "Figure S1: Elbow tests of phenotypic microarray array data to determine the number of clusters appropriate for k-means clustering". dx.doi.org. 24 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Haziran 2021.
^ "Arşivlenmiş kopya" (PDF). 1 Kasım 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Haziran 2021.
^ "Dış bağlantı". 24 Haziran 2021 tarihinde kaynağından arşivlendi.
^ "Dış Bağlantı" (PDF). 15 Kasım 2018 tarihinde kaynağından (PDF) arşivlendi.
^ Almeida, J.A.S.; Barbosa, L.M.S.; Pais, A.A.C.C.; Formosinho, S.J. (2007-06-15). "Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering" (PDF). Chemometrics and Intelligent Laboratory Systems. 87 (2): 208–217. doi:10.1016/j.chemolab.2007.01.005. hdl:10316/5042. ISSN 0169-7439.
^ Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron; Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron (1996-06-01). "BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases". ACM SIGMOD Record. 25 (2): 103, 103–114, 114. doi:10.1145/235968.233324. ISSN 0163-5808.
^ "Dış bağlantı". 22 Aralık 2020 tarihinde kaynağından arşivlendi.
^ Xuanzuo, Ye; Dinghao, Li; Xiongxiong, He. "An algorithm for automatic recognition of cluster centers based on local density clustering". 2017 29th Chinese Control And Decision Conference (CCDC). Chongqing, China: IEEE: 1347-1351. doi:10.1109/CCDC.2017.7978726. ISBN 978-1-5090-4657-7. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021.
^ Meiguins, Aruanda S. G.; Limao, Roberto C.; Meiguins, Bianchi S.; Junior, Samuel F. S.; Freitas, Alex A. "AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms". 2012 IEEE Congress on Evolutionary Computation. Brisbane, Australia: IEEE: 1-7. doi:10.1109/CEC.2012.6252874. ISBN 978-1-4673-1509-8. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021.

[1] "Ayrıntılı bilgi". 14 Mart 2004 tarihinde kaynağından arşivlendi.

[2] "Figure S1: Elbow tests of phenotypic microarray array data to determine the number of clusters appropriate for k-means clustering". dx.doi.org. 24 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 22 Haziran 2021.

[3] "Arşivlenmiş kopya" (PDF). 1 Kasım 2019 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Haziran 2021.

[4] "Dış bağlantı". 24 Haziran 2021 tarihinde kaynağından arşivlendi.

[5] "Dış Bağlantı" (PDF). 15 Kasım 2018 tarihinde kaynağından (PDF) arşivlendi.

[6] Almeida, J.A.S.; Barbosa, L.M.S.; Pais, A.A.C.C.; Formosinho, S.J. (2007-06-15). "Improving hierarchical cluster analysis: A new method with outlier detection and automatic clustering" (PDF). Chemometrics and Intelligent Laboratory Systems. 87 (2): 208–217. doi:10.1016/j.chemolab.2007.01.005. hdl:10316/5042. ISSN 0169-7439.

[7] Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron; Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron (1996-06-01). "BIRCH: an efficient data clustering method for very large databases, BIRCH: an efficient data clustering method for very large databases". ACM SIGMOD Record. 25 (2): 103, 103–114, 114. doi:10.1145/235968.233324. ISSN 0163-5808.

[8] "Dış bağlantı". 22 Aralık 2020 tarihinde kaynağından arşivlendi.

[9] Xuanzuo, Ye; Dinghao, Li; Xiongxiong, He. "An algorithm for automatic recognition of cluster centers based on local density clustering". 2017 29th Chinese Control And Decision Conference (CCDC). Chongqing, China: IEEE: 1347-1351. doi:10.1109/CCDC.2017.7978726. ISBN 978-1-5090-4657-7. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021.

[10] Meiguins, Aruanda S. G.; Limao, Roberto C.; Meiguins, Bianchi S.; Junior, Samuel F. S.; Freitas, Alex A. "AutoClustering: An estimation of distribution algorithm for the automatic generation of clustering algorithms". 2012 IEEE Congress on Evolutionary Computation. Brisbane, Australia: IEEE: 1-7. doi:10.1109/CEC.2012.6252874. ISBN 978-1-4673-1509-8. 28 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Merkez tabanlı

Bağlantı tabanlı (hiyerarşik kümeleme)

Yoğunluğa dayalı

Kaynakça

İlgili Araştırma Makaleleri