Otomatik makine öğrenimi

Otomatik makine öğrenimi (AutoML), makine öğrenimini gerçek dünya sorunlarına uygulanmasını otomatikleştirme sürecidir.

AutoML, potansiyelinde ham bir veri kümesiyle başlangıçtan dağıtıma hazır bir makine öğrenimi modeli oluşturmaya kadar her adımı içerir. AutoML, makine öğreniminin uygulanmasıyla ilgili giderek artan zorluklara karşı önerilen yapay zeka tabanlı bir çözümdür.^[1] AutoML'deki yüksek derecede otomasyon, uzman olmayan kişilerin makine öğrenimi modellerini ve tekniklerini kullanmalarına olanak sağlama amacını taşır ve onların makine öğrenimi konusunda uzman olmalarını gerektirmez. Makine öğrenimini uygulama sürecinin baştan sona otomatikleştirilmesi ayrıca daha basit çözümler üretme, bu çözümlerin daha hızlı oluşturulması ve genellikle elle tasarlanmış modellerden daha iyi performans gösteren modeller gibi avantajlar sunar.^[2]

AutoML'de kullanılan yaygın teknikler arasında hiperparametre optimizasyonu, meta-öğrenme ve sinir mimarisi araması bulunmaktadır.

Standart yaklaşımla karşılaştırma

Tipik bir makine öğrenimi uygulamasında, uygulayıcılar eğitim için kullanılacak bir dizi giriş veri noktasına sahiptir. Ham veriler tüm algoritmaların uygulanabileceği biçimde olmayabilir. Veriyi makine öğrenimine uygun hale getirmek için bir uzmanın uygun veri ön işleme, özellik mühendisliği, özellik çıkarma ve özellik seçme yöntemlerini uygulaması gerekebilir. Bu adımlardan sonra uygulayıcılar, modellerinin tahmin performansını maksimize etmek için algoritma seçimi ve hiperparametre optimizasyonu gerçekleştirmelidir. Derin öğrenme kullanılacaksa sinir ağının mimarisinin de makine öğrenimi uzmanı tarafından seçilmesi gerekir.

Bu adımların her biri, makine öğrenimini kullanılma konusunda önemli engellere yol açabilecek zorluklar içerebilir. AutoML, uzman olmayanlar için bu adımları basitleştirmeyi, makine öğrenimi tekniklerini doğru ve etkili bir şekilde kullanmalarını kolaylaştırmayı amaçlamaktadır.

AutoML, veri mühendisliği, veri keşfi, model yorumlama^[3] ve tahmin^[4] gibi zorlu görevler de içeren veri bilimini otomatikleştirmeye yönelik daha geniş bir yaklaşım içerisinde önemli bir rol oynar.

Otomasyonun hedefleri

Otomatik makine öğrenimi, makine öğrenimi sürecinin çeşitli aşamalarını hedefleyebilir. Otomasyon için adımlar şunlardır:

Veri hazırlama ve alma (ham verilerden ve çeşitli formatlardan)
- Sütun tipi tespiti; örneğin boolean, ayrık sayısal, sürekli sayısal veya metin
- Sütun amacı tespiti; örneğin hedef/etiket, sınıflandırma alanı, sayısal özellik, kategorik metin özelliği veya serbest metin özelliği
- Görev tespiti; örneğin ikili sınıflandırma, regresyon, kümeleme veya derecelendirme
Özellik mühendisliği
- Öznitelik Seçimi
- Özellik çıkarma
- Meta-öğrenme ve transfer öğrenimi
- Çarpık verilerin ve/veya eksik değerlerin tespiti ve işlenmesi
Model seçimi - genellikle birden fazla rakip yazılım uygulaması dahil olmak üzere hangi makine öğrenimi algoritmasının kullanılacağını seçme
Birleştirme - birden fazla model kullanmanın genellikle tek bir modelden daha iyi sonuçlar verdiği bir fikir birliği biçimi
Öğrenme algoritmasının ve özelliğinin hiperparametre optimizasyonu
Zaman, bellek ve karmaşıklık kısıtlamaları altında işlem hattı seçimi
Değerlendirme metriklerinin ve doğrulama prosedürlerinin seçimi
Sorun kontrolü
- Sızıntı tespiti
- Yanlış yapılandırma tespiti
Elde edilen sonuçların analizi
Kullanıcı arayüzleri ve görselleştirmeler oluşturma

Zorluklar ve Sınırlamalar

Otomatik makine öğrenimi etrafında ele alınan bir dizi önemli zorluk bulunmaktadır. Bu alandaki büyük bir sorun, "ev endüstrisi olarak geliştirme"^[5] olarak adlandırılan bir durumu içermektedir. Bu ifade, makine öğreniminde gelişmenin uzmanların manuel kararlarına ve önyargılarına dayanmasına atıfta bulunur. Bu durum, makine öğreniminin amacıyla çelişir; çünkü amaç, sistemlerin kendi kullanımlarından ve verinin analizinden öğrenip gelişmesine izin veren sistemler oluşturmaktır. Temelde, uzmanların sistemlerin öğrenmelerine ne kadar müdahil olmaları gerektiği ile makinelerin ne kadar özgürlüğe sahip olmaları gerektiği arasındaki bir mücadeleyi yansıtmaktadır. Ancak uzmanlar ve geliştiriciler, bu makineleri kendileri öğrenmeleri için hazırlamak ve yönlendirmek konusunda yardımcı olmalıdır. Bu sistemleri oluşturmak için, makine öğrenimi algoritmaları ve sistem tasarımı bilgisine dayalı yoğun emek gerektiren bir çalışma gerekir.^[6]

Ek olarak, diğer zorluklar arasında meta-öğrenme zorlukları^[7] ve hesaplamalı kaynak tahsisi bulunmaktadır.

Kaynakça

^ Thornton, Chris; Hutter, Frank; Hoos, Holger H.; Leyton-Brown, Kevin (11 Ağustos 2013). "Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms". Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. KDD '13. New York, NY, USA: Association for Computing Machinery: 847-855. doi:10.1145/2487575.2487629. ISBN 978-1-4503-2174-7.
^ Olson, Randal S.; Urbanowicz, Ryan J.; Andrews, Peter C.; Lavender, Nicole A.; Kidd, La Creis; Moore, Jason H. (2016). Squillero, Giovanni; Burelli, Paolo (Ed.). "Automating Biomedical Data Science Through Tree-Based Pipeline Optimization". Applications of Evolutionary Computation. Lecture Notes in Computer Science (İngilizce). Cham: Springer International Publishing: 123-137. doi:10.1007/978-3-319-31204-0_9. ISBN 978-3-319-31204-0. 9 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.
^ De Bie, Tijl; De Raedt, Luc; Hernández-Orallo, José; Hoos, Holger H.; Smyth, Padhraic; Williams, Christopher K. I. (Mart 2022). "Automating data science". Communications of the ACM (İngilizce). 65 (3): 76-87. doi:10.1145/3495256. ISSN 0001-0782. 28 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.
^ Yi, Rita; Song, Lingxi; Li, Bo; James, M.; Yue, Xiao-Guang (2022). "Predicting Carpark Prices Indices in Hong Kong Using AutoML". Computer Modeling in Engineering & Sciences (İngilizce). 134 (3): 2247-2282. doi:10.32604/cmes.2022.020930. ISSN 1526-1492. 14 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.
^ Hutter, Frank; Kotthoff, Lars; Vanschoren, Joaquin, (Ed.) (2019). Automated Machine Learning: Methods, Systems, Challenges. The Springer Series on Challenges in Machine Learning (İngilizce). Cham: Springer International Publishing. doi:10.1007/978-3-030-05318-5. ISBN 978-3-030-05317-8.
^ "Machine Learning with Python: Clustering" (İngilizce). 2018. doi:10.4135/9781526466426.
^ "Meta Learning Challenges". metalearning.chalearn.org. 3 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.

Daha fazla okuma

"Open Source AutoML Tools: AutoGluon, TransmogrifAI, Auto-sklearn, and NNI". Bizety. 16 Haziran 2020. 13 Ağustos 2020 tarihinde kaynağından arşivlendi.
Ferreira, Luís, et al. "A comparison of AutoML tools for machine learning, deep learning and XGBoost." 2021 International Joint Conference on Neural Networks (IJCNN). IEEE, 2021. https://repositorium.sdum.uminho.pt/bitstream/1822/74125/1/automl_ijcnn.pdf
Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M., & Hutter, F. (2015). Efficient and robust automated machine learning. Advances in neural information processing systems, 28. https://proceedings.neurips.cc/paper_files/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf

[1] Thornton, Chris; Hutter, Frank; Hoos, Holger H.; Leyton-Brown, Kevin (11 Ağustos 2013). "Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms". Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. KDD '13. New York, NY, USA: Association for Computing Machinery: 847-855. doi:10.1145/2487575.2487629. ISBN 978-1-4503-2174-7.

[2] Olson, Randal S.; Urbanowicz, Ryan J.; Andrews, Peter C.; Lavender, Nicole A.; Kidd, La Creis; Moore, Jason H. (2016). Squillero, Giovanni; Burelli, Paolo (Ed.). "Automating Biomedical Data Science Through Tree-Based Pipeline Optimization". Applications of Evolutionary Computation. Lecture Notes in Computer Science (İngilizce). Cham: Springer International Publishing: 123-137. doi:10.1007/978-3-319-31204-0_9. ISBN 978-3-319-31204-0. 9 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.

[3] De Bie, Tijl; De Raedt, Luc; Hernández-Orallo, José; Hoos, Holger H.; Smyth, Padhraic; Williams, Christopher K. I. (Mart 2022). "Automating data science". Communications of the ACM (İngilizce). 65 (3): 76-87. doi:10.1145/3495256. ISSN 0001-0782. 28 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.

[4] Yi, Rita; Song, Lingxi; Li, Bo; James, M.; Yue, Xiao-Guang (2022). "Predicting Carpark Prices Indices in Hong Kong Using AutoML". Computer Modeling in Engineering & Sciences (İngilizce). 134 (3): 2247-2282. doi:10.32604/cmes.2022.020930. ISSN 1526-1492. 14 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.

[5] Hutter, Frank; Kotthoff, Lars; Vanschoren, Joaquin, (Ed.) (2019). Automated Machine Learning: Methods, Systems, Challenges. The Springer Series on Challenges in Machine Learning (İngilizce). Cham: Springer International Publishing. doi:10.1007/978-3-030-05318-5. ISBN 978-3-030-05317-8.

[6] "Machine Learning with Python: Clustering" (İngilizce). 2018. doi:10.4135/9781526466426.

[7] "Meta Learning Challenges". metalearning.chalearn.org. 3 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Ocak 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Makine öğrenmesi ve veri madenciliği

Problemler Sınıflandırma Kümeleme Regresyon Anomali tespiti Association rules Pekiştirmeli öğrenme Yapılandırılmış tahmin Öznitelik mühendisliği Öznitelik öğrenmesi Öznitelik çıkarımı Online öğrenme Yarı-gözetimli öğrenme Gözetimsiz öğrenme Sıralama öğrenme Gramer Tümevarımı
Gözetimli öğrenme Karar ağacı Birlik öğrenmesi k-YK Doğrusal regresyon Naive Bayes Sinir ağları Lojistik regresyon Relevance vector machine (RVM) Support vector machine (SVM) Rastgele orman
Kümeleme BIRCH Hiyerarşik k-means Beklenti maksimizasyon DBSCAN OPTICS Mean-shift
Boyut indirgeme Faktör analizi CCA ICA LDA NMF PCA t-SNE
Yapılandırılmış tahmin Grafiksel modeller (Bayes ağları, CRF, HMM)
Anomali tespiti k-NN Local outlier factor
Sinir ağları Perseptron Otokodlayıcı Derin öğrenme RNN LSTM Kısıtlı Boltzmann makinesi SOM Kıvrımlı sinir ağları
Pekiştirmeli öğrenme Q-Learning SARSA Temporal Difference (TD)
Teori Bias-variance ikilemi Hesaplamalı öğrenme teorisi Empirik risk minimizasyonu Occam learning PAC learning İstatistiki öğrenme teorisi VC theory
Konferanslar ve dergiler NIPS ICML ML JMLR ArXiv:cs.LG

Standart yaklaşımla karşılaştırma

Otomasyonun hedefleri

Zorluklar ve Sınırlamalar

Kaynakça

Daha fazla okuma

İlgili Araştırma Makaleleri