Destek vektör makinesi

Destek vektör makinesi (kısaca DVM), eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı bulan vektör uzayı tabanlı makine öğrenme yöntemi olarak tanımlanabilir.^[1]

$x_{i}$ ile temsil edilen her girdi, D özelliğine sahip olsun ve sadece $y_{i}$ = -1 ya da +1 sınıflarından birine ait olsun, bu durumda tüm girdileri şöyle gösterebiliriz:

$\{x_{i},y_{i}\}|i=1\ldots L,y_{i}\in \{-1,1\},x\in \Re ^{D}$

Doğrusal olmayan veri kümesinin DVM ile sınıflandırılması

Veri kümeleri

Doğrusal ayrışabilen ve doğrusal ayrılamayan iki ayrı veri seti

Kernel yöntemleri

Veri kümesinin doğrusal olarak sınıflandırılması mümkün olmayan durumlarda, her bir verinin üst özellik uzayıyla eşlenmesi ve yine bu yeni uzayda bir hiper düzlem yardımıyla sınıflandırılması yöntemine verilen isimdir.

Radial Basis Function (RBF) Kernel

$K(x,y)=e^{\gamma |x-y|^{2}}$

Çok terimli (Polinomial) Kernel

$K(x,y)={(x\cdot y+1)}^{n}$

Çok sınıflı verinin DVM ile sınıflandırılması

Destek vektör makineleri daha çok iki sınıftan olusan (binary classification) veriyi ayırmada kullanılmaktadır, örneğin bir veri kümesindeki her bir veriyi kadın veya erkek olarak ayırmak. Buna karşın veriler bazen ikiden fazla sınıfa ait olabilirler bu gibi durumlarda temel DVM algoritması işlevsiz bir hale gelir. Örneğin farklı cinsten olan köpeklerin belli başlı özelliklerinin tutulduğu bir veri kümesinin bu özellikleri baz alarak sınıflandırılması gibi Golden Retriever, Siberian Husky, German Shepherd, Pug vb.^[2]

Bire çok yaklaşım

Genel anlamda sınıf sayısı kadar DVM'nin birbirine füzyonuyla elde edilir. Her DVM çıkan her bir sınıfı diğer sınıflarla karşılaştırarak bir sonuca ulaşır. Eğer $N$ kadar sınıf varsa $N$ sayıda DVM eğitilerek bu DVM'lerin birbiriyle kıyaslanarak hangi sınıf için en güvenilir sonucun çıktığına bakılarak sınıflandırma yapılır. $f(x)=arg\max _{i}f_{i}(x)$ $x$ girdi vektörü olmakla beraber $i$ sınıfı temsil etmektedir.

Bire bir yaklaşım

Bire bir yönteminde her bir sınıf ikilisi için farklı bir DVM eğitilir ve eğitilen DVM'lerden hangi sınıfın en çok "+1" olarak sınıflandırıldığına bakılır ve böylece sınıflandırma işlemi gerçekleştirilir. Bu yöntem bire çok yöntemine göre hesaplama gücü yönünden oldukça "pahalı" bir yöntemdir. Bunun sebebi, eğer $N$ kadar sınıf varsa bu durumda ${N(N-1) \over 2}$ sayıda DVM eğitilmesi gerekmesidir.

$f(x)=arg\max _{i}{\Bigl (}\sum _{j}f_{ij}(x){\Bigr )}$ $x$ girdi vektörü olmakla beraber $i$ ve $j$ sınıfları temsil etmektedirler.

Tarihçe ve Gelişim

Destek vektör makineleri (DVM), 1992 yılında Vladimir Vapnik ve meslektaşı Alexey Chervonenkis tarafından geliştirilmiştir. Başlangıçta iki sınıfı ayırmak için doğrusal sınıflandırıcılar olarak tasarlanan DVM'ler, daha sonra kernel yöntemleri kullanılarak doğrusal olmayan sınıflandırma problemlerine de uygulanabilir hale gelmiştir.^[3]^[4]

Destek Vektör Makinesi (DVM)

Destek vektör makinesi (kısaca DVM), makine öğreniminde kullanılan güçlü bir sınıflandırma yöntemidir. Bu yöntem, eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı (hiper düzlem) bulan vektör uzayı tabanlı bir yaklaşımdır. DVM, hem doğrusal hem de doğrusal olmayan veri kümeleri için etkili bir şekilde çalışabilir ve kernel yöntemleri kullanarak veri kümelerinin üst özellik uzaylarında sınıflandırma yapabilir. Bu sayede, karmaşık veri yapılarını bile başarılı bir şekilde sınıflandırma yeteneğine sahiptir.^[5]^[6]

Uygulama Alanları

Destek vektör makineleri, birçok farklı alanda başarılı bir şekilde uygulanmaktadır. Yaygın uygulama alanlarından bazıları şunlardır:

Biyoinformatik: Gen ekspresyon verilerinin sınıflandırılması.

Finans: Kredi riskinin değerlendirilmesi ve dolandırıcılık tespiti.

Pazarlama: Müşteri segmentasyonu ve davranış tahmini.

Görüntü İşleme: Yüz tanıma ve nesne tespiti.^[7]^[8]^[9]

Performans Karşılaştırmaları

Destek vektör makineleri, özellikle yüksek boyutlu ve küçük veri kümelerinde iyi performans gösterir. Diğer makine öğrenme yöntemleriyle karşılaştırıldığında, DVM'nin avantajları şunlardır:

Genel Performans: DVM, genellikle yüksek doğruluk oranlarına sahiptir.

Genelleme Yeteneği: Marjin maksimizasyonu, modelin genelleme yeteneğini artırır.

Hız: Büyük veri kümeleri için eğitim süresi uzun olabilir, ancak test süresi hızlıdır.

DVM'nin dezavantajları ise şunlardır:

Hesaplama Maliyeti: Kernel yöntemleri kullanıldığında hesaplama maliyeti artabilir.

Model Seçimi: Doğru kernel ve hiperparametrelerin seçimi zor olabilir.^[10]^[11]

Kaynakça

^ SCHLKOPF, BERNHARD. (2018). LEARNING WITH KERNELS : support vector machines, regularization, optimization, and beyond. [Place of publication not identified],: MIT Press. ISBN 0-262-53657-9. OCLC 1039411838.
^ Computational intelligence paradigms in advanced pattern classification. Ogiela, Marek R., Jain, L. C. Berlin: Springer. 2012. s. 179. ISBN 978-3-642-24049-2. OCLC 773925178.
^ Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer.
^ Vapnik, V., & Chervonenkis, A. (1964). A Note on One Class of Perceptrons. Automation and Remote Control, 25, 103-110.
^ Cortes, Corinna; Vapnik, Vladimir (Eylül 1995). "Support-vector networks". Machine Learning. 20 (3): 273-297. doi:10.1007/bf00994018. ISSN 0885-6125.
^ Burges, Christopher J.C. (1998). Data Mining and Knowledge Discovery. 2 (2): 121-167. doi:10.1023/a:1009715923555. ISSN 1384-5810 http://dx.doi.org/10.1023/a:1009715923555. Eksik ya da boş |başlık= (yardım)
^ Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3), 389-422.
^ Kim, K. J. (2003). Financial time series forecasting using support vector machines. Neurocomputing, 55(1-2), 307-319.
^ Osuna, E., Freund, R., & Girosi, F. (1997). Training support vector machines: an application to face detection. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 130-136.
^ Ben-Hur, A., & Weston, J. (2010). A User's Guide to Support Vector Machines. Methods in Molecular Biology, 609, 223-239.
^ Steinwart, I., & Christmann, A. (2008). Support Vector Machines. Springer.

[1] SCHLKOPF, BERNHARD. (2018). LEARNING WITH KERNELS : support vector machines, regularization, optimization, and beyond. [Place of publication not identified],: MIT Press. ISBN 0-262-53657-9. OCLC 1039411838.

[2] Computational intelligence paradigms in advanced pattern classification. Ogiela, Marek R., Jain, L. C. Berlin: Springer. 2012. s. 179. ISBN 978-3-642-24049-2. OCLC 773925178.

[3] Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer.

[4] Vapnik, V., & Chervonenkis, A. (1964). A Note on One Class of Perceptrons. Automation and Remote Control, 25, 103-110.

[5] Cortes, Corinna; Vapnik, Vladimir (Eylül 1995). "Support-vector networks". Machine Learning. 20 (3): 273-297. doi:10.1007/bf00994018. ISSN 0885-6125.

[6] Burges, Christopher J.C. (1998). Data Mining and Knowledge Discovery. 2 (2): 121-167. doi:10.1023/a:1009715923555. ISSN 1384-5810 http://dx.doi.org/10.1023/a:1009715923555. Eksik ya da boş |başlık= (yardım)

[7] Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3), 389-422.

[8] Kim, K. J. (2003). Financial time series forecasting using support vector machines. Neurocomputing, 55(1-2), 307-319.

[9] Osuna, E., Freund, R., & Girosi, F. (1997). Training support vector machines: an application to face detection. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 130-136.

[10] Ben-Hur, A., & Weston, J. (2010). A User's Guide to Support Vector Machines. Methods in Molecular Biology, 609, 223-239.

[11] Steinwart, I., & Christmann, A. (2008). Support Vector Machines. Springer.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Makine öğrenmesi ve veri madenciliği

Problemler Sınıflandırma Kümeleme Regresyon Anomali tespiti Association rules Pekiştirmeli öğrenme Yapılandırılmış tahmin Öznitelik mühendisliği Öznitelik öğrenmesi Öznitelik çıkarımı Online öğrenme Yarı-gözetimli öğrenme Gözetimsiz öğrenme Sıralama öğrenme Gramer Tümevarımı
Gözetimli öğrenme Karar ağacı Birlik öğrenmesi k-YK Doğrusal regresyon Naive Bayes Sinir ağları Lojistik regresyon Relevance vector machine (RVM) Support vector machine (SVM) Rastgele orman
Kümeleme BIRCH Hiyerarşik k-means Beklenti maksimizasyon DBSCAN OPTICS Mean-shift
Boyut indirgeme Faktör analizi CCA ICA LDA NMF PCA t-SNE
Yapılandırılmış tahmin Grafiksel modeller (Bayes ağları, CRF, HMM)
Anomali tespiti k-NN Local outlier factor
Sinir ağları Perseptron Otokodlayıcı Derin öğrenme RNN LSTM Kısıtlı Boltzmann makinesi SOM Kıvrımlı sinir ağları
Pekiştirmeli öğrenme Q-Learning SARSA Temporal Difference (TD)
Teori Bias-variance ikilemi Hesaplamalı öğrenme teorisi Empirik risk minimizasyonu Occam learning PAC learning İstatistiki öğrenme teorisi VC theory
Konferanslar ve dergiler NIPS ICML ML JMLR ArXiv:cs.LG