İçeriğe atla

Naive Bayes sınıflandırıcısı

Bayes teoremi

Naïve Bayes sınıflandırıcı, örüntü tanıma problemine ilk bakışta oldukça kısıtlayıcı görülen bir önerme ile kullanılabilen olasılıksal bir yaklaşımdır. Bu önerme, örüntü tanımada kullanılacak her bir tanımlayıcı öznitelik ya da parametrenin istatistik açıdan bağımsız olması gerekliliğidir. Her ne kadar bu önerme Naive Bayes sınıflandırıcının kullanım alanını kısıtlasa da istatistik bağımsızlık koşulu esnetilerek kullanıldığında da daha karmaşık yapay sinir ağları gibi metotlarla karşılaştırabilir sonuçlar vermektedir. Bir Naive Bayes sınıflandırıcı, her özniteliğin birbirinden koşulsal bağımsız olduğu ve öğrenilmek istenen kavramın tüm bu özniteliklere koşulsal bağlı olduğu bir Bayes ağı olarak da düşünülebilir.

Naïve Bayes sınıflandırıcısı adını İngiliz matematikçi Thomas Bayes'ten (yak. 1701 - 7 Nisan 1761) almaktadır.

Bayes teoremi

Naive Bayes sınıflandırıcısı Bayes teoreminin bağımsızlık önermesiyle basitleştirilmiş halidir. Bayes teoremi aşağıdaki denklemle ifade edilir;

P(A|B) ; B olayı gerçekleştiği durumda A olayının meydana gelme olasılığıdır (bakınız koşullu olasılık)
P(B|A) ; A olayı gerçekleştiği durumda B olayının meydana gelme olasılığıdır
P(A) ve P(B) ; A ve B olaylarının önsel olasılıklarıdır.

Burada önsel olasılık Bayes teoreminine öznellik katar. Diğer bir ifadeyle örneğin P(A) henüz elde veri toplanmadan A olayı hakkında sahip olunan bilgidir. Diğer taraftan P(B|A) ardıl olasılıktır çünkü veri toplandıktan sonra, A olayının gerçekleşmiş olduğu durumlarda B olayının gerçekleşme ihtimali hakkında bilgi verir.[1]

Sınıflandırma problemi

Naive Bayes Sınıflandırması Makine öğreniminde öğreticili öğrenme alt sınıfındadır. Daha açık bir ifadeyle sınıflandırılması gereken sınıflar(kümeler) ve örnek verilerin hangi sınıflara ait olduğu bellidir. E-posta kutusuna gelen e-postaların spam olarak ayrıştırılması işlemi buna örnek verilebilir. Bu örnekte spam e-posta ve spam olmayan e-posta ayrıştırılacak iki sınıfı temsil eder. Elimizdeki spam ve spam olmayan e-postalardan yaralanarak gelecekte elimize ulaşacak e-postaların spam olup olmadığına karar verecek bir Algoritma da öğreticili makine öğrenmesine örnektir.

Sınıflandırma işleminde genel olarak elde bir örüntü (pattern) vardır. Buradaki işlem de bu örüntüyü daha önceden tanımlanmış sınıflara sınıflandırmaktır. Her örüntü nicelik (feature ya da parametre) kümesi tarafından temsil edilir.

Nicelik kümesi

Yine yukarıda bahsedilen spam e-posta örneğinden devam edilecek olunursa; Posta kutumuzda bulunan spam e-postaları spam olmayan e-postalardan ayıran parametrelerden oluşan bir küme, mesela ikramiye,ödül gibi sözcüklerden oluşan, nicelik kümesine örnektir. Matematiksel bir ifadeyle nicelik kümesi;

,

ise
∈ RL L-boyutlu nicelik vektörünü oluşturur.


x ∈ RL verildiğine göre ve S ayrıştırılacak sınıflar kümesiyse, Bayes teoremine göre aşagıdaki ifade yazılır.


ve

  • P(Si); Si'nin öncel olasılığı i = 1, 2, . . ., L,
  • P(Si|x); Si'nin ardıl olasılığı
  • p(x); x in Olasılık yoğunluk fonksiyonu (oyf)
  • p(x|Si); i =1 = 2, . . ., L, x'in koşullu oyf'si

Bayes karar teoremi

Elimizde sınıfı belli olmayan bir örüntü olsun. Bu durumda

∈ RL

sınıfı belli olmayan örüntünün L-boyutlu nicelik vektörüdür. Spam e-posta örneğinden gidecek olursak spam olup olmadığını bilmediğimiz yeni bir e-posta sınıfı belli olmayan örüntüdür.
Yine Si x'in atanacağı sınıf ise;
Bayes karar teorisine göre x sınıf Si'ya aittir eğer

, ∀j

diğer bir ifadeyle eğer

, ∀j

Naive Bayes sınıflandırması

Verilen bir x'in (x = [x(1), x(2), . . ., x(L)]T ∈ RL) sınıf Si'ye ait olup olmadığına karar vermek için kullanılan yukarıda formüle edilen Bayes karar teoreminde istatistik olarak bağımsızlık önermesinden yararlanılırsa bu tip sınıflandırmaya Naive bayes sınıflandırılması denir. Matematiksel bir ifadeyle

, ∀j
ifadesindeki
terimi yeniden aşağıdaki gibi yazılır

böylece Bayes karar teoremi aşagıdaki şekli alır. Bayes karar teorisine göre x sınıf Si'ya aittir eğer

ve ) i ve j sınıflarının öncel olasılıklarıdır. Elde olan veri kümesinden değerleri kolayca hesaplanabilir.

Naive bayes sınıflandırıcının kullanım alanı her ne kadar kısıtlı gözükse de yüksek boyutlu uzayda ve yeterli sayıda veriyle x'in (nicelik kümesi) bileşenlerinin istatistik olarak bağımsız olması koşulu esnetilerek başarılı sonuçlar elde edilebilinir.[2]

Uygulama alanları

Naive Bayes sınıflandırıcısı genel olarak veri madenciliğinde, biyomedikal mühendisliği alanında, hastalıkların ya da anormalliklerin tıbbi tanımlanmasında (otomatik olarak mühendislik ürünü tıbbi cihazlar tarafından tanı konulması),[3]elektrokardiyografi (EKG) grafiğinin sınıflandırılmasında,[4] elektroensefalografi (EEG) grafiklerinin ayrıştırılmasında,[5] genetik araştırmalarında,[6] yığın mesaj tanımlanmasında,[7] metin ayrıştırılmasında,[8] ürün sınıflandırma[9] ve diğer bazı alanlarda kullanılır.

Ayrıca bakınız

Kaynakça

  • Theodoridis, Sergios and Koutroumbas, Konstantinos. Patern Recognition. San Diego : Academic Press, 2006.
  • Rouveirol, edited by Claire Nellec, Cine. Machine Learning: ECML-98 10th European Conference on Machine Learning Chemnitz, Germany, April 2123, 1998 Proceedings. Berlin: Springer-Verlag. ISBN 978-3-540-69781-7.
  • Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997

Notlar

  1. ^ Pawlak, Zdzisław. "A Rough Set View on Bayes' Theorem" (PDF) (İngilizce). 2 Nisan 2016 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 3 Kasım 2012. 
  2. ^ "Bayes Sınıflandırıcısı" (PDF). 11 Mart 2016 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 3 Kasım 2012. 
  3. ^ Lakoumentas, John (1 Ekim 2012). "Optimizations of the naïve-Bayes classifier for the prognosis of B-Chronic Lymphocytic Leukemia incorporating flow cytometry data". Computer Methods and Programs in Biomedicine. 108 (1). ss. 158-167. doi:10.1016/j.cmpb.2012.02.009. 
  4. ^ Wiggins, M. (31 Aralık 2007). "Evolving a Bayesian classifier for ECG-based age classification in medical applications". Applied Soft Computing. 8 (1). ss. 599-608. doi:10.1016/j.asoc.2007.03.009. 
  5. ^ Wang, Z (2011). "An EEG workload classifier for multiple subjects". Conference proceedings : ... Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Conference. Cilt 2011. ss. 6534-7. PMID 22255836. 
  6. ^ Malovini, Alberto (1 Ocak 2012). "Hierarchical Naive Bayes for genetic association studies". BMC Bioinformatics. 13 (Suppl 14). ss. S6. doi:10.1186/1471-2105-13-S14-S6. 
  7. ^ Almeida, Tiago A. (1 Aralık 2010). "Spam filtering: how the dimensionality reduction affects the accuracy of Naive Bayes classifiers". Journal of Internet Services and Applications. 1 (3). ss. 183-200. doi:10.1007/s13174-010-0014-7. 
  8. ^ Sebastiani, edited by Fabrizio (2003). Advances in Information Retrieval 25th European Conference on IR Research, ECIR 2003, Pisa, Italy, April 14-16, 2003. Proceedings. Berlin, Heidelberg: Springer-Verlag Berlin Heidelberg. ss. 335-350. ISBN 978-3-540-36618-8. 
  9. ^ "Naive Bayes ile ürün sınıflandırma örneği". 1 Eylül 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Ekim 2020. 

Dış bağlantılar

Naive Bayes örneği (python)
Naive Bayes (matlab)23 Ekim 2012 tarihinde Wayback Machine sitesinde arşivlendi.
Naive Bayes ile ürün sınıflandırma örneği (C++)1 Eylül 2018 tarihinde Wayback Machine sitesinde arşivlendi.

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Spam</span>

Spam ya da istenmeyen mesaj, e-posta, telefon, faks gibi elektronik ortamlarda çok sayıda alıcıya aynı anda gönderilen gereksiz veya uygunsuz iletidir. En yaygın spam türleri reklamlar ve ilanlardır. Elektronik posta (e-posta), internetin en eski iletişim araçlarından birisidir. E-posta, fiziksel, alışılagelmiş posta alımı ya da gönderiminin elektronik olanı ve internet üzerinden gerçekleştirilen, düşük maliyetli ve hızlı olanıdır. Güvenlik, kimlik denetimi gibi gereklilikler göz önünde bulundurulmamıştır ve bu yüzden e-posta altyapısı günümüzde internette büyük problemlere yol açmaktadır.

Matematiksel mantık, biçimsel mantığın matematiğe uygulanmasıyla ilgilenen bir matematik dalıdır. Metamatematik, matematiğin temelleri ve kuramsal bilgisayar bilimi alanlarıyla yakınlık gösterir. Matematiksel mantığın temel konuları biçimsel sistemlerin ifade gücünün ve biçimsel ispat sistemlerinin tümdengelim gücünün belirlenmesidir.

<span class="mw-page-title-main">PageRank</span>

PageRank, Google tarafından geliştirilen ve web sayfalarının önemini belirlemek için kullanılan bir algoritmadır. İnternet üzerindeki bağlantıların analiz edilmesiyle hesaplanan Pagerank değeri Google Arama sonuçlarında sayfaların sıralanması için kullanılan faktörlerden biridir.

<span class="mw-page-title-main">Küme</span> matematiksel anlamda tanımsız bir kavramdır. Bu kavram "nesneler topluluğu veya yığını" olarak yorumlanabilir.

Küme, matematikte farklı nesnelerin topluluğu veya yığını olarak tanımlanmaktadır. Bu tanımdaki "nesne" soyut ya da somut bir şeydir. Fakat her ne olursa olsun iyi tanımlanmış olan bir şeyi, bir eşyayı ifade etmektedir. Örneğin, "Tüm canlılar topluluğu", "Dilimiz alfabesindeki harflerin topluluğu", "Masamın üzerindeki tüm kâğıtlar" tümcelerindeki nesnelerin anlaşılabilir, belirgin oldukları, kısaca iyi tanımlı oldukları açıkça ifade edilmektedir. Dolayısıyla bu tümcelerin her biri bir kümeyi tarif etmektedir. O halde, matematikte "İyi tanımlı nesnelerin topluluğuna küme denir." biçiminde bir tanımlama yapılmaktadır.

<span class="mw-page-title-main">Binom dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, binom dağılımı n sayıda iki kategori (yani başarı/başarısızlık, evet / hayır, 1/0 vb) sonucu veren denemelere uygulanır. Araştırıcının ilgi gösterdiği kategori başarı olarak adlandırılır. Bu türlü her bir deneyde, bağımsız olarak, başarı (=evet=1) olasılığının p olduğu (ve yalnızca iki kategori sonuç mümkün olduğu için başarısızlık olasılığının 1 - p olduğu) bilinir. Bu türlü bağımsız n sayıda denemeler serisi içinde elde edilen başarı sayısının ayrık olasılık dağılımı binom dağılım olarak tanımlanır. Bir binom dağılım sadece iki parametre ile, yani n ve p ile tam olarak tanımlanır. Matematik notasyon olarak bir rassal değişken X binom dağılım gösterirse şöyle ifade edilir:

X ~ B(n,p)
<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Laplace dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Laplace dağılımı Pierre-Simon Laplace anısına isimlendirilmiş bir sürekli olasılık dağılımıdır. Arka arkaya birbiriyle yapıştırılmış şekilde ve bir de konum parametresi dahil edilerek birleştirilmiş iki üstel dağılımdan oluştuğu için, çift üstel dağılımı adı ile de anılmaktadır. İki bağımsız ve tıpatıp aynı şekilde üstel dağılım gösteren bir rassal değişken bir Laplace dağılımı ile işlev görürler. Bu, aynen üstel dağılım gösteren rassal zamanda değerlendirilen Brown devinimine benzer.

Bayes teoremi, olasılık kuramı içinde incelenen önemli bir konudur. Bu teorem bir rassal değişken için olasılık dağılımı içinde koşullu olasılıklar ile marjinal olasılıklar arasındaki ilişkiyi gösterir. Bu şekli ile Bayes teoremi bütün istatistikçiler için kabul edilir bir ilişkiyi açıklar. Bu kavram için Bayes kuralı veya Bayes savı veya Bayes kanunu adları da kullanılır.

Olasılık kuramı ve istatistik bilim dallarında birikimli dağılım fonksiyonu bir reel değerli rassal değişken olan Xin olasılık dağılımını tümüyle tanımlayan bir fonksiyondur. Olasılık dağılım fonksiyonu veya sadece dağılım fonksiyonu olarak da anılmaktadır. Her bir reel sayı olan x için X'in birikimli dağılım fonksiyonu şöyle ifade edilir:

<span class="mw-page-title-main">Cebirsel topoloji</span>

Cebirsel topoloji, topolojik uzayları cebirsel gereç ve yöntemlerle inceleyen matematik dalı. Matematikte bir kümenin üzerine döşenecek yapı, yönelinen matematik dalını belirler. Bir kümeye bir ya da birkaç işlem konarak sayılar kuramı ya da cebir yapmaya başlanabilir. Kümenin üzerine bir topoloji koyaraksa topoloji ve, ayrıca uzunluk koyarsak, geometri yapmaya başlanır. Üzerine topoloji konmuş bir uzayı incelemek için kimi cebirsel, aritmetik veya topolojik değişmezler tanımlanır; bunlar aracılığıyla topolojik uzayın özellikleri ayırdedilir. Örneğin tıkızlık, bağlantılılık, sayılabilirlik bu tür değişmezlerdir. Topolojik eşyapısal iki uzaydan biri bu değişmeze sahipse diğeri de buna sahip olmalıdır. Yani, eğer iki uzay için ayrı ayrı bakılan bir değişmez aynı değilse, bu iki uzay eşyapısal olmayacaktır. Yukarıda anılan en eski değişmezlerin hemen ardından inşa edilen klasik değişmezler cebirsel olanlardır.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Önsel olasılık*, Bayesci İstatistikte gözlemlere atıf yapmadan önce değerlendirilen özellikle öznel olabilen olasılıktır. Tecrübeye dayalı olasılık olarak da adlandırılır. Örneğin bir hasta hekim ziyaretinde yorgunluktan şikayet ediyor ve böbrek taşı geçmişi var. Fakat paratiroid hastalığını işaret eden başka fiziksel belirtileri (semptomlar) yok. Bu durumda hekim hastanın hiperparatiroidizm olma olasılığının düşük olduğuna karar verir. Bu örnekte hekimin kullandığı olasılık gözlemlere önsel 'dir dolayısıyla önsel olasılıktır. Önsel olasılık istatistikte tanı testlerinin değerlendirilmesinde kullanılır.

<span class="mw-page-title-main">Bayes ağı</span>

Bir Bayes ağı, Bayes modeli ya da olasılıksal yönlü dönüşsüz çizge modeli bir olasılıksal çizge modelidir ve birbirleriyle koşulsal bağımlılıklara sahip bir rassal değişkenler kümesini yönlü dönüşsüz çizge(YDÇ) şeklinde ifade eder. Bayes ağları; gündelik hayatta meydana gelen bir olayı anlatmak ve o olayın gerçekleşmesine sebebiyet verebileceği bilinen birkaç olası nedenden herhangi birinin katkıda bulunan faktör olma olasılığını tahmin etmek için kullanılan ideal bir modelleme türüdür. Örneğin, bir Bayes ağı kullanılarak hastalıklar ve semptomları arasındaki olasılıksal koşul ilişkileri modellenebilir. Bu model kullanılarak, bir kişide görülen semptomlar verildiğinde bu kişinin bazı hastalıklara sahip olma olasılıkları hesaplanabilir. Buna benzer olarak neden-sonuç ilişkisi olan birçok olayın olasılığı bu modelleme ile görselleştirilebilir.

<span class="mw-page-title-main">Kelime çantası modeli</span>

Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası göz ardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.

Stokastik süreç, Stokastik işlemi, zaman veya mekana göre değişen/evrilen olguları tanımlamak için kullanılan bir olasılık modelidir. Daha kapsamlı olarak, olasılık teorisinde, stokastik süreç, değişimi rastgele bir varyasyona bağlı olan bir değişken tarafından temsil edilen bazı sistemlerin gelişimini yansıtan bir zaman dizisidir. Bu, belirleyici süreç anlamına gelen deterministik sürecin olasılıkçı muadilidir. Sadece tek yönlü olarak değişebilen bir süreci tasvir etmek yerine bir stokastik veya rastgele süreçte, bazı belirsizlikler vardır. Hatta başlangıçtaki durum biliniyor olsa dahi sürecin gelişebileceği/değişebileceği bazı yönler vardır. Birçok stokastik süreçte, bir sonraki duruma veya konuma geçiş, yalnızca mevcut duruma bağlıdır ve işlemin önceki durumlarından veya değerlerinden bağımsızdır.

<span class="mw-page-title-main">Rastgele yürüyüş</span>

Rastgele yürüyüş (ya da rassal yürüyüş) matematiksel bir nesne olup, bir stokastik veya rastgele süreç olarak bilinir. Bu süreç, herhangi bir matematiksel uzayda –örneğin tamsayılar uzayı–atılan rastgele adımların toplamından oluşan patikayı tanımlamaya yöneliktir. Örneğin, bir molekülün sıvı veya gaz içerisinde izlediği yol, hayvanların yem arayışında takip ettiği patika, değişkenlik gösteren hisse fiyatları ve de bir borsa oyuncusunun finansal durumu rastgele yürüyüş modelleri ile tahmin edilebilir; ancak gerçekte tamamen rastlantısal olmama ihtimalleri de vardır. Bu örneklerin de gösterdiği gibi, rastgele yürüyüş modelinin birçok bilim dalında uygulama alanı mevcuttur; ekoloji, psikoloji, bilgisayar bilimleri, fizik, kimya, biyoloji ve ekonomi bunlara örnektir.

Temel oran ihmali, temel oran yanılgısı, temel oran yanlılığı olarak da adlandırılabilen temel oran safsatası, biçimsel bir mantık safsatasıdır. Konuyla ilgili temel oran bilgisi, daha spesifik başka bilgilerle birlikte verildiğinde insan aklı, temel oran bilgisini ihmal edip sadece spesifik bilgilere odaklanarak çıkarım yapma eğilimindedir. Temel oran ihmali, daha genel olan genişleme ihmalinin özel bir biçimidir.

<span class="mw-page-title-main">Bayesci istatistik</span>

Bayesci istatistik, Bayesyen istatistik veya Bayesgil istatistik, olasılığın bir olaya olan inancın bir derecesini ifade ettiği Bayesci olasılık yorumuna dayanan istatistik alanındaki bir teoridir. İnanç derecesi, önceki deneylerin sonuçları gibi olay hakkında önceki bilgilere veya olayla ilgili kişisel inançlara dayanabilir. Bu, olasılığı birçok denemeden sonra bir olayın göreceli sıklığının sınırı olarak gören sıklıkçı olasılık yorumlaması gibi bir dizi başka olasılık yorumundan farklıdır.

E-posta filtreleme, belirli kriterlere göre e-postaların düzenlenmesi için işleme konmasıdır. Bu terim insan müdahalesi ile gerçekleştirilebileceği gibi, genellikle bir SMTP sunucusunda otomatik olarak işlenen ve anti-spam teknikleri uygulanan mesajlar için kullanılır. Filtreleme, gelen e-postaların yanı sıra giden e-postalara da uygulanabilir.