İçeriğe atla

Kelime çantası modeli

Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin (cümle ya da belge gibi bir metin) kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası göz ardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.[1]

Kelime çantası modeli belge sınıflandırma yöntemlerinde yaygınca kullanılır: her kelimenin oluşu (sıklığı) bir sınıflandırıcının eğitilmesinde özellik olarak kullanılır.

Kelime çantasına dilbilimsel bağlamda erken bir atıf Zellig Harris'in Dağıtımsal Yapı üzerine 1954 makalesinde bulunabilir.[2]

Örnek

Burada bir metin belgesini kelime çantası kullanarak modelliyoruz.

İşte iki tane basit metin belgesi:

(1) Can film seyretmeyi sever. Meryem de filmleri sever.
(2) Can futbol maçı seyretmeyi de sever.

Bu iki metin belgesine dayanarak şöyle bir liste oluşturulur:

[
    "Can",
    "film",
    "futbol",
    "maçı",
    "seyretmeyi",
    "sever",
    "Meryem",
    "de",
    "filmleri"
]

Uygulama

Pratik kullanımda kelime çantası modeli çoğu zaman özellik üretme aracı olur.

Metni "kelime çantasın" dönüştürdükten sonra, metnin karakterini verecek çeşitli nicelikler hesaplayabiliriz. Kelime çantası modelinden hesaplanan en yaygın karakteristik tipi ya da özellik, terim sıklığıdır, yani o terimin metinde kaç kez geçtiğidir. Yukarıdaki örnekte her bir ayrı kelimenin terim sıklıklarını şu iki listeyi oluşturarak kaydedebiliriz.

(1) [1, 1, 0, 0, 1, 2, 1, 1, 1]
(2) [1, 0, 1, 1, 1, 1, 0, 1, 0]

Listelerdeki her bir girdi listedeki mütekabil girdinin sayısını belirtir (buna histogram temsili de denir). Örneğin, birinci (belge 1'i temsil eden) listede, ilk iki girdi "1,2"dir. İlk girdi "Can" kelimesine tekabül eder, o da listedeki ilk kelimedir ve değeri "1"dir çünkü "Can" birinci belgede 1 kere geçer. Bunun gibi, ikinci girdi "film" kelimesine tekabül eder, o da listedeki ikinci kelmedir ve değeri "1"dir çünkü "film" ilk belgede 1 kere geçer. Bu liste (ya da vektör) temsili kelimelerin kaynak cümlelerdeki sırasını muhafaza etmez, bu da kelime çantası modelinin temel özelliğidir. Bu tür temsillerin birçok başarılı uygulaması vardır, örneğin e-posta filtreleme.[1]

Fakat terim sıklıkları illaki en iyi metin temsili değildir. "O", "bir", "ve" gibi yaygın kelimeler neredeyse hep metindeki en yüksek terim sıklığına sahiptir, demek ki çok sayıda olmak tekabül eden kelimenin daha önemli olduğunu göstermez. Bu problemi ele alarak terim sıklıklarını "normalleştirmenin" en sevilen yollarından birisi, terimleri belge sıklığının tersiyle ağırlıklandırmaktır, buna da tf-idf denir. Buna ek olarak, sınıflandırma amacına yönelik belgenin sınıf etiketini dikkate alan süpervizeli alternatifler geliştirilmiştir.[3] Son olarak, bazı problemlerde sıklıklar yerine ikili (varlık/yokluk ya da 1/0) ağırlıklar kullanılır. (Mesela WEKA makine öğrenmesi yazılım sisteminde bu seçenek konmuştur.)

N-gram modeli

Kelime çantası modeli sırasız bir belge temsilidir—kelimelerin sadece sayısına bakılır. Mesela yukarıdaki örnekte "Can film seyretmeyi sever. Meryem de filmleri sever", kelime çantası modeli bu metinde her cümlenin "sever" yüklemiyle bittiğini ortaya çıkarmayacaktır. Alternatif olarak, metindeki bu uzamsal enformasyonu saklamakta n-gram modeli kullanılabilir. Yukarıdaki aynı örneğe uygulanarak, bigram modeli metni şu birimlere çözdürecek ve her birimdeki terim sıklıklarını önceki gibi saklayacaktır.

[
    "Can film",
    "film seyretmeyi",
    "seyretmeyi sever",
    "Meryem de",
    "de filmleri",
    "filmleri sever"
]

Kavram olarak kelime çantası modelini n-gram modelin n=1 için özel durumu gibi görebiliriz. Daha detaylı tartışma dil modelinde okunabilir.

Karım dolabı [Hashing trick]

Sözlük kullanımının yaygın bir alternatifi karım dolabıdır: kelimeler doğrudan bir karım işleviyle [hashing function] endekslere eşlenir.[4] Kelimelerin endekslere bir karım işleviyle doğrudan eşlenmesiyle, sözlük saklayacak belleğe hiç gerek kalmaz. Karım çakışmaları olduğunda çoğu zaman boşaltılmış bellek kullanılarak karım kovalarının sayısı çoğaltılır. Pratikte, karım, kelime çantası modellerinin kodlanmasını müthiş basitleştirir ve ölçeklenebilirliğini geliştirir.

Örnek kullanım: spam süzgeci

Bayesci spam süzgecinde, e-posta mesajı iki olasılık dağılımının birinden seçilen kelimelerin sırasız derlemesi gibi modellenir: biri spamleri, öbürü meşru e-postaları ("ham") temsil eder. Kelimelerle dolu iki tane çanta hayal edin. Çantaların biri spam mesajlarda bulunan kelimelerle doludur, diğer çanta meşru e-postalarda bulunan kelimelerle doludur. Verilen herhangi bir kelimenin iki çantada da bulunması muhtemel olsa da, "spam" çantası "borsa", "Viagra", "satın al" gibi spamvari kelimeleri çok daha sıklıkla içerecektir, "ham" çantası ise kullanıcının arkadaşları ve işyeriyle ilgili kelimeleri daha çok içerecektir.

E-posta mesajını sınıflandırmak için, Bayesci spam süzgeci bu mesajın iki çantanın birinden rastgele dökülmüş bir kelimeler yığını olduğunu varsayar ve Bayesci olasılıkları kullanarak hangi çantanın daha muhtemel olduğunu belirler.

Kaynakça

  1. ^ a b Sivic, Josef (Nisan 2009). "Efficient visual search of videos cast as text retrieval" (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE. ss. 591-605. 22 Şubat 2016 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 15 Ağustos 2016. 
  2. ^ Harris, Zellig (1954). "Distributional Structure". Word. 10 (2/3). ss. 146-62. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use 
  3. ^ Youngjoong Ko (2012). "A study of term weighting schemes using class information for text classification". SIGIR'12. ACM. 
  4. ^ Weinberger, K. Q.; Dasgupta A.; Langford J.; Smola A.; Attenberg, J. (2009). "Feature hashing for large scale multitask learning,". Proceedings of the 26th Annual International Conference on Machine Learning. ss. 1113-1120. arXiv:0902.2206 $2. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Spam</span>

Spam ya da istenmeyen mesaj, e-posta, telefon, faks gibi elektronik ortamlarda çok sayıda alıcıya aynı anda gönderilen gereksiz veya uygunsuz iletidir. En yaygın spam türleri reklamlar ve ilanlardır. Elektronik posta (e-posta), internetin en eski iletişim araçlarından birisidir. E-posta, fiziksel, alışılagelmiş posta alımı ya da gönderiminin elektronik olanı ve internet üzerinden gerçekleştirilen, düşük maliyetli ve hızlı olanıdır. Güvenlik, kimlik denetimi gibi gereklilikler göz önünde bulundurulmamıştır ve bu yüzden e-posta altyapısı günümüzde internette büyük problemlere yol açmaktadır.

SMTP, bir e-posta göndermek için sunucu ile istemci arasındaki iletişim şeklini belirleyen protokoldür. Farklı işletim sistemleri için geliştirilmiş e-posta protokolleri bulunmaktadır. Bu e-posta protokollerinin SMTP'ye geçit yolu (gateway) vardır. SMTP, Aktarım Temsilcisi ve Kullanıcı Temsilcisi yazılımları arasındaki iletişimi sağlar. TCP'nin üst katmanında çalışır.

<span class="mw-page-title-main">Dilbilim</span> insan dilinin araştırılması

Dilbilim, dil bilimi, lengüistik ya da lisaniyat; dilleri dilbilgisi, söz dizimi (sentaks), ses bilgisi (fonetik), ses bilimi (fonoloji), biçimbilim (morfoloji) ve edimbilim (pragmatik) gibi çeşitli yönlerden yapısal, anlamsal ve bildirişimin çıkış bağlamını temel alarak sözlerin gönderimlerini ve iletişimde dilin yaptırım gücünü inceleyen bilim dalıdır.

Allah'ın isimleri, İslam toplumunda, Kur'an ve hadislerde Allah'a izâfe edilen fiil veya sıfatlardan türetilmiş veya doğrudan Allah'ı ifade amacıyla kullanılmış olan isimlerdir. Yalnızca Kur'an'da geçen ilahi isimler yüzden fazlayken hadislerde Allah'a atfedilen başka isimler de bulunmaktadır. Geniş anlamıyla esmâü'l-hüsnâ kavramı bu adların hepsini kapsasa da terim anlamıyla daha çok doksan dokuz ismi içerdiği kabul edilir ve buna mukabil Türkçede çoğunlukla Allah'ın 99 ismi şeklinde bilinir.

<span class="mw-page-title-main">Sezar şifrelemesi</span> Basit, bilinen ve sıkça kullanılmış bir şifre türü

Kriptografide, Sezar şifresi, kaydırma şifresi, Sezar kodu veya Sezar kaydırması olarak da bilinen Sezar şifrelemesi, en basit ve en yaygın bilinen şifreleme tekniklerinden biridir. Bu, düz metindeki her harfin alfabede belirli sayıda pozisyondaki bir harfle değiştirildiği bir yerine koyma şifrelemesi türüdür. Örneğin, 3'lük bir sola kaydırma ile D, A ile değiştirilir, E, B olur ve bu böyle devam eder. Bu yöntem adını özel yazışmalarında bu şifrelemeyi kullanan Romalı lider Julius Caesar'dan almıştır.

<span class="mw-page-title-main">Hristiyan</span> Hristiyanlık dinine mensup kimse

Hristiyanlar, İsa Mesih'in yaşamına ve öğretilerine dayanan tek tanrılı bir İbrahimi din olan Hristiyanlığı takip eden veya ona bağlı kalan insanlardır. Hristiyan sözcüğü, Kutsal Kitap'taki İbranice terim māšîaḥ'ın (מָשִׁיחַ) çevirisi olan Koine Grekçesindeki Kıristós'tan (Χριστός) türetilmiştir.

<i>Fargo</i> (film)

Fargo; senaryosu, yapımı ve yönetimi Coen Kardeşler'e ait, 1996 yapımı Amerikan sinema filmi.

<span class="mw-page-title-main">Microsoft Outlook</span> Microsoft Officele birlikte veya tek başına kullanılabilen, kişisel bilgi yöneticisi

Microsoft Outlook Microsoft tarafından üretilen, Microsoft Office'le birlikte veya tek başına kullanılabilen, kişisel bilgi yöneticisi. Mevcut son sürümü Windows için Microsoft Outlook 2013, Mac için ise 2011'dir. Ocak 2015'te Microsoft, Office 365 ile Telefon ve Tabletler için Outlook'u Outlook Mobile'ni yayınladı. Bu, e-posta, takvim ve kişilerle bu platformların ilk Outlook'u oldu.

<span class="mw-page-title-main">Naive Bayes sınıflandırıcısı</span>

Naïve Bayes sınıflandırıcı, örüntü tanıma problemine ilk bakışta oldukça kısıtlayıcı görülen bir önerme ile kullanılabilen olasılıksal bir yaklaşımdır. Bu önerme, örüntü tanımada kullanılacak her bir tanımlayıcı öznitelik ya da parametrenin istatistik açıdan bağımsız olması gerekliliğidir. Her ne kadar bu önerme Naive Bayes sınıflandırıcının kullanım alanını kısıtlasa da istatistik bağımsızlık koşulu esnetilerek kullanıldığında da daha karmaşık yapay sinir ağları gibi metotlarla karşılaştırabilir sonuçlar vermektedir. Bir Naive Bayes sınıflandırıcı, her özniteliğin birbirinden koşulsal bağımsız olduğu ve öğrenilmek istenen kavramın tüm bu özniteliklere koşulsal bağlı olduğu bir Bayes ağı olarak da düşünülebilir.

Merkle-Hellman kripto sistemi, 1978 yılında Martin Hellman ve Ralph Merkle tarafından geliştirilen ilk açık anahtarlı kriptosistemlerden biridir. RSA'dan daha hızlı gerçekleştirilebilmesine rağmen Adi Shamir tarafından 1982'de güvensiz olduğu gösterilmiştir.

<span class="mw-page-title-main">Vigenère şifrelemesi</span> bir kriptoloji yöntemi

Vigenère şifrelemesi, alfabetik bir şifreleme metni kullanarak bir dizi farklı Sezar şifrelemesine dayalı harfleri kullanan bir şifreleme yöntemidir. Bu bir çeşit poli alfabetik ikame tablosudur.

iOS 5 2011 mobil işletim sistemi

İOS 5 iOS sürümünün Apple tarafından yaratılan ve geliştirilen 5. versiyonu olan mobil işletim sistemidir.

Beyaz liste, belirli bir ayrıcalığın, hizmetin, hareketliliğin, erişimin veya tanımın sağlandığı varlıkların listesi ya da kaydıdır. Listedeki varlıklar uygun bulunmuş ve/veya tanınacaktır. Beyaz liste; reddedilen, tanınmayan veya dışlanmış varlıkları belirleme uygulaması olan kara listeye alınmanın tersidir.

<span class="mw-page-title-main">Nokia 6233</span>

Nokia 6233 Nokia tarafından 2005 yılının dördüncü çeyreğinde piyasaya sunulan ve Nokia 6000 serisi'ne ait cep telefonu idi. Seri 40 sisteminde çalıştı. Nokia 6230 modelinin devamı, Nokia 6120 classic ve Nokia 6500 classic modelinin öncülüdür.

Serbest hatırlama, belleğin psikolojik açıdan çalışılmasında kullanılan temel bir paradigmadır. Bu modelde, katılımcılar her bir denemedeki ögelerin bir listesini inceler ve ardından onlardan ögeleri herhangi bir sırada hatırlamaları istenir. Ögeler kişilere genellikle birer birer, kısa süreli olarak sunulur ve bu ögeler adlandırılabilen herhangi bir materyal grubundan seçilebilir. Hatırlama süresi tipik olarak birkaç dakika sürer ve sözlü veya yazılı hatırlamayı içerir. Standart model, listedeki son ögeden hemen sonra başlayan hatırlama süresini içerir; bu, gecikmiş serbest hatırlama (DFR) 'dan ayırt etmek için anında serbest hatırlama (IFR) olarak adlandırılabilir. Gecikmeli serbest hatırlama işleminde, listedeki son öge ile hatırlama sürecinin başlangıcı arasında dikkat dağıtıcı kısa bir süre yer alır. Bu bağlamda hem anında serbest hatırlama hem de gecikmeli serbest hatırlama, hatırlama testleri sırasında ortaya çıkan ilklik etkisi ve sonluk etkisi gibi belirli etkileri test etmek için kullanılmıştır.

<span class="mw-page-title-main">Bayesci istatistik</span>

Bayesci istatistik, Bayesyen istatistik veya Bayesgil istatistik, olasılığın bir olaya olan inancın bir derecesini ifade ettiği Bayesci olasılık yorumuna dayanan istatistik alanındaki bir teoridir. İnanç derecesi, önceki deneylerin sonuçları gibi olay hakkında önceki bilgilere veya olayla ilgili kişisel inançlara dayanabilir. Bu, olasılığı birçok denemeden sonra bir olayın göreceli sıklığının sınırı olarak gören sıklıkçı olasılık yorumlaması gibi bir dizi başka olasılık yorumundan farklıdır.

E-posta filtreleme, belirli kriterlere göre e-postaların düzenlenmesi için işleme konmasıdır. Bu terim insan müdahalesi ile gerçekleştirilebileceği gibi, genellikle bir SMTP sunucusunda otomatik olarak işlenen ve anti-spam teknikleri uygulanan mesajlar için kullanılır. Filtreleme, gelen e-postaların yanı sıra giden e-postalara da uygulanabilir.

Otomatik özetleme, yapay zekâ ve doğal dil işleme tekniklerini kullanarak metinlerin ana fikirlerini ve önemli bilgilerini otomatik olarak çıkarma ve kısaltma işlemidir. Bu işlem, insan müdahalesi olmadan metnin özünü yakalayan kısa ve öz bir özet oluşturmayı amaçlar.

Rekabetçi Bilgi Erişimi, bilgi erişim sistemlerine yönelik saldırıları veya manipülasyonları tanımlayan bir kavramdır. Bu saldırılar genellikle bilgi arama motorlarını, web spamini ve arama motoru optimizasyonunu (SEO) hedef alır. Rekabetçi bilgi erişimi, bu tür manipülasyonları tespit etmek, izole etmek ve engellemek için çeşitli tekniklerin araştırıldığı bir alandır.

<span class="mw-page-title-main">Kod (kriptografi)</span> tek tek semboller veya sabit boyutlu bloklar yerine anlamsal belirteçler üzerinde çalışan şifre

Kriptolojide kod, anlam düzeyinde çalışan bir mesajı şifrelemek için kullanılan bir yöntemdir; yani, kelimeler veya ifadeler başka bir şeye dönüştürülür. Bir kod "change" kelimesini "CVGDK" ya da "cocktail lounge" kelimesine dönüştürebilir. ABD Ulusal Güvenlik Ajansı bir kodu şöyle tanımlamıştır: "Açık metin öğelerinin esas olarak sözcükler, ifadeler veya cümleler olduğu ve kod eşdeğerlerinin tipik olarak aynı uzunlukta anlamsız kombinasyonlardaki harflerden veya rakamlardan oluştuğu bir ikame şifre sistemi (kriptosistem)dir." İfadeleri veya kelimeleri şifrelemek ve şifrelerini çözmek için bir kod kitabı gereklidir.