İçeriğe atla

N-gram

7 Mayıs 2020 itibarıyla Coronavirus hastalığı 2019 (COVID-19) hakkındaki yayınların başlıklarında sıklıkla altı n-gram bulundu.

Hesaplamalı dilbilim ve olasılık alanlarında, bir n-gram (bazen Q-gram olarak da adlandırılır), belirli bir metin veya konuşma örneğinden n öğenin bitişik bir dizisidir. Öğeler uygulamaya göre fonemler, heceler, harfler, kelimeler veya baz çiftleri olabilir. n-gramlar tipik olarak bir metinden veya konuşma korpusundan toplanır. Öğeler kelimeler olduğunda, n-gramlar zona olarak da adlandırılabilir.[1]

Latin sayısal önekleri kullanıldığında, 1 boyutundaki bir n-gram "unigram" olarak adlandırılır; boyut 2 bir "bigram"dır (veya daha az yaygın olarak bir "digram"); boyut 3 bir "trigram" dır. İngilizce ana sayılar bazen kullanılır, örneğin "dört gram", "beş gram" vb. Hesaplamalı biyolojide, bilinen boyuttaki bir polimer veya oligomer, "monomer", "dimer", "trimer", "tetramer", "pentamer" vb. veya İngilizce ana sayılar, "one-mer", "two-mer", "three-mer" vb.

Uygulamalar

Bir n-gram modeli, (n − 1) düzeyli Markov modeli biçiminde böyle bir dizideki bir sonraki öğeyi tahmin etmeye yönelik bir tür olasılıksal dil modelidir.[2] n-gram modelleri artık olasılık, iletişim teorisi, hesaplamalı dilbilim (Örneğin, istatistiksel doğal dil işleme ), hesaplamalı biyoloji (örneğin, biyolojik dizi analizi) ve veri sıkıştırmada yaygın olarak kullanılmaktadır. n-gram modellerinin (ve bunları kullanan algoritmaların) iki avantajı basitlik ve ölçeklenebilirliktir - daha büyük n ile bir model, iyi anlaşılmış bir uzay-zaman dengesi ile daha fazla bağlam depolayabilir ve küçük deneylerin verimli bir şekilde ölçeklenmesini sağlar.

Örnekler

Şekil 1 çeşitli disiplinlerden n -gram örnekleri
Tarla Birim Örnek dizi 1 gramlık dizi 2 gramlık dizi 3 gramlık dizi
yerel ad unigram bigram trigram
Elde edilen Markov modelinin sırası 0 1 2
Protein dizilimiamino asit. . . Cys-Gly-Leu-Ser-Trp . . . . . ., Cys, Gly, Leu, Ser, Trp, . . . . . ., Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, . . . . . ., Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, . . .
DNA dizilimiçift bazlı. . . AGCTTCGA. . . . . ., A, G, C, T, T, C, G, A, . . . . . ., AG, GC, CT, TT, TC, CG, GA, . . . . . ., AGC, GCT, CTT, TTC, TCG, CGA, . . .
Hesaplamalı dilbilimleri karakter...olmak ya da olmamak. . . ..., olmak ya da olmamak, . . . ..., to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, . . . ..., to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, . . .
Hesaplamalı dilbilimleri kelime... olmak ya da olmamak . . . ..., olmak ya da olmamak, . . . ..., olmak, olmak ya da olmamak, olmamak, olmak, . . . ..., olmak ya da olmamak ya da olmamak, olmamak, . . .

Şekil 1 birkaç örnek diziyi ve karşılık gelen 1-gram, 2-gram ve 3-gram dizilerini göstermektedir.

İşte diğer örnekler; bunlar Google n-gram korpusundan kelime düzeyinde 3 gram ve 4 gramdır (ve göründükleri sayı sayılarıdır).[3]

3 gram

  • seramik koleksiyon parçaları (55)
  • seramik koleksiyon parçaları para cezası (130)
  • (52) tarafından toplanan seramikler
  • seramik koleksiyon çömlekleri (50)
  • seramik koleksiyon yemek pişirme (45)

4 gram

  • gelen olarak hizmet et (92)
  • kuluçka makinesi olarak hizmet et (99)
  • bağımsız olarak hizmet et (794)
  • indeks olarak hizmet et (223)
  • gösterge görevi görür (72)
  • gösterge görevi görür (120)

n-gram modelleri

Bir n-gram modeli dizileri, özellikle doğal diller, n-gramların istatistiksel özelliklerini kullanarak modeller.

Bu fikrin izini Claude Shannon'ın bilgi teorisindeki çalışmasıyla bir deneye kadar takip etmek mümkündür. Shannon şu soruyu sordu: bir harf dizisi verildiğinde (örneğin, "eski için" dizisi), bir sonraki harfin olasılığı nedir? Eğitim verilerinden, büyüklük geçmişi verilen bir sonraki harf için bir olasılık dağılımı elde edilebilir. : a = 0.4, b = 0.00001, c = 0, ....; tüm olası "sonraki harflerin" olasılıklarının toplamı 1.0'dır.

Daha kısaca, bir n-gram modeli tahmin eder dayalı . Olasılık açısından, bu . Dil modelleme için kullanıldığında, bağımsızlık varsayımları yapılır, böylece her kelime yalnızca son n'ye bağlıdır. - 1 kelime. Bu Markov modeli, gerçek temel dilin bir yaklaşımı olarak kullanılır. Bu varsayım önemlidir, çünkü dil modelini verilerden tahmin etme problemini büyük ölçüde basitleştirir. Ek olarak, dilin açık doğası nedeniyle, dil modelinin bilmediği kelimeleri birlikte gruplamak yaygındır.

Basit bir n-gram dil modelinde, önceki birkaç kelimeye (bigram modelinde bir kelime, trigram modelinde iki kelime, vb.) koşullu bir kelimenin olasılığının, kategorik bir dağılımın ardından tanımlanabileceğini unutmayın. (genellikle kesin olmayan bir şekilde "çok terimli dağılım" olarak adlandırılır).

Pratikte, olasılık dağılımları, görünmeyen kelimelere veya n-gramlara sıfır olmayan olasılıklar atanarak düzeltilir; bkz. yumuşatma teknikleri.

Sözdizimsel n-gramların başka bir türü, metnin konuşma bölümü dizilerinden çıkarılan sabit uzunlukta bitişik örtüşen alt diziler olarak tanımlanan konuşma bölümü n-gramlarıdır. Konuşma bölümü n-gramlarının, en yaygın olarak bilgi almada olmak üzere birkaç uygulaması vardır.[4]

Ayrıca bakınız

Uygulamalar ve düşünceler

n-gram modelleri istatistiksel doğal dil işlemede yaygın olarak kullanılmaktadır. Konuşma tanımada, sesbirimler ve sesbirim dizileri bir n-gram dağılımı kullanılarak modellenir. Ayrıştırma için kelimeler, her n-gram n kelimeden oluşacak şekilde modellenir. Dil tanımlaması için, farklı diller için karakter/grafem dizileri (örneğin, alfabenin harfleri) modellenmiştir. Karakter dizileri için, "günaydın"dan oluşturulabilen 3 gram (bazen "trigram" olarak anılır) "goo", "ood", "od", "dm", "mo", "mor" şeklindedir. " vb., boşluk karakterini gram olarak sayma (bazen bir metnin başı ve sonu, "_ ⁠_g", "_go", "ng_" ve "g_ ⁠_" eklenerek açıkça modellenir). Kelime dizileri için, "köpek kokarca gibi kokuyordu" dan üretilebilecek trigramlar (zona) "# köpek", "köpek kokuyordu", "köpek kokuyordu", "gibi kokuyordu", "gibi bir kokarca" ve "bir kokarca #".

Ayrıca bakınız

Konuyla ilgili yayınlar

  • Christopher D. Manning, Hinrich Schütze, İstatistiksel Doğal Dil İşlemenin Temelleri, MIT Press: 1999.0-262-13360-1ISBN'si 0-262-13360-1 .
  • Frederick J. Damerau, Markov Modelleri ve Dil Teorisi . Mouton. Lahey, 1971.

Kaynakça

  1. ^ Broder (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. 29 (8): 1157-1166. doi:10.1016/s0169-7552(97)00031-7. 
  2. ^ "Archived copy". 1 Ocak 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Ocak 2017. 
  3. ^ Alex Franz and Thorsten Brants (2006). "All Our N-gram are Belong to You". Google Research Blog. 17 Ekim 2006 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2011. 
  4. ^ Lioma (2008). "Part of Speech n-Grams and Information Retrieval" (PDF). French Review of Applied Linguistics. XIII (1): 9-22. 13 Mart 2018 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 12 Mart 2018 – Cairn vasıtasıyla. 

Dış bağlantılar

Şablon:Natural Language Processing

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Türk alfabesi</span> Türkçenin yazımında kullanılan alfabe

Türk alfabesi, Türkçenin yazımında kullanılan Latin alfabesi temelli alfabedir. 1 Kasım 1928 tarihli ve 1353 sayılı yasayla tespit ve kabul edilmiştir.

<span class="mw-page-title-main">Fince</span> Sondan eklemeli Finlandiyanın resmi dili

Fince (

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Monte Carlo yöntemi</span>

Monte Carlo benzetimi, çok sayıda tekrarlanan rastgele örneklemelerle, bir takım nümerik sonuçlar elde etmeye yarayan ve bilimin birçok alanında yaygın olarak kullanılan bir sayısal hesaplama algoritmaları sınıfıdır. Stokastik olayların yer aldığı fiziksel süreçlerin sonuçlarının tahmin edilmesinde çok kullanışlıdır. Ayrıca, rastgele seçimlerin işe yaradığı ve prensipte deterministik olan bir takım problemlerin çözümünde de kullanılmaktadır. Monte-Carlo yöntemi, Nicholas Constantine Metropolis (1915-1999) tarafından bulunmuştur ve Atom bombasının geliştirildiği Los Alamos Ulusal Labratuvarında, bombanın patlamasından sonra dağılan nötronlara karşı kalkan modellemek için Stanislaw Ulam tarafından günümüze taşınmıştır.

Olasılık teorisi ya da ihtimaliyet teorisi rastgele olayların analizi ile ilgilenen bir matematik bilim dalıdır. Olasılık teorisinin ana ögeleri rassal değişkenler, saf rassal süreçler, olaylar olarak sayılabilir. Bunlar ya tek olarak ortaya çıkan veya bir zaman dönemi içinde gelişerek meydana gelen, ilk görünüşü rastgele bir şekilde olan deterministik olmayan olayların veya ölçülebilir miktarların matematiksel soyutlamalarıdır. Bir madeni parayı yazı-tura denemesi için havaya atmak veya bir zarı atmak ile ortaya çıkan sonuç ilk bakışta rastgele bir olay olarak görülebilirse bile eğer birbirini takip eden rastgele olaylar tekrar tekrar ortaya çıkartılırsa incelenebilecek ve tahmin edilebilecek belirli bir istatistiksel seyir takip ettikleri görülecektir. Bu türlü olaylar ve sonuçların seyirlerini betimleyen iki temsilci matematiksel sonuç büyük sayılar yasası ve merkezsel limit teoremidir.

Olasılık kuramı ve istatistik bilim dallarında bir rassal değişken X için olasılık yoğunluk fonksiyonu bir reel sayılı sürekli fonksiyonu olup f ile ifade edilir ve şu özellikleri olması gereklidir:

Matematikte, Markov Zinciri, Markov özelliğine sahip bir stokastik süreçtir. Markov özelliğine sahip olmak, mevcut durum verildiğinde, gelecek durumların geçmiş durumlardan bağımsız olması anlamına gelir. Bir başka deyişle, mevcut durumun açıklaması, sürecin gelecekteki evrimini etkileyebilecek tüm bilgiyi kapsar. Gelecek durumlara belirli bir şekilde değil, olasılıksal bir süreçle ulaşılacaktır.

Betimsel istatistikte çeyrekler açıklığı sıralanmış bir veri dizisinin orta yarısını (%50'sini) kapsayan ve üçüncü dörtte birlik ve birinci dörtte birlik aralığını veya farkını gösteren bir istatistiksel yayılma ölçüsüdür. Birinci dörtte birlik sıralanmış veri dizisinin ilk %25'inden büyük ve üçüncü dörtte birlik sıralanmış veri dizisinin %25'inden daha küçük olduğu için, bu iki dörtte birlik arasında kalan veri yüzdesi %50'dir. Çeyrekler açıklığı ölçüm birimi veri ölçüm birimi ile aynıdır. İngilizcesi IQR'dir.

İstatistiksel makine çevirisi, iki dilli metin derlemlerinin incelenmesinden elde edilen parametrelerin kullanıldığı istatistiksel modelleri içeren bir makine çevirisi yaklaşımıdır. İstatiksel çeviri yöntemi, makine çevirisi disiplini içerisinde kural tabanlı makine çevirisi ve örnek tabanlı makine çevirisi yaklaşımlarına göre farklılık gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

<span class="mw-page-title-main">Bayes ağı</span>

Bir Bayes ağı, Bayes modeli ya da olasılıksal yönlü dönüşsüz çizge modeli bir olasılıksal çizge modelidir ve birbirleriyle koşulsal bağımlılıklara sahip bir rassal değişkenler kümesini yönlü dönüşsüz çizge(YDÇ) şeklinde ifade eder. Bayes ağları; gündelik hayatta meydana gelen bir olayı anlatmak ve o olayın gerçekleşmesine sebebiyet verebileceği bilinen birkaç olası nedenden herhangi birinin katkıda bulunan faktör olma olasılığını tahmin etmek için kullanılan ideal bir modelleme türüdür. Örneğin, bir Bayes ağı kullanılarak hastalıklar ve semptomları arasındaki olasılıksal koşul ilişkileri modellenebilir. Bu model kullanılarak, bir kişide görülen semptomlar verildiğinde bu kişinin bazı hastalıklara sahip olma olasılıkları hesaplanabilir. Buna benzer olarak neden-sonuç ilişkisi olan birçok olayın olasılığı bu modelleme ile görselleştirilebilir.

<span class="mw-page-title-main">Kelime çantası modeli</span>

Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası göz ardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.

<span class="mw-page-title-main">Parametre</span> belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik

Parametre belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik. Parametre, sistemi tanımlarken veya performansını, durumunu değerlendirirken yararlı veya kritik olan bir sistem unsurudur.

Stokastik süreç, Stokastik işlemi, zaman veya mekana göre değişen/evrilen olguları tanımlamak için kullanılan bir olasılık modelidir. Daha kapsamlı olarak, olasılık teorisinde, stokastik süreç, değişimi rastgele bir varyasyona bağlı olan bir değişken tarafından temsil edilen bazı sistemlerin gelişimini yansıtan bir zaman dizisidir. Bu, belirleyici süreç anlamına gelen deterministik sürecin olasılıkçı muadilidir. Sadece tek yönlü olarak değişebilen bir süreci tasvir etmek yerine bir stokastik veya rastgele süreçte, bazı belirsizlikler vardır. Hatta başlangıçtaki durum biliniyor olsa dahi sürecin gelişebileceği/değişebileceği bazı yönler vardır. Birçok stokastik süreçte, bir sonraki duruma veya konuma geçiş, yalnızca mevcut duruma bağlıdır ve işlemin önceki durumlarından veya değerlerinden bağımsızdır.

<span class="mw-page-title-main">Rastgele yürüyüş</span>

Rastgele yürüyüş (ya da rassal yürüyüş) matematiksel bir nesne olup, bir stokastik veya rastgele süreç olarak bilinir. Bu süreç, herhangi bir matematiksel uzayda –örneğin tamsayılar uzayı–atılan rastgele adımların toplamından oluşan patikayı tanımlamaya yöneliktir. Örneğin, bir molekülün sıvı veya gaz içerisinde izlediği yol, hayvanların yem arayışında takip ettiği patika, değişkenlik gösteren hisse fiyatları ve de bir borsa oyuncusunun finansal durumu rastgele yürüyüş modelleri ile tahmin edilebilir; ancak gerçekte tamamen rastlantısal olmama ihtimalleri de vardır. Bu örneklerin de gösterdiği gibi, rastgele yürüyüş modelinin birçok bilim dalında uygulama alanı mevcuttur; ekoloji, psikoloji, bilgisayar bilimleri, fizik, kimya, biyoloji ve ekonomi bunlara örnektir.

<span class="mw-page-title-main">Bayesci istatistik</span>

Bayesci istatistik, Bayesyen istatistik veya Bayesgil istatistik, olasılığın bir olaya olan inancın bir derecesini ifade ettiği Bayesci olasılık yorumuna dayanan istatistik alanındaki bir teoridir. İnanç derecesi, önceki deneylerin sonuçları gibi olay hakkında önceki bilgilere veya olayla ilgili kişisel inançlara dayanabilir. Bu, olasılığı birçok denemeden sonra bir olayın göreceli sıklığının sınırı olarak gören sıklıkçı olasılık yorumlaması gibi bir dizi başka olasılık yorumundan farklıdır.

İkidillilikte sözcük erişimi, ikidilli insanlar için zihinsel sözlüğün etkinleştirilmesi veya geri alınması sürecini inceleyen bir psikodilbilim alanıdır.

Dil modeli, kelimelerin dizileri üzerinde bir olasılık dağılımıdır. Herhangi bir uzunluktaki m kelimeler dizisi verildiğinde, bir dil modeli, tüm dizinin olasılığına bir olasılık atar .

Otomatik özetleme, yapay zekâ ve doğal dil işleme tekniklerini kullanarak metinlerin ana fikirlerini ve önemli bilgilerini otomatik olarak çıkarma ve kısaltma işlemidir. Bu işlem, insan müdahalesi olmadan metnin özünü yakalayan kısa ve öz bir özet oluşturmayı amaçlar.