İçeriğe atla

Zipf yasası

Zipf yasası
Olasılık kütle fonksiyonu
N=10 için Zipf olasılık kütle fonksiyonu (OKF)
;;N=10 için Zipf OKF log–log ıskalası üzerindedir. Yatay eksen k endeksidir. (Fonksiyonun k nin sadece tam sayı değerleri ile tanımlandığına dikkat etmek gerekmektedir. Grafikteki noktaların birbirlerine doğrular parçaları ile bağlanmaları devamlılık ifade etmemelidir.) )
Yığmalı dağılım fonksiyonu
N=10 için Zipf olasılık yığmalı dağılım fonksiyonu (OKF)Fonksiyonun k nin sadece tam sayı değerleri ile tanımlandığına dikkat etmek gerekmektedir. Grafikteki noktaların birbirlerine doğrular parçaları ile bağlanmaları devamlılık ifade etmemelidir. )
Parametreler (reel)
(tam sayı)
Destek
Olasılık kütle fonksiyonu (OYF)
Birikimli dağılım fonksiyonu (YDF)
Ortalama
Medyan
Mod
Varyans
Çarpıklık
Fazladan basıklık
Entropi
Moment üreten fonksiyon (mf)
Karakteristik fonksiyon

Zipf yasası veya dilde tutumluluk yasası, matematiksel istatistik bilimi kullanılarak ortaya çıkartılan bir empirik yasa olarak formüle edilmiştir. Yasaya ad olarak, 1930'da Amerika'da Harvard Üniversitesi'nde dilbilim profesörü olan George Kingsley Zipf tarafından yayımlanması üzerine, onun adı verilmiştir.[1][2] Bu empirik yasa herhangi bir insan dili ile yazılmış bir metinde bulunan sözcüklerin sıklılıkları hakkındadır.

Bu yasa daha önce de Alman Felix Auerbach tarafından 1913'te yayımlanmıştır. Ama bu yayımda yapılan sıralama dünya șehirlerinin nüfus itibarıyla sıralanması idi.[3] Fransız stenografi uzmanı Jean-Baptiste Estoup (1868-1950) de metinlerde bulunan sözcüklerinin sistemik sıklıkları hakkında Zipf'den önce yayım yapmıştır.[4] Bu sıralamalar şirket büyüklükleri sıralamaları, gelir sıralamaları vb. için de uygulanmıştır. Benoît Mandelbrot bu yasayı genelleştirmiştir.

Zipf yasasının niçin insan dillerinin çoğunda uygulanabileceği bilinmemektedir.[5]

Basit tanımlama ve örnekler

Dilbilimde bu yasaya göre herhangi bir yazılı metinde geçen sözcükler azalan sıklığa göre (yani en çok kullanılandan en az kullanılana doğru) sıralanırsa, elde edilen sıralama listesindeki tek bir sözcüğün sıra numarası ile o sözcüğün sıklık sayısı her zaman sabit bir sayı olur. Bu daha kolayca, sıra numarası N olan bir sözcük için sıklığın 1/N olması şeklinde ifade edilebilir. Böylece en fazla sıklıkla kullanılan sözcük ikinci sırada sıklıkla kullanılan sözcükten 2 misli daha fazla, üçüncü sıradaki sözcükten 3 misli daha fazla kullanılır.

Bir diğer örnek olarak 10 sözcükten oluşan bir metin dili ele alındığı kabul edilsin ve bu metin dilinde hazırlanan tüm metinlerde en fazla sayda kullanılan sözcüğün 100 defa kullanıldığı kabul edilsin; bu halde yapılan en sık kullanılandan az sık kullanılan sözcüğe göre yapılan sözcük sıralaması (Zipf yasası'na göre) şöyle olacaktır:
1. sözcük => 100/1 = 100
2. sözcük => 100/2 = 50
3. sözcük => 100/3 = 33,3
4. sözcük => 100/4 = 25
5. sözcük => 100/5 = 20
6. sözcük => 100/6 = 16,6
7. sözcük => 100/7 = 14,3
8. sözcük => 100/8 = 12,5
9. sözcük => 100/9 = 11,1
10. sözcük => 100/10= 10

Bu örnekte görüldüğü gibi sıralamadaki ilk sözcüklerin sıklığı diğerlerine göre çok daha fazla olarak gözlenmekte, diğer tüm sözcükler gittikçe azalan sayılarda gözlenmektedir.

İrlandalı yazar James Joyce'un "Ulyses" adlı İngilizce romanının ana metinindeki sözcüklerin sıklılıklarının sıralanması.

George Kingsley Zipf, İrlandalı yazar James Joyce'un 2 Şubat 1922'de yayınlanan Ulysses adlı romanını ayrıntılı incelemiş ve bu romanda bulunan sözcüklerin sıklığını ve bu sıklığın sıralanmasını bulmuştur. Bu araştırmaya göre

  • en fazla sıklıkla kullanılan sözcük 8.000 defa kullanılmış;
  • sıklık sıralamasında 10. olan sözcük 800 defa kullanılmış;
  • sıklık sıralamasında 100. olan sözcük 80 defa kullanılmış;
  • sıklık sıralamasında 1000. olan sözcük 8 defa kullanılmıştır.

Günümüzde bilgisayarlar kullanılarak eldeki en büyük yazılı metinlerde bile sözcük sıralama araştırması birkaç saniyeyi aşmamaktadır ve bunlardan genelleme yapılırsa herhangi bir yazılı metinde gözlenmektedir ki sırası N olan bir sözcük için sıralama fonksiyonu f(N) şu Zipf yasasına uymaktadır:
burada K bir sabittir.

Zipf yasasının uygulanması en kolay bir şekilde sıralama sıklıklar verisinin bir log-log eksenli grafikte gösterilmesi ve bu verilere doğrusal regresyon tatbiki olmaktadır. Herhangi değişken bir sıralama verisi için; R=sıralama sayıları; N: sıralama sıklığı ve a ve b doğrusal regresyon katsayıları olup
log R = a - b log N
Regresyon doğrusu uygulanırsa ve eğer b=1 bulunursa, verilerin Zipf yasasına uygunluğu kabul edilmesi gerekir.

2004'te yapılan ve dünya şehirlerinin nüfusları sıralamasına uygulanan bir araştırmada genel olarak b = 1.07 bulunmuştur.[6] Tüm dağılımın log-normal dağılımın uygunluğu ve üst kuyruk verilerinin ise Zipf yasasına uyduğu görülmüştür. Bu çalışmaya göre "the" sözcüğü için
x = log(1) ve y = log(69971).

Teorik gelişme

Bu yasaya göre fiziksel bilimler ve sosyal bilimlerde incelenen verilerin çoğunluğu ayrık üstel yasa olasılık dağılımına ilişkili olan bir Zipf dağılımı yaklaşık olarak ifade edilir. Formel olarak; şu ifadeleri kullanalım:

  • N elemanlar sayısı;
  • k elemanların sıralaması;
  • s dağılımı karakterize eden üssel değer

Zipf yasası N sayıda elemanı bulunan bir ana kitle için, k sıralama numarası gösteren elemanların dağılımını f(k;s,N) fonksiyonu şöyle ifade eder:

Eğer her elemanın ortaya çıkma sıklığı da sayıları birbirinden bağımsız ve bir üstel yasa dağılımı, yani

, gösteren birbiryle tüm olarak aynı olan dağılım gösteren rassal değişkenler ise Zipf yasası geçerlidir.[7]

İngilizce dilinde bulunan sözcükler örneğine göre N İngilizce dilinde bulunan sözcük sayısı olursa ve klasik Zipf yasası kullanılırsa s in üssel değeri 1 olur. O zaman f(ks,N) en çok kullanılan sözcüğün kullanılma oranını ifade eder.

Zipf yasası şu şekilde de ifade edilebilir:

burada HN,s Ninci genelleştirilmiş harmonik sayı olur.

İstatistiksel açıklama

Wentian Li bu yasanın rassal olarak yaratılmış olan metinlerin istatistiksel analizi ile de kısmen açıklanabileceğini iddia etmektedir. Bir ayrık tekdüze dağılım gösteren alfabede bulunan her harfi (ve boşluk ifade eden karakteri) kapsayan bir kütleden rassal olarak seçilen her bir karakteri ihtiva eden bir metinde bulunan sözcüklerin (yaklaşık olarak log-log eksenli bir grafikte yaklaşık olarak doğrusal görünerek) Zipf yasasına uygunluklarını göstermiştir.[8]

Vitold Belevitch ise çok sayıda iyice belirtilebilen istatistiksel dağılımı (sadece normal dağılımı değil) ele alıp bunların bir sıralamasını yapmıştır. Sonra her bir ifadeyi bir Taylor serisi olarak genişletmiştir. Çok dikkat çekici bir sonuç olarak incelendiği her halde elde edilen Taylor serisinin birinci-sıra kesiminin Zipf Yasası'na ve ikinci-sıra kesiminin ise Zipf-Mandelbrot Yasası'na uygun oldukları görülmektedir.[9][10]

Zipf'in şahsi açıklaması belirlenmiş bir insan dilini konuşanların ve bu dille yazarların ifade ettiklerinin anlaşılabilmesi için yaklaşık olarak eşit dağılımlı efor sarf etmekten fazla uğraşmaktan sakınmaktadırlar. Bu gereken eforun fazlasından kaçınmak Zipf Yasası'nın gözlenmesine neden olmaktadır.[11]

Ayrıca bakınız

Kaynakça

  1. ^ Zipf George K. (1935). The psychology of language.Cambridge, Mass.: Houghton-Mifflin.
  2. ^ Zipf George K. (1949). Human behavior and the principle of least effort. Addison-Wesley.
  3. ^ Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
  4. ^ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, say. 24
  5. ^ Brillouin, Léon [1959] 2004. La science et la théorie de l'information.
  6. ^ Eeckhout J. (2004), "Gibrat's law for (All) Cities." American Economic Review C.94(5), say.1429-1451.
  7. ^ Adamic, Lada A. "Zıpf, Üstel-yasalar ve Pareto - bir sıralama ders notu" 26 Ekim 2007 tarihinde Wayback Machine sitesinde arşivlendi.
  8. ^ Li, Wentian (1992). "Random Texts Exhibit Zıpf's-Law-Like Word Frequency Distribution" (PDF). IEEE Transactions on Information Theory. 38 (6). ss. 1842-1845. doi:10.1109/18.165464. 31 Ağustos 2012 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 19 Kasım 2012. 
  9. ^ Belevitch, Vitold (1959), "On the statistical laws of linguistic distributions", Annales de la Soçiété Scientifique de Bruxelles C.73 seri İ say.310-326.
  10. ^ "Statistical metalinguistics and Zıpf/Pareto/Mandelbrot" SRİ International Computer Science Laboratory 5 Haziran 2011 tarihinde Wayback Machine sitesinde arşivlendi., erişim: 29 Mayıs 2011.
  11. ^ Zipf, George K. (1969). Human Behavior and the Principle of Least Effort, Cambridge, Mass, Addison-Wesley, s. 1

Dış bağlantılar

İlgili Araştırma Makaleleri

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Sıralama algoritması</span>

Sıralama algoritması, bilgisayar bilimlerinde ya da matematikte kullanılan, verilen bir listenin elemanlarını belirli bir sıraya sokan algoritmadır. En çok kullanılan sıralama türleri, sayı büyüklüğüne göre sıralama ve alfabetik sıralamadır. Sıralama işleminin verimli yapılması, arama ve birleştirme algoritmaları gibi çalışması için sıralanmış dizilere gereksinim duyan algoritmaların başarımının yüksek olması için önemlidir. Sıralama algoritmaları bilgisayarlarda tutulan verilerin düzenlenmesini ve insan kullanıcı tarafından daha rahat algılanmasını da sağlar.

Rassal değişken kavramının geliştirilmesi ile, sezgi yoluyla anlaşılan şans kavramı, soyutlaştırarak teorik matematik analiz alanına sokulmuş ve bu geliştirilen matematik kavram ile olasılık kuramı ve matematiksel istatistiğin temeli kurulmuştur.

Merkezi limit teoremi büyük bir sayıda olan bağımsız ve aynı dağılım gösteren rassal değişkenlerin aritmetik ortalamasının, yaklaşık olarak normal dağılım göstereceğini ifade eden bir teoremdir. Matematiksel bir ifadeyle, bir merkezi limit teoremi olasılık kuramı içinde bulunan bir zayıf yakınsama sonucu setidir. Bunların hepsi, birçok bağımsız aynı dağılım gösteren rassal değişkenlerin herhangi bir toplam değerinin limitte belirli bir "çekim gücü gösteren dağılıma" göre dağılım gösterme eğiliminde olduğu gerçeğini önerir.

<span class="mw-page-title-main">Binom dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, binom dağılımı n sayıda iki kategori (yani başarı/başarısızlık, evet / hayır, 1/0 vb) sonucu veren denemelere uygulanır. Araştırıcının ilgi gösterdiği kategori başarı olarak adlandırılır. Bu türlü her bir deneyde, bağımsız olarak, başarı (=evet=1) olasılığının p olduğu (ve yalnızca iki kategori sonuç mümkün olduğu için başarısızlık olasılığının 1 - p olduğu) bilinir. Bu türlü bağımsız n sayıda denemeler serisi içinde elde edilen başarı sayısının ayrık olasılık dağılımı binom dağılım olarak tanımlanır. Bir binom dağılım sadece iki parametre ile, yani n ve p ile tam olarak tanımlanır. Matematik notasyon olarak bir rassal değişken X binom dağılım gösterirse şöyle ifade edilir:

X ~ B(n,p)
<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

Bir olasılık dağılımı bir rassal olayın ortaya çıkabilmesi için değerleri ve olasılıkları tanımlar. Değerler olay için mümkün olan tüm sonuçları kapsamalıdır ve olasılıkların toplamı bire eşit olmalıdır. Örneğin, bir rassal olay olarak madeni paranın tek bir defa havaya atılıp yere düşmesi ele alınsın; değerler 'yazı' veya 'tura' veya bunlar isimsel değişken ölçeğinde ifade edilirse 0 (yazı) veya 1 (tura) olur; olasılıklar ise her iki değer için ½ olacaktır. Böylece madeni bir paranın tek bir defa atılma olayı için iki değer ve ilişkili iki olasılık bu rassal olayın olasılık dağılımı olur. Bu dağılım ayrık olasılık dağılımıdır; çünkü sayılabilir şekilde ayrı ayrı sonuçlar ve bunlara bağlı olan pozitif olasılıklar vardır.

<span class="mw-page-title-main">Zeta dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, zeta dağılımı bir ayrık olasılık dağılımıdır. Eğer X s parametresi ile zeta dağılımı gösteren bir bir rassal değişken ise, Xin k tam sayısı değerini almasının olasılığı şu olasılık kütle fonksiyonu ile belirtilir:

<span class="mw-page-title-main">Çarpıklık</span>

Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.

<span class="mw-page-title-main">Gamma dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında gamma dağılımı iki parametreli bir sürekli olasılık dağılımıdır. Bu parametrelerden biri ölçek parametresi θ; diğeri ise şekil parametresi k olarak anılır. Eğer k tam sayı ise, gamma dağılımı k tane üstel dağılım gösteren rassal değişkenlerin toplamını temsil eder; rassal değişkenlerin her biri nin üstel dağılımı için parametre olur.

<span class="mw-page-title-main">Tekdüze dağılım (sürekli)</span> Özel olasılık dağılımı

Sürekli tekdüze dağılım (İngilizce: continuous uniform distribution) olasılık kuramı ve istatistik bilim dallarında, her elemanı, olasılığın desteklendiği aynı büyüklükteki aralık içinde bulunabilir, her sürekli değer için aynı sabit olasılık gösteren bir olasılık dağılımları ailesidir. Desteklenen aralık iki parametre ile, yani minimum değer a ve maksimum değer b ile, tanımlanmaktadır. Bu dağılım kısa olarak U(a,b) olarak anılır.

<span class="mw-page-title-main">Laplace dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Laplace dağılımı Pierre-Simon Laplace anısına isimlendirilmiş bir sürekli olasılık dağılımıdır. Arka arkaya birbiriyle yapıştırılmış şekilde ve bir de konum parametresi dahil edilerek birleştirilmiş iki üstel dağılımdan oluştuğu için, çift üstel dağılımı adı ile de anılmaktadır. İki bağımsız ve tıpatıp aynı şekilde üstel dağılım gösteren bir rassal değişken bir Laplace dağılımı ile işlev görürler. Bu, aynen üstel dağılım gösteren rassal zamanda değerlendirilen Brown devinimine benzer.

Olasılık teorisi ya da ihtimaliyet teorisi rastgele olayların analizi ile ilgilenen bir matematik bilim dalıdır. Olasılık teorisinin ana ögeleri rassal değişkenler, saf rassal süreçler, olaylar olarak sayılabilir. Bunlar ya tek olarak ortaya çıkan veya bir zaman dönemi içinde gelişerek meydana gelen, ilk görünüşü rastgele bir şekilde olan deterministik olmayan olayların veya ölçülebilir miktarların matematiksel soyutlamalarıdır. Bir madeni parayı yazı-tura denemesi için havaya atmak veya bir zarı atmak ile ortaya çıkan sonuç ilk bakışta rastgele bir olay olarak görülebilirse bile eğer birbirini takip eden rastgele olaylar tekrar tekrar ortaya çıkartılırsa incelenebilecek ve tahmin edilebilecek belirli bir istatistiksel seyir takip ettikleri görülecektir. Bu türlü olaylar ve sonuçların seyirlerini betimleyen iki temsilci matematiksel sonuç büyük sayılar yasası ve merkezsel limit teoremidir.

<span class="mw-page-title-main">Log-normal dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında log-normal dağılım logaritması normal dağılım gösteren herhangi bir rassal değişken için tek-kuyruklu bir olasılık dağılımdır. Eğer Y normal dağılım gösteren bir rassal değişken ise, bu halde X= exp(Y) için olasılık dağılımı bir log-normal dağılımdır; aynı şekilde eğer X log-normal dağılım gösterirse o halde log(X) normal dağılım gösterir. Logaritma fonksiyonu için bazın ne olduğu önemli değildir: Herhangi iki pozitif sayı olan ab ≠ 1 için eğer loga(X) normal dağılım gösterirse, logb(X) fonksiyonu da normaldir.

<span class="mw-page-title-main">Pareto dağılımı</span>

Pareto dağılımı, olasılık kuramı ve istatistik bilim dallarında birçok pratik uygulaması bulunan ve "küçük" bir nesnenin bir "büyük" nesneye dağılımında kararlılık elde edildiği hallerde kullanılan bir sürekli olasılık dağılımı veya bir güç kuramıdır. İlk olarak bir İtalyan iktisatçısı olan Vilfredo Pareto tarafından ekonomilerde bireylerin servet dağılımını göstermek için kullanılmıştır. İktisat bilim dalı dışında bu dağılım Bradford dağılımı adı altında da bilinmektedir.

Pareto ilkesi, çoğu olay için, etkilerin kabaca %80'inin etkenlerin %20'sinden kaynaklandığını belirtir. İş yönetimi düşünürü Joseph Juran bu ilkeyi önermiş ve İtalya'daki arazilerin yaklaşık %80'inin, nüfusun %20'sine ait olduğunu gözleyen İtalyan ekonomist Vilfredo Pareto'nun adıyla isimlendirmiştir.

Medyan bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.

<span class="mw-page-title-main">Parametre</span> belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik

Parametre belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik. Parametre, sistemi tanımlarken veya performansını, durumunu değerlendirirken yararlı veya kritik olan bir sistem unsurudur.