İçeriğe atla

Basıklık

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık (İngilizce: kurtosis) kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır.[1] Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Basıklık tanımlaması

Dördüncü standarize edilmiş moment şöyle tanımlanır;

Burada μ4 dördüncü ortalama etrafındaki moment ve σ standart sapmadır. Biraz eski istatistik kitaplarında bazen bu ifade basıklık tanımlaması olarak kullanılmaktaydı.

Daha alışılagelmiş bir şekilde basıklık, bir olasılık dağılımının "dördüncü kümülant değeri bölü varyans karesi" olarak şöyle tanımlanır:

Bu bir ölçü olarak kullanılırsa basıklık fazlalığı olarak bilinir. Formülün son terimi olan eksi 3 çok kere basıklık tanımlama formülüne yapılan bir ayarlama olarak açıklanır. Bu ayarlama sayesinde, normal eğrisinin basıklık ölçüsü değeri sıfır olur.

Bu ayarlamanın yapılmasının diğer bir nedeni ise birkaç rassal değişken toplamı için basıklık ölçüsünü incelemekle açıklanır. Ölçü kümülant kullanılarak tanımlandığı için eğer Y rassal değişkeni n tane istatistiksel bağımsız ve her biri aynı dağılım gösteren Xlerin bir toplamı ise; o halde

Basıklık[Y] = Basıklık[X] / n,

olacaktır ve bu basit bir ortalama gibi görünüş verir. Bir genel ifade ile X1, ..., Xn rassal değişkenin hepsi aynı varyansa sahipler ve ayni dağılım gösterirlerse, toplam rassal değişken Y için basıklık şu olur:

Eğer ayar yapılmasa ve hatta dördüncü moment ölçü formülü olarak kullanılırsa idi bu basit toplam formülü ele geçmezdi.

Dördüncü standardize edilmiş moment için en küçük değer 1dir; bu nedenle en küçük basıklık fazlalığı değeri -2 olur. Dördüncü moment ve kümülant değeri için üst bir sınırlama yoktur ve üst değer artı sonsuz kadar büyük olabilir. Bu nedenle basıklık ölçüsü değeri -2 ile artı sonsuzluk arasında bulunabilir.

Terminoloji ve örneğinler

Eğer bir olasılık dağılımının veya veri setinin basıklık ölçüsü 0 (sıfır) değerde ise, bu çeşit veri seti veya olasılık dağılımına meso-basık (İngilizcesi 'meso-kurtic') adı verilir. Sıfır (0) basıklık ölçülü, yani meso-basık, en iyi bilinen olasılık dağılımı (parametreleri ne değerlerde olursa olsun) normal dağılımdır. Parametre değerlerine göre birkaç diğer olasılık dağılımı da meso-basık, yani 0 basıkliık ölçü değeri gösterirler. Örneğin, eğer ise bir binom dağılım meso-basıktır.

'Basıklık' ölçüsü ve terminolojisi dağılım meso-basıklık karakteri göstermiyorsa bazen fikir karmaşıklığına yol açabilir.

Bir olasılık dağılımı veya bir veri seti için basıklık ölçüsü sıfırın üstünde pozitif (0 ile sonsuz arasında) olursa, bu türlü dağılıma lepto-basık adı verilir.[2] Eğer bir olasılık dağılımı veya veri seti lepto-basık karakterli (yani pozitif basıklık ölçülü) ise, olasılık dağılım yoğunluk grafiği veya veri seti çokluluk grafiği, ortalama değerinde (normal dağılıma nazaran) daha sivri ve kuyrukları daha "şişman" olma görüntüsü verirler. Bu tip olasılık dağılımlarına şişman kuyruklu dağılım ve bazen de yüksek-Gauss tipi dağılım adı verilir. Laplace dağılımı ve logistik dağılım lepto-basık dağılımlara örnektirler. Basitçe bir ifade ile bir dağılımın ortası sivri, kuyrukları şişman ise, lepto-basık olur ve pozitif basıklık ölçüsü gösterir.[3]

Bir olasılık dağlımı veya bir veri seti için basıklık ölçüsü sıfırın altında, negatif 0 ile -2 arasında olursa, bu türlü dağılıma plati-basık adı verilebilir.[4] En alt sınırda basıklık ölçüsü -2 olan bir olasılık dağılım örneği, parametre değeri p = ½ olan bir Bernoulli dağılımıdır. Bu çeşit negatif basıklık ölçüsü gösteren dağılımların grafikleri ortalama etrafında düşük ve yayvan ve kuyrukları kısa sıska görünümünde veya ortası basık yamaçları dik yokuş bir "masa dağı" görünüşünde olurlar. Ayrık veya sürekli tekdüze dağılım ve yükseltilmiş kosinus dağılımı plati-basıklık (yani negatik basıklık ölçüsü) gösteren dağılımlara örnektirler. Bu türlü dağılımlar bir normal dağılımın yoğunluk grafiğine nazaran hem ortasında ve hem de kuyruklarında daha alçak görünüşlü olduğu için, alçak-Gauss tipi adı da verilir.[5]

Eğer yukarıda verilen 'basıklık' ölçüsü yüksek pozitif değer gösteriyorsa dağılımın yoğunluk grafiğinde sivri bir doruk ve şişman kuyrukları bulunur; diğer taraftan basıklık ölçüsü negatif ve düşük ise (yani -2ye yakın), doruk daha yuvarlanmıştır ve genişçe yüksek omuzları bulunan bir "masa dağ" görünüşü almaktadır.

Grafik örneğinler

Pearson VII. tip ailesi

VII tip Pearson dağılımında basıklık: sonsuz=kırmızı, 2=mavi ve 0=siyah

Basıklık özelliğinin etkileri bir parametrik dağılımlar ailesi olan VII tip Pearson ailesi ile gösterilebilir. Bu parametrik ailenin basıklık özelliği (düşük derecede momentler ve kumulantlar sabit kalırken) değiştirilebilmektedir. Bunlar için olasılık yoğunluk fonksiyonu şöyle verilmiştir:

Burada a bir olcek parametresi ve m bir sekil parametresi olurlar.

Bu aile için bütün olasılık yoğunluk fonksiyonları simetriktir. Eğer anlamlı ise, kinci moment de bulunur. 0dan değişik bir basıklık ölçüsü bulunması için olması gerekmektedir. O halde hem ortalama hem de çarpıklık aynen sıfıra eşit olurlar. a değeri olacak şekilde seçilirse, varyans değeri 1e eşit olur. Bu koşullar altında tek serbestçe değiştirilebilecek parametre m olur ve bu dördüncü moment (ve kumulant), yani basıklık özelliğini, kontrol eder. Bu dağılım fonksiyonu , olarak parametrelenebilir ve burada basıklık ölçüsü olur. Bunun sonucunda bir-parametreli lepto-basık aile elde edilir ve bunlar için ortalamalar hep 0, varyanslar hep 1, çarpıklık hep 0 ve basıklık yukarıda verilmiş şekilde değişken olur. Bu halde olasılık yoğunluk fonksiyonu şöyle verilir:

Limitte yakınsalamsı ile olasılık yoğunluk fonksiyonu şu şekli alır:

Bu gösterimde kırmızı eğridir.

Diğer tarafa yakınsalama, yani , limitte dağılım olarak standart normal dağılımı verir ve bu siyah eğri olarak gösterilmiştir.

Mavi eğri basıklığı 2'ye eşit olasılık yoğunluk gösterir. Mavi eğri ile siyah eğri arasında olasılık yoğunlukları 2 = 1, 1/2, 1/4, 1/8 ve 1/16 olarak elde edilen eğriler verilir. Kırmızı eğri VII Tip Pearson dağılımları için ile (yani dördüncü momenti bulunmayan) bir yukarı limit verir. Bu kırmızı eğri için eğri orijinden uzaklaştıkça en az düşüş gösterir ; yani "şişman kuyrukları" vardır.

Bu aile içinde en üstteki eğri, meso-basık normal dağılıma kıyasla, çok lepto-basıklık karakteri gösterir. VII. tip Pearson yoğunluklarının doğasal üstel logaritmalarinin grafik gösterimi olan ikinci grafik ise lepto-basık yoğunlukların şişman kuyruklarını açıkça göstermektedir. Bu grafikte siyah renkli eğri ters bir parabolya benzeyen normal dağılım eğrisidir. Görülmektedir ki, basıklık derecesi 2 lepta-basık karakterli VII. tip Pearson dağılımın gösteren mavi eğri olan mavi eğriye nazaran, siyah normal eğri yoğunluk ortalamadan uzak bölgelere çok daha az olasılık vermektedir (yani "daha sıska kuyrukludur).

Bazı dağılımlar için basıklık

Bu gösterimlerde değişik parametrik ailelere bağlı olan bazı iyi bilinen dağılımlar karşılaştırılmaktadır. Tümünün yoğunluğu tek-modlu ve simetriktir. Her birinin ortalaması bulunmaktadır. Parametre değerleri öyle seçilmiştir ki bütün örneğinler için varyans bire eşittir. Doğrusal ölçekte ve logaritmalı ölçekte şu yedi dağılım karşılaştırılmaktadır:

  • D: Laplace dağılımı - Bazen çift üstel dağılım denir. Kırmızı eğri (log-ölçekte grafikte iki doğru olarak görülmekte)- basıklık ölçümü = 3
  • S: Hiperbolik sekant dağılımı - turuncu eğri - basıklık ölçümü = 2
  • L: logistik dağılım - yeşil eğri - basıklık ölçümü = 1.2
  • N: normal dağılım - siyah eğri (log-ölçümünde tepesi aşağıda bir parabol) - basıklık ölçümü = 0
  • C: yükseltilmiş kosinus dağılımı -mavimsi eğri - basıklık ölçümü= −0.593762…
  • W: Wigner'in yarım-daire dağılımı - mavi eğri - basıklık ölçümü = -1
  • U: sürekli tekdüze dağılım - morumsu eğri - basıklık ölçümü = -1.2

Örneklem için basıklık

n sayıda gözlem değeri bulunan bir rassal örneklem için örneklem basıklığı şöyle ölçülür:

Burada m4 örneklem ortalaması etrafındaki örneklem dördüncü momenti, m2 ortalama etrafındaki ikinci moment (yahut örneklem varyansı, xi gözümlenen iinci değer ve ise örneklem ortalamasıdır.

Şu formül de

,

kullanılmaktadır, Burada n - örneklem büyüklüğü, D - hesaptan önce bilinen varyans değeri, xi x'inci ölçüm değeri ve - hesaptan önce bilinen ortalama değeri olurlar.

Anakütle basıklık kestirimcileri

Bir anakütleden bir altset olan örneklem verilirse, yukarıda verilmiş olan örneklem basıklık ölçüsü anakütle basıklık ölçüsünün yanlı kestirimi olur. Bilgisayar için hazırlanmış istatistik paketleri (SAS, Minitab, SPSS ve Excel) anakütle basıklık kestirimci değeri G için şu formülü kullanmaktadır:|- | | |- | | |- | | |- | | |- | | |} Burada k4 dördüncü kümülant değerinin tek simetrik yanlı olmayan kestirimidir; k2 anakütle varyansı için yanlı olmayan kestirim değeridir; m4 ortalama etrafında dördüncü örneklem momentidir; m2 örneklem varyansıdır; xi iinci değer ve örneklem ortalamasıdır.

Sadece BDMP istatistik paketi bu formülü kullanmaktadır.

Ne yazıktır ki bu kendisi genellikle yanlı kestirimdir. Bu sadece bir normal dağılım için yanlı değildir çünkü o halde beklenen değeri sıfır olmaktadır.

Ayrıca bakınız

Kaynakça

  1. ^ Karl Pearson (1905) in "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A Rejoinder," Biometrika, Cilt 4, say. 169-212 (Almanca)
  2. ^ İngilizce "lepta-kurtic" ve lepto- antik Yunanca'dan alınma
  3. ^ "Sivri", yani basık olmayan, görünüşlü dağılımların pozitif basıklık ölçüsü gösterme karakteri olması, fikir karışıklığına yol açabilir. Belki kavramın adına sivrilik demek veya kavramın adına kurtosis deyip bir fikir karışıklığından kaçınmak daha doğru olabilecektir. Ama sonunda bunun öğrenilerek kabul edilmesi gerekir.
  4. ^ İngilizce "plati-kurtic" ve plati- antik Yunanca'dan alınma. Ayrıca basıklık ölçüsünün en küçük değerinin -2 olmasına dikkat edilmelidir.
  5. ^ Bu türlü tepesi geniş ve düz, basık bir "masa dağı" görünüşlü grafiği olan bir dağılımın basıklık ölçüsünün negatif olması bazen fikir karışıklığına yol açmaktadır. Bu nedenle bunun öğrenme için özellikle ele alınması uygundur.

Dış kaynaklar

  • Spiegel, Murray R ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Student'in t dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında t-dağılımı ya da Student'in t dağılımı genel olarak örneklem sayısı veya sayıları küçük ise ve anakütle normal dağılım gösterdiği varsayılırsa çıkartımsal istatistik uygulaması için çok kullanılan bir sürekli olasılık dağılımıdır. Çok popüler olarak tek bir anakütle ortalaması için güven aralığı veya hipotez sınaması ve iki anakütle ortalamasının arasındaki fark için güven aralığı veya hipotez sınamasında, yani çıkarımsal istatistik analizlerde, uygulama görmektedir.

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

<span class="mw-page-title-main">Ki-kare dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında ki-kare dağılım özellikle çıkarımsal istatistik analizde çok geniş bir pratik kullanım alanı bulmuştur.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

Bernoulli dağılımı olasılık kuramı ve istatistik bilim dallarında, p olasılıkla başarı ile 1 değeri alan ve olasılıkla başarısızlık ile 0 değeri alan bir ayrık olasılık dağılımıdır. İsmi ilk açıklamayı yapan İsviçreli bilim insanı Jakob Bernoulli anısına verilmiştir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Negatif binom dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında negatif binom dağılım bir ayrık olasılık dağılım tipi olup Pascal dağılımı ve Polya dağılımı bu dağılımın özel halleridir.

<span class="mw-page-title-main">Zeta dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, zeta dağılımı bir ayrık olasılık dağılımıdır. Eğer X s parametresi ile zeta dağılımı gösteren bir bir rassal değişken ise, Xin k tam sayısı değerini almasının olasılığı şu olasılık kütle fonksiyonu ile belirtilir:

<span class="mw-page-title-main">Çarpıklık</span>

Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.

<span class="mw-page-title-main">Beta dağılımı</span>

Olasılık kuramı ve istatistikte, beta dağılımı, [0,1] aralığında iki tane pozitif şekil parametresi ile ifade edilmiş bir sürekli olasılık dağılımları ailesidir. Çok değişkenli genellemesi Dirichlet dağılımıdır.

<span class="mw-page-title-main">Gamma dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında gamma dağılımı iki parametreli bir sürekli olasılık dağılımıdır. Bu parametrelerden biri ölçek parametresi θ; diğeri ise şekil parametresi k olarak anılır. Eğer k tam sayı ise, gamma dağılımı k tane üstel dağılım gösteren rassal değişkenlerin toplamını temsil eder; rassal değişkenlerin her biri nin üstel dağılımı için parametre olur.

<span class="mw-page-title-main">Üstel dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında üstel dağılımı bir sürekli olasılık dağılımları grubudur. Sabit ortalama değişme haddinde ortaya çıkan bağımsız olaylar arasındaki zaman aralığını modelleştirirken bir üstel dağılım doğal olarak ortaya çıkar.

<span class="mw-page-title-main">Weibull dağılımı</span> Olasılık dağılımı

Olasılık kuramı ve istatistik bilim dallarında Weibull dağılımı ) bir sürekli olasılık dağılımı olup olasılık yoğunluk fonksiyonu şöyle ifade edilir:

İstatistik bilim dalında D'Agostino'nun K2 sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. Örneklem basıklık ve çarpıklık ölçülerinin dönüşümlerinden elde edilmiştir. K2 istatistiği şöyle elde edilir:

İstatistik bilim dalında, Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. İlk defa bu sınamayi ortaya atan ekonometrici A.K.Bera ve C.M.Jarque adları ile anılmaktadır.

<span class="mw-page-title-main">Pareto dağılımı</span>

Pareto dağılımı, olasılık kuramı ve istatistik bilim dallarında birçok pratik uygulaması bulunan ve "küçük" bir nesnenin bir "büyük" nesneye dağılımında kararlılık elde edildiği hallerde kullanılan bir sürekli olasılık dağılımı veya bir güç kuramıdır. İlk olarak bir İtalyan iktisatçısı olan Vilfredo Pareto tarafından ekonomilerde bireylerin servet dağılımını göstermek için kullanılmıştır. İktisat bilim dalı dışında bu dağılım Bradford dağılımı adı altında da bilinmektedir.

<span class="mw-page-title-main">Cauchy dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Cauchy-Lorentz dağılımı bir sürekli olasılık dağılımı olup, bu dağılımı ilk ortaya atan Augustin Cauchy ve Hendrik Lorentz anısına adlandırılmıştır. Matematik istatistikçiler genel olarak Cauchy dağılımı adını tercih edip kullanmaktadırlar ama fizikçiler arasında Lorentz dağılımı veya Lorentz(yen) fonksiyon veya Breit-Wigner dağılımı olarak bilinip kullanılmaktadır.

Matematik bilimi içinde moment kavramı fizik bilimi için ortaya çıkartılmış olan moment kavramından geliştirilmiştir. Bir bir reel değişkenin reel-değerli fonksiyon olan f(x)in c değeri etrafında ninci momenti şöyle ifade edilir: