İçeriğe atla

Kolmogorov-Smirnov sınaması

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

Bu sınama iki değişik problem için hipotez sınaması olarak kullanılır:

  • Tek örneklem K-S sınaması: Hedef, verilmiş olan bir deneysel olasılık dağılımı gösteren örneklem verilerinin, dağılım parametreleri tam olarak bilinen tam tanımlanmış bir teorik anakitle olasılık dağılımına uyum gösterip göstermediğini sınamak. Bu tip problemde sıfır hipotez Ho örneklem verilerin deneysel dağılımının tam tanımlanmış bir anakitle olasılık dağılımından gelmiş olduğudur.
  • İki örneklem K-S sınaması: Hedef, verilmiş iki tane değişik deneysel olasılık dağılımı gösteren iki örneklem veri serisinin aynı tek bir teorik anakitle olasılık dağılımından gelip gelmediğini sınamak. Bu tip problemde sıfır hipotez Ho ise iki örneklem verilerin deneysel dağılımlarının tek bir anakitle olasılık dağılımından gelmiş olduğudur.

Tek örneklem K-S sınaması çok popüler olarak olarak bir normallik sınaması olarak, yani örneklem verilerinin tanımlanmış bir anakitle normal olasılık dağılımına uyumluluk gösterip göstermemesini sınamak için kullanılır. Örneklem verileri standardize edilerek (yani her bir veri değerinden teorik anakitle olasılığı için verilmiş ortalama çıkartıp sonucu verilmiş teorik yığın varyansına bölerek) elde edilen normalize veriler standart normal dağılım ile karşılaştırılır. Fakat bu türlü dönüşüm yapmanın sınamanın gücünü azalttığı ispat edilmiştir. Bu taraflılığın düzeltilmesi Lilliefors sınamasını ortaya çıkartır. Fakat, Anderson-Darling sınaması veya Shapiro-Wilk sınaması normallik sınaması olarak hem Lilliefors sınaması hem de K-S tek örneklem normallık sınamasından daha güçlüdür. K-S tek örneklem sınaması, gözlenen ve beklenen kümülatif frekans dağılış arasındaki mutlak farklılıklar dikkate alınarak geliştirilmiştir. Örneklem hacmi küçük olduğu için ki-kare sınaması uygulanamadığı durumlarda Kolmogorov-Simirnov testi kullanılabilir.

"İki örneklem K-S sınaması" hem genel olarak uygulanabilen hem de çok kullanışlı olan bir "parametrik olmayan sınama" yöntemidir çünkü bu sınama hem konum hem de dağılım şekline duyarlıdır ve bu türlü problem çözümü için popüler olarak kullanılır.

Prensip

Bu test örneklem deneysel dağılım fonksiyonunun özelliklerine bağlıdır. n örneklem hacmi büyüklüğü de örneklem verilerinin; yani

değerlerinin n tane birbirinden bağımsız ve reel değerli rastgele değişken olduğunu kabul edelim. Bu halde örnekleme deneysel dağılım fonksiyonu şöyle tanımlanabilir: burada

Tüm sabitleri için, bu sürec için deneysel dağılım fonksiyonu ile değerleri arasında büyüme fonksiyonları uzayında değerler alır ve bunun özellikleri arasında şuna yakınsama gösterir:

Eğer ise teriminin değeri ne yakınsar. Dikkat edilirse sağa doğru limit 'ye dayanmadığı görülür.

Kolmogorov dağılımı şu rassal değişkenin dağılımıdır:

burada B(t) bir Brown tipi köprü olur. Knin birikimli dağılım fonksiyonu şöyle verilir:

Sıfır hipotezi doğru ise örneklem şu hipotez olarak verilen F(x) dağılımından gelir:

burada B(t) "Brown tipi köprü" olur.

Eğer sıfır hipotezinde verilen F sürekli ise

bir Kolmogorov dağılımına yakınsar ve bu F dağılımına dayanmaz.

Tek örneklem K-S sınaması yani uyumluluk iyiliği sınaması Kolmogorov fonksiyonunun kritik değerlerini kullanılarak yapılır. Sıfır hipotezini seviyesinde reddetmek için

ifadesinden bulunan Kα için

olması gerekir.

Bu testin asimptotik "istatistik gücü" 1e eşittir. Eğer F(x) fonksiyonunun şekli veya parametreleri örneklem

verileri ile bulunursa, yukarıda verilen kritik değerler uygun değildir. Bu hallerde Monte Carlo simülasyon yöntemi veya benzer sayısal yöntemler kullanılması gerekir. Ama bazı haller için özel tablolar kurulmuştur. Pearson ve Hartley (1957) Tablo 54de normal dağılım ve tekdüze dağılım için kritik değerleri ve test istatistiğini vermektedir.

Örnek problemler

Örnek verilerini vermek ve K-S sınamalarını uygulamak için "R" adı altında hazırlanmış olan ve standart olarak uygulanan ve telif hakkı gerektirmeyen serbest kullanılma hakları verilmiş bir istatistik yazılım paketi kullanılacaktır.

Simülasyonla üretilen veriler

Önce üç değişik veri serisi üretilmiştir.[1] İstenilen gözlem sayısında ve istenilen olasılık dağılımında, simülasyonla R istatistik paketi özel simülasyon ile veri üretme komutası kullanılmıştır:

  • X veri serisi için 50 gözlem üretilmiştir ve bunların (ortalaması 0 ve varyansı 1 olan) bir standart normal dağılıma sahip olarak (R yazılım paketi için X ← rnorm(50) komutası ile) simülasyonla elde edilmişlerdir.
  • Y veri serisi için 40 gözlem standart normal dağılıma sahip olarak (R yazılım paketi için Y ← rnorm(40) komutası ile) simülasyonla elde edilmişlerdir.
  • Z veri serisi için 30 gözlem (0 ile 1 arasında) sürekli tekdüze dağılıma sahip olarak (R yazılımı icin Y ← runif(30) komutası ile) simülasyonla elde edilmişlerdir.

Tek örneklem Kolmogorov-Smirnov sınaması örnek problemleri

Örnek problem 1:
Örneklem veri serilerinin nasıl ortaya çıktığının bilinmediğini düşünelim ve 50 gözlemli bir gerçek örneklem X veri serisi "(0-1) arasında sürekli tekdüze dağılım gösteren bir anakitle yığından gelmiş midir yoksa gelmemiş midir?" sorunu problem olsun. Bu soruna yanıt "tek örneklem Kolmogorov-Smirnov sınaması" ile bulunur:

Önce hipotezler verilir:
H0 : Bu n=50 örneklem serisi verilen U(0,1) (yani 0 ile 1 arasında sürekli tekdüze) dağılımlı bir anakitleden gelmektedir. H1 : Bu n=50 örneklem serisi verilen U(0,1) (yani 0 ile 1 arasında sürekli tekdüze) dağılımlı anakitleden gelmemektedir.

Bu sınama için alternatif hipotezde pozitif bir dağılım ifadesi bulunmaz ve anakitle dağılımının ne olmadığına dair negatif bir hipotezdir. Tek örneklem K-S sınaması iki-kuyruklu testtir.

İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değerini bulmak için R paketine özel bir komuta kullanılır; bu komuta şudur: ks.test(X, "punif") . Bundan sonra kompüter programı hesaplar başlar ve bir çıktı sonucunu (İngilizce olarak) ekrana verir. Bunu şu tabloda özetleyelim:

R yazılımı komutası ks.test(X, "punif")
Ekranda gösterilen sonuç One-sample Kolmogorov-Smirnov test data: X

D = 0.5501, p-value = 1.033e-14
alternative hypothesis: two-sided

Burada 0.5551 olarak hesaplanan D istatistiğine tekabül eden kritik sınır p-değeri 1.033x10−14 çok küçük bir değerdir. Bu p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük olduğundan reddetme alanındır. Bu nedenle X veri serisinin bir (0-1) arasında tekdüze dağılımlı anakitleden gelmediği sonucuna varılması gerekir. Ama görüldüğü gibi sıfır hipotez reddedildiği zaman X veri serisinin hangi anakitle dağılımından geldiği bilinmez. Onun için yeni bir hipotez kurmak ve yeni bir sınama yapmak gerekir.

Örnek problem 2:
Yine X örneklem veri serilerinin nasıl elde edildiğini bilmediğimizi kabul edelim. 50 gözlemli bir X örneklem veri serisinin "standart normal dağılım gösteren bir yığından gelmiş midir yoksa gelmemiş midir?" sorununu problem olarak seçelim. Bu soruna yanıt "örneklemin veri serisinin verilmiş olan bir standart normal dağılımına uyum sınaması" yani "tek örneklem Kolmogorov-Smirnov sınaması" ile bulunur:

Hipotezler şunlardır:
H0 : Bu n=50 örneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir. H1 : Bu n=50 örneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmemektedir.

Tek örneklem K-S sınaması iki-kuyruklu bir testtir.

İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Bunları hesaplamak için gereken formüller yukarıda verilmiştir. Burada hesaplama için R paketi kullanılmaktadır. Bu paketle tek örneklem K-S testi için gereken D istatistiğini ve bunun p değerini bulmak için şu özel komuta kullanılır: ks.test(x, "pnorm"). Bunu kullanan kompüter programı bir çıktı sonucunu ekrana verir ve sonucu şöyle özetleyelim:

R yazılımı komutası ks.test(X, "pnorm")
Ekranda gösterilen sonuç One-sample Kolmogorov-Smirnov test data: X

D = 0.0824, p-value = 0.8586
alternative hypothesis: two-sided

Burada hesaplanan D istatistiğe tekabül eden kritik sınır p-değeri 0.8586 yani %85den daha büyüktür. Bu p-değeri istatistikçilerin kullandığı %5 veya %1'den çok büyük olduğu için kritik p-değeri kabul edilme alanındadır ve bu sıfır hipotez red edilemez. Bu nedenle X veri serisinin bir standart normal anakitleden geldiği sonucuna varılır.

İki örneklem Kolmogorov-Smirnov sınaması örnek problemleri

Örnek problem 3:
Bu problemde sorun 50 gözlemli X örneklem veri serisi ile 40 gözlemli Y örneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelenir. Bu soruna yanıt "iki örneklem Kolmogorov-Smirnov sınaması" ile bulunur. Hipotezler şunlardır: H0 : Bu n=50 gözlemli verilen X örneklem serisi ile n=40 gözlemli örneklem Y serisi aynı anakitle dağılımından gelmektedir. H1 : X örneklem serisi ile Y örneklem serisi aynı anakitle dağılımından gelmemektedir.

İki örneklem K-S sınaması da iki-kuyruklu bir testtir.

İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Burada hesaplama için R paketi kullanılmakta ve paketle iki örneklem K-S testi için gereken D istatistiğini ve bunun p-değerini bulmak için özel komuta şudur: ks.test(X, Y). Ekrana verilen çıktı sonucunu şöyle özetlenir:

R yazılımı komutası ks.test(X, Y)
Ekranda gösterilen sonuç Two-sample Kolmogorov-Smirnov test data: X and Y

D = 0.135, p-value = 0.7652
alternative hypothesis: two-sided

Burada bulunan D istatistiği 0.135 olup buna tekabül eden kritik sınır p-değeri 0.7652. Bu p-değeri istatistikçilerce kullanılan 0.05 veya 0.01 değerlerinden çok büyüktür ve açıkça H0 kabul alanındadır. Sonuç olarak X ve Y serilerinin aynı anakitle dağılımından geldiği kabul edilir.

Örnek problem 4:
Bu problemde sorun olarak 50 gözlemli X örneklem veri serisi ile 30 gözlemli Z örneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelensin. Bu "iki örneklem K-S sınaması" için hipotezler şunlardır. H0 : X örneklem serisi ile Z örneklem serisi ayni anakitle dağılımından gelmektedir. H1 : X örneklem serisi ile Z örneklem serisi ayni anakitle dağılımından gelmemektedir.

İki örneklem K-S sınaması da iki-kuyruklu testtir. Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri için hesaplama R paketi ile yapılır ve bu test için komuta ks.test(X, Z) olur. Komuta ve ekrandaki sonuçlar şöyle özetlenir:

R yazılımı komutası ks.test(X, Z)
Ekranda gösterilen sonuç Two-sample Kolmogorov-Smirnov test data: X and Z

D = 0.48, p-value = 0.0002033
alternative hypothesis: two-sided

Burada D istatistiği 0.48 olarak hesaplanmıştır ve buna tekabül eden kritik sınır p-değeri 0.0002033 küçük bir değerdir. Bu p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük olduğundan reddetme alanındadır. Bu nedenle X ve Z örneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.

Örnek problem 5:
Son örnek problem için 40 gözlemli Y örneklem veri serisi ile 30 gözlemli Z örneklem veri serisinin aynı anakitle dağılımından mı geldikleri incelensin. Bu "iki örneklem K-S sınaması " için hipotezler şunlardır. H0 : Y ve Z örneklem serileri ayni anakitle dağılımından gelmektedir. H1 : Y ve Z örneklem serileri ayni anakitle dağılımından gelmemektedir.

İki örneklem K-S sınaması da iki-kuyruklu testtir. R paketi kullanarak Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri için hesaplama için komuta ks.test(Y, Z) olur. Komuta ve ekrandaki sonuçlar şöyle özetlenir:

R yazılımı komutası ks.test(Y, Z)
Ekranda gösterilen sonuç Two-sample Kolmogorov-Smirnov test data: Y and Z

D = 0.55, p-value = 2.889e-05
alternative hypothesis: two-sided

Burada 0.55 olarak bulunan D istatistiği ve buna tekabül eden kritik sınır p-değeri 2.889x10−5 küçük değerdir ve p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük ve reddetme alanındadır. Bu nedenle Y ve Z örneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.

Ayrıca bakınız

Kaynakça

  1. ^ R kullanılarak simulasyonla üç veri serisi üretme ve gereken sınamaların yapılıp ekranda sonuç alma için kaynak Fransizca Wikipedia maddesidir.

Dış bağlantılar

İlgili Araştırma Makaleleri

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

Olasılık kuramında ve istatistikte, hipergeometrik dağılım sonlu bir ana kütle içinden tekrar geri koymadan birbiri arkasına n tane nesnenin çekilmesi işlemi için başarı sayısının dağılımını bir ayrık olasılık dağılımı şekilde betimler.

<span class="mw-page-title-main">Tekdüze dağılım (sürekli)</span> Özel olasılık dağılımı

Sürekli tekdüze dağılım (İngilizce: continuous uniform distribution) olasılık kuramı ve istatistik bilim dallarında, her elemanı, olasılığın desteklendiği aynı büyüklükteki aralık içinde bulunabilir, her sürekli değer için aynı sabit olasılık gösteren bir olasılık dağılımları ailesidir. Desteklenen aralık iki parametre ile, yani minimum değer a ve maksimum değer b ile, tanımlanmaktadır. Bu dağılım kısa olarak U(a,b) olarak anılır.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

İstatistik bilim dalında, Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. İlk defa bu sınamayi ortaya atan ekonometrici A.K.Bera ve C.M.Jarque adları ile anılmaktadır.

Olasılık teorisi ya da ihtimaliyet teorisi rastgele olayların analizi ile ilgilenen bir matematik bilim dalıdır. Olasılık teorisinin ana ögeleri rassal değişkenler, saf rassal süreçler, olaylar olarak sayılabilir. Bunlar ya tek olarak ortaya çıkan veya bir zaman dönemi içinde gelişerek meydana gelen, ilk görünüşü rastgele bir şekilde olan deterministik olmayan olayların veya ölçülebilir miktarların matematiksel soyutlamalarıdır. Bir madeni parayı yazı-tura denemesi için havaya atmak veya bir zarı atmak ile ortaya çıkan sonuç ilk bakışta rastgele bir olay olarak görülebilirse bile eğer birbirini takip eden rastgele olaylar tekrar tekrar ortaya çıkartılırsa incelenebilecek ve tahmin edilebilecek belirli bir istatistiksel seyir takip ettikleri görülecektir. Bu türlü olaylar ve sonuçların seyirlerini betimleyen iki temsilci matematiksel sonuç büyük sayılar yasası ve merkezsel limit teoremidir.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Student'ın t-testi istatistik bilimi içinde incelenen, eğer sıfır hipotez desteklenmekte ise test istatistiğinin bir Student's t-dağılımı gösterdiği hallerde uygulanan çıkartımsal istatistiksel hipotez sınamasıdır. Verilen iki değişik grup sayısal verinin birbirinden anlamlı olarak farklılık gösterip göstermemesini sınamak için kullanılabilir. En sıkça uygulanma örnekleri eğer test istatistiği içinde bulunan ölçek parametre faktörünün değerinin bir normal dağılım gösterdiği bilinmekte olduğu hallerde tatbik edilmektedir. Eğer test istatistiği içinde bulunan ölçek parametresi faktörünün değeri bilinmiyorsa ve bu faktör veriye dayayan bir kestirim ile ifade edilmekte ise test istatistiği bir Student'ın t-dağılımı gösterebilir.

Uygunluk iyiliği İstatistiksel modelin, gözlem setine ne kadar iyi uyulduğunu açıklar. Uygunluk iyiliğinin ölçütleri genel olarak gözlemlenen değerler ile söz konusu modelde beklenen arasındaki tutarsızlığı özetlemektedir. Bu ölçütler istatistiksel hipotez testi işleminde örneğin; hatalı modellerin normalleştirilmesinin testinde, özdeşleşmiş dağılımlardan çıkarılan iki örneklemin aynı olup olmadığının testinde, sonuç frekanslarının belirli bir dağılımı takip edip etmediğinin testinde kullanılabilir. Varyans analizinde, varyansın içerisindeki değişkenlerden biri karelerinin toplamının bir bölümünü oluşturabilir.