İçeriğe atla

Anlamlılık seviyesi

Ortalamadan −1,96 ile 1,96 standart sapma uzaklıkta standart normal dağılım gölgeleme alanı

Anlamlılık seviyesi, istatistik biliminde, İngiliz istatistikçi Ronald Fisher tarafından çıkartımsal hipotez sınama yönteminin kurulması sırasında kavramlaştırılmış özel bir manası olan bir bilimsel ve istatistiksel terimdir. İstatistiksel anlamlılık eğer bir sonucun gerçekleşme olasılık değerlendirilmesine göre olabilirliği düşük değil ise ortaya çıkar.[1]

İstatistik teorisine göre açıklamalar

Anlamlılık istatistik biliminde özel bir manası olan ve daha komplike bir istatistik kavramını çok kısa olarak isimlendirilmek için kullanılan özel bir terimdir. Günlük dilde anlamlılık manası olan veya önemi olan lügat manasını taşımaktadır. İstatistiksel anlamlılık bu günlük anlamlılık manasına tam olarak eşit değildir; ve arkasında bir olasılık bulunan bir mana taşımaktadır. Ülkenin belirli bir bölgesinde uygulanan ve binlerce kişilik örneklemlere tatbik edilen bir zeka testinin sayısal sonuçlarını kullanılarak yapılan hesaplamalar sonunda elde edilen ortalama değerlere göre bir bölgenin ortalama zeka testi sonucu ile diğer bir bölgenin ortalama zeka testi sonucu arasında 1/20 bir fark olduğu %5 anlamlılık düzeyli hipotez sınaması ile ortaya çıkmış olsun. Bu çıkartımsal sonuç istatistiksel anlamlı olacaktır; fakat ortalamalar arasındaki 1/20 farkın alelade kullanılan dil anlamı ile pek önemli olmadığı gayet açıktır. Bu nedenle birçok bilimsel araştırmacılar istatiksel hipotez testleri analizde kullanıldığı zaman etki büyüklüğü istatistiğinde verilmesini ve böylelikle farkların pratik öneminin açıkça belirtilmesini çok sıkı olarak tavsiye etmektedirler.

Bir olayın ortaya çıkma şansının olasılığının çok küçük olduğunu kabul etmek için gereken kanıtların miktarı 'anlamlılık düzeyi veya kritik p-değeri olarak isimlendirilir. Geleneksel Fisher-tipi istatistiksel hipotez sınaması teorisi içinde p-değeri gözümlenen veriler veya daha çok dışsal veriler için sıfır hipotezin şartlı olasılığıdır. Eğer hesaplanan p-değeri küçükse, o zaman ya sıfır hipotez yanlıştır veya çok ender ve olağan olmayan bir olay ortaya çıkmıştır. Burada p-değerlerinin herhangi bir örneklem tekrarlanması yorumu olmadığını ve örneklem tekrarı gereğini ifade etmediğini vurgulamak gerekmektedir.

İstatistiksel hipotez sınaması çerçevesini Fisher-tipinden değişik açıklayan diğer bir felsefi temel de bulunmaktadır. Bu "Neyman-Pearson leması" adı altında olasılığın çokluluk temeline dayandıran felsefi açıklamanın bir gelişmesidir. Bu "çokluluk ekolü" açıklamasında, hem sıfır hem alternatif hipotez açıkça tanımlanmasını gerekmektedir ve bunun için gerekli örneklem tekrarlanması prosedürünün özellikleri incelenmektedir. Bu yaklaşım, "Hatalı pozitif" veya Tıp İ hata yani sıfır hipotezin gerçekte kabul edilmesi gerekirken bu hipotezin ret edilmesi olasılığı ile Tıp II hata yani sıfır hipotezin yanlış olup gerçekte ret edilmesi gerekirken o hipotezi kabul etme kararı olasılı karşılaştırılmasını önermektedir.

Tipik olarak bir hipotez sınaması "anlamlılık düzeyi", Tip İ hata yani kabul edilmesi gerekli bir doğru sıfır hipotezin ret edilmesi, olasılığının önceden seçilmiş bir olasılıktan daha fazla olmaması"dır. Böylece bazı enformasyon kullanılmayıp boşa gitmekle beraber hesaplama külfeti azaltılmakta ve testlerin anlamlılığı olmayan istatistikleri kullanarak gerçekleştirilmesine izin vermektedir.

Fisher tipi p-değerleri, Neyman-Pearson Tıp İ hatalardan felsefi olarak değişiktir. Bu değişikliğin anlaşılmaması bir hata olup ne yazık ki birçok istatistik ders kitabında bu eksiklik devam edip gitmektedir.[2]

Pratikte kullanış

Anlamlılık seviyesi notasyon olarak genellikle Yunan harfi alfa, α ile belirtilir. Pratikte çok popüler olarak kullanılan anlamlılık seviyesi %5 (0,05), %1 (0,01) ve %0,1 (0.001)'dir.

Eğer bir istatistiksel hipotez sınaması için hesaplamalar α-seviyesinden küçük olan bir p-değeri ortaya çıkarırsa, o zaman "sıfır hipotez" reddedilir. Bu türlü analiz sonuçları, pek teorik olmayan bir yaklaşımla, "istatistiksel olarak anlamsız" olarak nitelendirilir. Örneğin, eğer bir istatistik kullanıcı "bu olayın rastlantı olarak ortaya çıkma şansı binde birdir" diye bir sonuç verirse, bu daha formel olarak 0,001 istatistiksel anlamlılık olarak açıklanabilir. Anlamlılık seviyesi ne kadar düşük olursa, gereken kanıtın o kadar daha güçlü olması gerekmektedir.

İstatistiksel çalışmalarda anlamlılık seviyesinin seçilmesi araştırmacının keyfine bağlıdır ama geleneksel olarak birçok uygulamada seçilen anlamlılık seviyesi %5 olmaktadır ve buna tek neden sırf geleneksel kullanıştır.[3]

Bazı hallerde ise daha istatistiksel anlamlılık seviyesini (1 − α) kabul etmek daha uygun olur. Genellikle bir çalışmada kullanılan anlamlılık seviyesini tefsir etmek için istatistiksel sınamanın yapılma nedeninin iyice anlaşılmasını gerektirir.

Bazı bilim ve teknoloji alanlarında, örneğin nükleer ve parçacık fiziki uygulama alanlarında istatistiksel anlamlılık bir normal dağılım standart sapması olan "σ" (sigma) birimleri ile ifade edilir. Bu şekilde ifade edilen bir istatistiksel anlamlılık değeri olan

alfa α ile ifade edilen anlamlılık seviyesine şu hata fonksiyonu kullanılarak dönüştürülebilir:

Anlamlılık seviyesini σ ile ifade edilmesi bilimciler arasında çok popüler olarak olasılık ve belirsizliğin ölçülmesi için normal dağılımın kullanılmasına açıkça işaret etmektedir.

Bu kullanışa bir örneğine göre, bir teori bir parametrenin değerinin (diyelim) 100 olduğuna işaret etmekte ise ve deneyle ölçülen parametre değeri  109 ± 3 ise, o zaman bu sonucu açıklamak için ölçülmenin teorik tahminden "3σ sapma" ile ortaya çıktığı ifade edilir. Eğer aynı ölçüm α ile ifade edilmek istenirse ifadenin şekli şu olur: "Eğer teori doğru ise, bu deneysel ölçümün rastlantı olarak elde edilmesinin olasılığı

1 − erf(3/√2) = 0.0027

yani %0,27 olur.

İstatistiksel çalışmaların sonuçlarını bildirilmesi sırasında %5, %1 veya %0,1 gibi sabit olan anlamlılık seviyelerinin kullandıktan sonra sadece kullanılan anlamlılık seviyesi ve sıfır hipotezin kabul ve reddedildiğini açıklamak yıllardır yeterli bilgi olarak sayılmıştır. Ancak günümüzde bu çeşit açıklamaların yeterli olamadığı ve ancak açıklayıcı veri analizleri için uygun olacağı kabul edilmektedir. Günümüz için bir deneyin veya bir ciddi çalışmanın için kullanıla istatistiksel hipotez testlerinin en son sonuçları hakkında bilgi verilmekte iken hesaplanan p-değerin açıkça belirtilmesi tavsiye edilmektedir. Ayrıca bu p-değeri verildikten sonra bu değerin istatistiksel anlamlılığı olup olmadığı hakkında araştırmacı şahsi hükümü de belirtilmesi istenmektedir. Bu tavsiyenin ortay çıkmasının başlıca nedeninin, meta analizler denilen birçok değişik deney ve çalışmayı birlikte karşılaştırmalı olarak incelemesinin çok popüler olarak kullanılmaya başlanmasıdır; p-değeri ve analizci sonucu açıkça verilirse bunlara doğrudan doğruya ekstra çalışma yapılmadan meta-analize konulması mümkün olur.

Teorik ve pratik tenkitler ve sorunlar

Amerikan bilim araştırmacıları McCloskey ve Ziliak bu istatistiksel analamlılık kavramının bilim alanında çok ciddi hatalara yol açtığını ve bu nedenle kullanılmaması gereğini iddia etmektedirler. Bu kavrama dayanarak bir sonucu "anlamlığı yok" diye açıklamak, bunun "önemsiz" olmadığı anlamına gelmediğinin bilimcilerde bilinmesi gereğine ve bilinmezse hatalı hipotezlerin kabul edilmesine ve doğru hipotezlerin ret edilmesine yol açabileceğine işaret etmektedirler. Bu hatalı yaklaşımların çok olasılığı bulunduğu için bilimsel sosyetenin hipotez sınaması terimlerini kullanmamasının daha uygun olacağını iddia etmektedirler.[4]

Anlamlılık kavramının sinyal-gürültü oranı şeklinde tefsir edilmesi

İstatistiksel anlamlılık verilmiş bir sonuca olan güvenin belirtilmesi olarak da görülebilir. Karşılaştırmalarla ilgilenen bir çalışmada bu kavram karşılaştırılan grupların arasındaki göreli farka, ölçülmelerin miktarına ve ölçülmeyle ilişkili gürültüye bağlıdır. Diğer anlamla, belirli bir sonucun rastgele olmaması (yani bu sonucun sadece şansa bağlı olmaması) sinyal-gürültü oranına ve örneklem hacmine bağlıdır.

Bu matematiksel ifade edilirse, güven Sackett tarafından verilmiş şu formülle açıklanabilir: [5]

Biraz daha açıklığa kavuşturmak için bu formül şu tablo halinde de temsil edilebilir:

Güvenin, gürültü, sinyal ve örneklem hacmine bağlılığı (tablo şeklinde açıklama )

Parametre Parametre artması Parametre azalışı
Gürültü Güvenin azalışı Güvenin artışı
Sinyal Güvenin artışı Güvenin azalışı
Örneklem hacmi Güvenin artışı Güvenin azalışı

Bu sözcüklerle ifade edilirse, eğer gürültü düşükse ve/veya örneklem hacmi yüksekse ve/veya sinyala efekt hacmi büyükse, güvene bağımlılık yüksektir. Bir sonuç olarak güven (ve ona bağlı olan güven aralığı) sadece efekt hacmine "bağımlı değildir". Eğer örneklem hacmi yüksekse ve gürültü düşük ise, küçük bir efekt hacmi büyük güvenle ölçülebilir. Küçük bir efekt hacminin önemli olup olmadığı karşılaştırması yapılan olaylara bağlıdır.

Tıp bilimi alanında (rizikodaki küçük artışlarda yansıyan) küçük efekt hacmi çok kere kliniksel olarak ilgili görülmektedir ve çok kere (eğer büyük güven varsa) sağlanım kararlarına bir yol gösterici olarak kullanılırlar. Belirli bir sağlanımın değerli uğraşa olarak kabul edilip edilmeyeceği rizikolara, yararlarına ve maliyetlere bağlıdır.

Dipnotlar

  1. ^ "Bu türde kritik testler "anlamlılık testleri" olarak isimlendirilebilir. Bu türlü testlerin yapılması mümkün ise elde ettiğimiz ilk örneklem verilerinin, ikinci bir örneklem verilerinden anlamlı bir şekilde farklı olup olmadığını ortaya çıkartabiliriz. — Fisher, R.A. (1925). Statistical Methods for Research Workers, Edinburgh: Oliver and Boyd, say.43. (İngilizce)
  2. ^ Hubbard, Raymond ve Bayarri,M.J. P Values are not Error Probabılıties (P-değerleri hata olasılıkları değildir) 4 Eylül 2013 tarihinde Wayback Machine sitesinde arşivlendi.. Fisher işbat p-değeri ile Neyman-Pearson I. Tip hata seviyesi arasındaki farkları açıklama hedefli makale. (İngilizce) (Erişme:6.5.2010)
  3. ^ Stigler, S. (2008), "Fisher and the 5% level", Chance Cilt 21 no.4 say12 Şablon:Doi=10.1007/s00144-008-0033-3
  4. ^ Ziliak, Stephen ve McCloskey, Deirdre, (2008). The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives[]. Ann Arbor, University of Michigan Press, 2009. (İngilizce) (Erişme:6.5.2010)
  5. ^ Sackett, D.L. (2001), "Why randomized controlled trials fail büt needn't: 2. Failüre to employ physiological statistics, or the only formula a clinician-trialist iş ever likely to need (or understand!)", CMAJ Cilt:165 No:9 Ekim, say.1226–37 {{|pmid=11706914 |pmc=81587 |doi= |url=http://www.cmaj.ca/cgı/pmıdlookup?view=long&pmid=11706914}} (İngilizce)

Ayrıca bakınız

  • İstatistiksel hipotez sınaması
  • A/B testi
  • ABX testi
  • İstatistiksel bağımsızlık ile klasik anlamlılık hipotez sınaması kavramlarını birleştiren "Fisher yaklaşımı"
  • Makul şüphe

Dış bağlantılar

İlgili Araştırma Makaleleri

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalında Yates süreklilik düzeltmesi veya Yates'in ki-kare sınamasıisimsel ölçekli' veya sırasal ölçekli iki değişken için gözlemlenmiş örneklem verileri bir bağımlılık tablosu halinde betimlenmiş iken, ilişkili iki değişken arasında bağımsızlık sınaması yapmak için bazı özel hallerde kullanılır.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

Medyan testi, bir örneklem kümesinin belirli bir medyan değerine sahip olan bir anakütleden gelip gelmediğinin araştırılmasında kullanılan çift taraflı bir testtir. istatistik biliminde çıkarımsal istatistik alanında bir parametrik olmayan istatistik aletidir ve Pearson'un ki-kare testinın özel bir halidir. Mood'un-medyan-testi veya Westenberg-Mood-medyan-testi veya Brown-Mood-medyan-testi olarak da anılır.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Çıkarımsal istatistikte, boş hipotez, sıfır hipotez ya da sıfır hipotezi, beklenenin dışında bir durumun olmadığını, mesela gruplar ya da değişkenler arasında bir ilişki bulunmadığını veya ölçülen iki olgunun arasında bir fark olmadığını kabul eden genel bir önermedir. Örneğin tıpta, denenen bir tedavinin etkisiz olması; hukukta, sanığın suçsuz olması birer boş hipotezdir. Modern bilim hipotezler üretip bunları test ederek ilerler; bir boş hipotezinin belirli bir güvenilirlik aralığında istatistiksel olarak kabul ya da reddedilmesi hipotez testleriyle yapılmaktadır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Student'ın t-testi istatistik bilimi içinde incelenen, eğer sıfır hipotez desteklenmekte ise test istatistiğinin bir Student's t-dağılımı gösterdiği hallerde uygulanan çıkartımsal istatistiksel hipotez sınamasıdır. Verilen iki değişik grup sayısal verinin birbirinden anlamlı olarak farklılık gösterip göstermemesini sınamak için kullanılabilir. En sıkça uygulanma örnekleri eğer test istatistiği içinde bulunan ölçek parametre faktörünün değerinin bir normal dağılım gösterdiği bilinmekte olduğu hallerde tatbik edilmektedir. Eğer test istatistiği içinde bulunan ölçek parametresi faktörünün değeri bilinmiyorsa ve bu faktör veriye dayayan bir kestirim ile ifade edilmekte ise test istatistiği bir Student'ın t-dağılımı gösterebilir.

İstatistikte, p değeri, bir istatistiksel modele bağlı olarak gözlemlenen örneklem sonuçlarının ne kadar aşırı olduğunu ölçmek için kullanılan bir fonksiyondur. P değeri ile yapılan istatistiksel hipotez testleri sosyal bilimlerin ve doğa bilimlerinin birçok alanında kullanılır. Bu alanlardan bazıları iktisat, psikoloji, biyoloji, ceza adaleti, kriminoloji ve sosyolojidir. P değeri yönteminin yanlış kullanımı konusunda dikkate değer miktarda tartışma vardır.