İçeriğe atla

Mann-Whitney U testi

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır.[1] Sonradan, Mann and Whitney (1947) tarafından[2] değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

Değişik sıfır hipotezler

Mann-Whitney U testi iki örneklem verilerini ele alıp bu verilerin aynı anakütleden mi yoksa değişik iki anakütleden mi geldiği sorununu inceler. Ama bu test için şeklen biraz değişik problem şartları ve on varsayımlar bulunması imkâni vardır.

Mann-Whitney testi için en geniş kullanışı için sıfır hipoteze veri olan iki örneklemin tek bir anakütleden geldiğidir ve bu nedenle bu anakütle tek bir eğilim gösterir veya dağılımlar aynen eşittir. Bu sınama için iki örneklemin istatistiksel olarak birbirinden bağımsız olması gerekir. Örneklem verileri için ölçme ölçeği en zayıf şekilde sırasal ölçekli ya da niceliksel olarak aralıklı ölçekli veya orantılı ölçekli olmalıdır. Bu varsayım yapılmasının nedeni hiç olmazsa iki gözlemin birbiriyle karşılaştırınca hangisinin daha büyük olduğunu bilmek mümkün olmasıdır. Bu şekilde parametrik olmayan istatistik sınamanın parametrik istatistik sınama analoğu iki ortalama arasındaki fark için t-sınamasıdır. Eğer bu t-sınaması için iki örneklem de sıralama şekilde sırasal ölçekli veri kullanılıyorsa Mann-Whitney testi ile parametrik ortalamalar arasındaki fark için t-sınaması arasında nerede ise hiç fark olmayacaktır.

Mann-Whitney sınaması biraz değişik problem için ve değişik sıfır hipotez için de uygulanabilir. Bu şekildeki sıfır hipotez: bir anakütleden gelen örneklem veri ile ikinci anakütleden gelen bir başka veri arasındaki farkın 0,5 olmasıdır. Bu değişik hipotez sınaması için iki anakütlenin dağılımların bir sabit kayma haricinde aynı olduğu varsayılmaktadır. Yani eğer birinci anakütleden anakütleden gelirse bu iki değişik örneklem değeri arasındaki ilişki şu olduğu varsayılmaktadır.

Üçüncü bir şekilde problem uygulaması ve değişik anlamlı bir sıfır hipotez sınamanın Hodges-Lehman kestirimi olan iki anakütlenin merkezsel konum ölçüleri arasındaki farkın sıfır olmasıdır. Bu türlü iki-örneklemli problem için Hodges-Lehman kestirimi birinci ve ikinci orbeklem arasındaki her bir veri gözlem farkının meydanıdır. Bu şekilde problem belirlenmesi halinde birçok kişi Mann-Whitney sınamasının medyanlar arasındaki farkı sınadığını önermektedirler; ancak bu kesin olarak doğru değildir.

Her ne şekilde problem belirlenirse belirlensin genellikle Mann-Whitney sınaması için hipotezler şöyle kurulur. Verileri elde bulunan iki örneklemin iki değişik anakütle A ve anakütle Bden geldiği düşünülsün. Bu sınama için sıfır hipotez (yani H0) A ve B anakütlerinin aynı dağılım gösterdiğidir. Karşıt hipotez H1 ise yönlü hipotez olan A anakütlesinin B anakütlesinden türel (en:stochastic) olarak daha büyük olduğudur. H1 kabul edilirse A'dan elde edilen puanlar B'den elde edilen puanlardan 1/2 değerinde daha büyüktür. (Yani matematiksel biçimle eğer a A'dan ve b B'den birer gözlem iseler p(a>b>)>(1/2)). Diğer bir yönlü H1 hipotezi de (yani B'nin türel olarak A'dan daha büyük olması da) sınanabilir. Çok kere hangi yönlü karşıt hipotez seçileceği sorunda belirlenmemiştir. Bu halde hacmi daha büyük olan ya da örneklem hacimleri aynı ise ortalaması daha büyük olan örneklemin diğer örneklemden daha büyük olduğu H1 olarak kabul edilir.

Hesaplama yöntemleri

Bu sınama U adı verilen bir sınama istatistiğinin hesaplanmasını önerir. Sıfır hipotez altında U istatistiği için dağılım bilinmektedir. Küçük hacimli (yanı 20'den küçük verili) örneklemler için U dağılımı için bir tablo hazırlanmıştır. Fakat örneklem hacmi 20nin üzerinde ise normal dağılım kullanan çok iyi bir yaklaşım bulunmaktadır. Bazı istatistik kitapları U istatistiğinin analoğu olan (bir örneklemdeki sıralama numaraları toplamlarını gösteren) tablolar da vermektedirler.

Mann-Whitney U sınaması modern kompüter istatistik paketlerinin çoğunda uygulandığı için, eğer bu paketlerden birisi el altında ise, hesaplamalara hiç hacet kalmadan sonuçlar alını tefsir edilebilir. Ancak bu sınamanın nasıl ve ne şeklide yapıldığı anlanmak istenirse, örneğin veri toplanıp elle hesapların yapılması en iyi öğretici alettir. Özellikle veri hacmi küçük ise, Mann-Whitney U değeri el hesapları ile kolayca bulunabilmektedir. Bu el hesabı ile Mann-Whitney U istatistiğini bulmak için iki biraz değişik yaklaşım gerektiren yöntem vardır:

Eğer örneklem hacmi küçükse (yani gözlem sayısı 20nın altında ise) bir direkt yöntem kullanılması çok hızlı sonuç verdiği ve hesaplar yapılırken U istatistiğin altında yatan prensiplerin hemen anlaşıldığı için, tavsiye edilir.

  • Eldeki iki örneklemi acele olarak gözden geçirdikten sonra sıralamada genellikle daha küçük görünen örneklem baz örneklem olarak seçilir ve buna Örneklem 1 adı verilir ve diğer örneklem ise Örneklem 2 olarak adlandırılır. Bu seçimi yapmanın tek nedeni hesapların biraz daha kolaylaştırılmasını sağlamak içindir.
  • Örneklem 2'deki her bir veri tek başına alınır. Örneklem 1'de bulunan veriler bu veri değeri ile karşılaştırılır. Her daha büyük değere 1 puan ve her aynı değere 1/2 puan vererek, toplam puan sayısı kaydedilir. Bu işlem bütün Örneklem 2 elemanları için yapılır ve her eleman için toplam puan bulunur.
  • Bu her eleman için puanların tüm elamanlar için toplamı U istatistiği değeri olur.

Eğer örneklem hacmi büyük ise bir sıralama düzeni kurulması ve bir formül kullanımı gereklidir.

  • Tüm gözlemleri bir araya alarak (iki değişik örneklem olduğunu bu hesap için unutarak) bir sıralama düzeni elde edilir. Eğer beraberlik varsa her bereaber değere ortalama sıralama numarası verme (yani (1 2,5 2,5 4)) stratejisi uygulanır.
  • Örneklemlerden biri keyfi olarak Örneklem 1 olarak seçilir. Örneklem 1deki sıralama numaralarının toplamı ( olarak) bulunur. Beraberlik için özel (1 2.5 2.5 4) stratejisi uygulandığı için her iki örneklem için sıralama numaralarının toplamının N (iki örneklemdeki toplam gözlem sayısı) olduğu bilinmektedir. N eksi Örneklem 1 sıralama numaraları toplamı Örneklem 2 sıralama numaraları toplamını (yani ) verir.
  • İki tane formül kullanılarak iki U-istatistik adayı hesaplanır. Bunlardan Örneklem 1 için gözlem sayısını ve toplam sıralama numarası sayısını; ise Örneklem 2 için gözlem sayısını ve toplam sıralama numarası sayısını kullanır. Formüller şudur:

Burada n1 Örneklem 1 için örneklem hacmi; R1 Örneklem 1 için sıralama numaraları toplamı; n2 Örneklem 2 için örneklem hacmi; R2 Örneklem 2 için sıralama numaraları toplamı olur. Kontrol için U1 ile U2 için toplam alınır. Bu değer iki örneklem hacim sayılarının çarpımına eşit olmalıdır; yani

  • Bulunan U1 ve U2 değerlerinden küçüğü hazırlanmış olan U-istatistiği anlamlılık tablosunda kullanılır.

Normal yaklaşım

Eğer örneklem hacimleri büyükse, anlamlılık düzeyini bulmak için şu standart normal dağılım yaklaşımı kullanılır:

Burada z standart normal dağılım tablolarında kullanılan z-puanı; ve ise, eğer sıfır hipotez doğruysa U için ortalama ve standart sapma olup şu formüllerle bulunurlar:

Ancak örneklem verileri için sıralamada beraberlikler varsa bu değerlerin beraberlikler için düzeltilmesi gerekir. Fakat el hesaplanmalarında bu düzeltmeler çok defa kullanılmamaktadır; istatistik paket programları ise bu düzeltmeleri hemen rutin olarak yapmaktadırlar.

Diğer sınamalara ilişki

U test iki bağımsız örneklem için ortalamalar farkı için Student'in t-testi ile çok benzer şartlar bulunduğu zaman kullanılır. Bunlardan hangi sınamanın ne zaman kullanılması gerektiği sorusu hemen ortaya çıkmaktadır. Eğer veriler sırasal ölçekli ise U' testi, eğer örneklem verileri aralıksal veya oransal ölçekli ise genel olarak t-testi tercih edilmelidir. Ancak aralıksal veya oransal ölçekli veriler halinde, eğer örneklem verileri içinde bir veya ikiden çok 'aykırı değer varsa veya eğer anakütle dağılımlarının normal olmaktan çok uzak ve örneklem hacimlerinin yeter derecede büyük olduğu biliniyor ise yine parametrik olmayan U testi tercih edilir.

Diğer taraftan bazı istatistikçiler, eğer iki örneklem birbirinden çok değişikse, U-testinin tercih edilmesi gerektiğini bildirirler. Ancak U-sınaması sıfır hipotez doğru ise iki örneklemin aynı dağılımdan geldiğini varsaymaktadır. Eğer iki örneklem değişik iki anakütle dağılımından gelmekte ise bu varsayıma göre hazırlanmış özel yaklaşımlı serbestlik dereceli t-testinın daha uygun sonuçlar vereceği ispat edilmiştir. Bu halde bazı istatistikçiler (örneğin Conover (1999)[3]) verilerin sıralama düzenine koyulup sıralama numaraları için t-testi uygulanmasını tavsiye etmektedirler.

U-testi diğer bazı parametrik olmayan istatistik analiz yöntemleri ile ilişkili bulunmaktadır. Eğer veriler iki değer (0-1)-alan isimsel ölçekli iseler, U istatistiği ve Kendall sıralamalı korelasyon katsayısı teorik olarak aynıdır.

ρ adı verilen bir istatistik U istatistiği ile doğrusal olarak bağımlıdır. ρ iki dağılım için birbirine ne kısımda çakıştıklarını ölçen bir parametrik olmayan istatistik olup 0 ile 1 arasında değişmektedir. Eğer ρ=0,5 ise iki dağılım tam olarak birbirleri ile çakışmaktadır. Uç değerlerde, yani ρ=0 veya ρ=1 olursa, iki dağılım birbirine hiç dokunmamaktadır. ρ değeri Unun n1 × n2 ile bölünmesi sonucu elde edilmektedir.

Örneğin ve sonuçlar

İçsel kaynaklar

  • Wilcoxon işaretli-sıralama sınaması

Kaynakça

  1. ^ Wilcoxon,F. (1945) "Individual comparisons by ranking methods". Biometrics Bulletin, C.1, say.80-83
  2. ^ Mann,H.B. ve Whitney,D.R. (1947). "On a test of whether one of two random variables is stochastically larger than the other". Annals of Mathematical Statistics, C.18 Say.50-60
  3. ^ Conover,W.J. (1999), Practical Nonparametric Statistics (3ncu Ed.), New York: Wiley.

Dışsal kaynaklar

  • [1] 15 Haziran 2008 tarihinde Wayback Machine sitesinde arşivlendi. ALGLIB C++, C#, Delphi, Visual Basic, vb. yazılımlı Mann-Whitney U sınaması uygulamasını kapsayan programlar kitaplığı.
  • Hollander,M. ve Wolfe,D.A. (1999), Nonparametric Statistical Methods (2. Ed.), New York: Wiley.
  • Lehmann,E.L. (2006). Nonparametrics: Statistical Methods Based On Ranks, New York, Springer.
  • [2][] Mann-Whitney U dağılımı için kritik değerler tablosu (pdf)
  • R istatistiksel program paketi Wilcoxon iki-örneklem sınaması adı altında wilcox.test bu sınamanın uygulamasıni kapsar.
  • Siegel,S. ve Castellan,N.J. (1988) Nonparametric Statistics for Behavioural Science (2. rev.ed.), Nre York: McGraw Hill

İlgili Araştırma Makaleleri

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

Örnekleme istatistikte belirli bir yığından alınan kümeyi ifade eder. Örneğin; Türkiye'deki tüm üniversite sayıları bir yığın iken Ankara'daki üniversite sayısı bu yığından alınmış bir örnektir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

İstatistik biliminde önemli bir yeri olan parametrik olmayan istatistik parametrik olmayan istatistiksel modeller ve parametrik olmayan çıkarımsal istatistik, özellikle parametrik olmayan istatistiksel hipotez sınamalar ile ilgilenir. Parametrik olmayan yöntemler çok defa dağılımlardan serbest yöntemler olarak da anılmaktadır, çünkü verilerin bilinen belirli olasılık dağılımı gösteren kaynaklardan geldiği varsayımına dayanmamaktadır.

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek yönlü varyans analizi, bağımsız gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur. Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

Medyan testi, bir örneklem kümesinin belirli bir medyan değerine sahip olan bir anakütleden gelip gelmediğinin araştırılmasında kullanılan çift taraflı bir testtir. istatistik biliminde çıkarımsal istatistik alanında bir parametrik olmayan istatistik aletidir ve Pearson'un ki-kare testinın özel bir halidir. Mood'un-medyan-testi veya Westenberg-Mood-medyan-testi veya Brown-Mood-medyan-testi olarak da anılır.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

<span class="mw-page-title-main">Anlamlılık seviyesi</span>

Anlamlılık seviyesi, istatistik biliminde, İngiliz istatistikçi Ronald Fisher tarafından çıkartımsal hipotez sınama yönteminin kurulması sırasında kavramlaştırılmış özel bir manası olan bir bilimsel ve istatistiksel terimdir. İstatistiksel anlamlılık eğer bir sonucun gerçekleşme olasılık değerlendirilmesine göre olabilirliği düşük değil ise ortaya çıkar.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Student'ın t-testi istatistik bilimi içinde incelenen, eğer sıfır hipotez desteklenmekte ise test istatistiğinin bir Student's t-dağılımı gösterdiği hallerde uygulanan çıkartımsal istatistiksel hipotez sınamasıdır. Verilen iki değişik grup sayısal verinin birbirinden anlamlı olarak farklılık gösterip göstermemesini sınamak için kullanılabilir. En sıkça uygulanma örnekleri eğer test istatistiği içinde bulunan ölçek parametre faktörünün değerinin bir normal dağılım gösterdiği bilinmekte olduğu hallerde tatbik edilmektedir. Eğer test istatistiği içinde bulunan ölçek parametresi faktörünün değeri bilinmiyorsa ve bu faktör veriye dayayan bir kestirim ile ifade edilmekte ise test istatistiği bir Student'ın t-dağılımı gösterebilir.