İçeriğe atla

Kruskal-Wallis sıralamalı tek yönlü varyans analizi

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek yönlü varyans analizi, bağımsız gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur.[1] Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

Kruskal-Wallis sıralamalı tek yönlü varyans analizinin amacı içinde tane grup bulunan bir anakütlenin grup medyanlarının eşit olup olmadığını araştırmaktır. Parametrik olmayan istatistik oladuğu için Kruskal-Wallis sınaması anakütlenin normal dağılım gösterdiğini varsaymamaktadır ve bu nedenle şeklen benzeri olan tek yönlü varyans analizinden değişiktir.

Ama bu sınama için yapılan ana varsayım incelenen her anakütle grubunun, grup medyan değerlerindeki farklılık dışında, ayni dağılım gösterdiğidir.

Sıfır ve karşıt hipotezler

Problem için sıfır hipotezi

H0 : g grup medyanları birbirine eşittir.

Bu sıfır hipotezi kullanılan sonuç çıkartıcı istatistik analizi yani hipotez sınama kuralları kullanılarak kabul veya red edilecektir. Kruskal-Walis sınaması bir tek yönlü varyans analizinin analogu olduğu için, karşıt hipotez biraz karmaşıktır. Karşıt hipotez '

H1: Bazı grup medyanları birbirine eşit değildir

şeklinde ifade edilir. Bu demektir ki sıfır hipotez red edilince kesin anlamlı bir sonuç ortaya çıkmamaktadır. Ya bütün grup medyanları birbirine eşit değildir yahut da bazı grup medyanları eşit değildir yani bazıları birbirine eşittir. Hangilerinin birbirlerine eşit olduğunu bulmak için varyanslar analizinde çoklu karşılaştırmalar analizi adı altında bir sıra istatistiksel yöntem geliştirilmiştir.

Örneklem verileri ve sıralama düzeni

Örneklem ham verileri şunlardır:

  • bütün grupları kapsayan toplam gözlem sayısı;
  • sayıda grup bulunur ve veriler gruplara göre belirtilmiştir;
  • her bir grup i için toplam gözlem sayısı i=1,...g.
  • i=1... j=1,...,g,. Her grup için ayrılmış toplam N tane veri.

Bu ham örneklem verilerinin dönüştürülüp genel sıralama düzeni verileri haline getirilmesi gereklidir. Grup üyeliğini bir kenara bırakarak tüm grupları birlikte alarak bütün veri değerlerini, yani 1 ile N sayıda veri değeri, sıralama düzenine konulur. Burada beraberlik gösteren veri değerlerine uygulanan en uygun strateji beraberlik gösterenlerin ortalama sıra numarasının kullanılmasıdır ve bu bazen kesirli sıralama numarası ortaya çıkartabilir. Her bir grup verileri için bu genel sıralama numaraları ayrılır ve bunlar analize veri olur.

tüm gruplari birlikte alarak (tüm gözlemler) için verilen sıralama numaraları olup her bir grup için sayılı sıralama numarasıdır.

Kruskal-Wallis sınama istatistiği için hesaplar

Önce tüm sıralama düzeni sıralama numaraları (yani tüm ) için tüm sıralama numaraları ortalaması alınır. Formül şu olur:

.

Sonra her bir grup (i=1,..g) için sıralama numaraları ayrı ayrı alınarak grup sıralama numaraları ortalamaları (yani i=1,..g) bulunur. Her bir grup için formül şudur:

.

Genel Kruskal-Wallis sınama istatistiği (K) şöyle verilir:

Bu genel sınama formülü daha da geliştirilebilir:

Eğer, genel sıralama düzeni beraberlik halinde kullanılan strateji ortalama sıra numaralarını kullanma değilse, bu genel sınama formülü kullanılır. Bu halde beraberlik için bir düzeltme faktörü bulunup kullanılır. Bu beraberlik düzeltme faktörü (BDF) şudur:

.

Burada

  • G değişik beraberlikler sayısı;
  • ti her beraberlikte bulunan sıralama düzenli veri sayısıdır.

Bu halde beraberlikler için düzeltilmiş genel Kruskal-Wallis test istatistiği

K* = K / BDF

olur. Ancak pratikten bilinmektedir ki eğer beraberlikler sayısı ve her beraberlikte bulunan sıralama numara sayısı küçükse, bu beraberlik düzeltmesi sınama sonuçlarına çok az etkide bulunur.

Eğer sıralama düzeni kurulurken hiç beraberlik bulunmuyorsa veya beraberlik halinde kullanılan strateji beraberlik sıralamaların ortalaması ise, genel formülü için paydayı basitleştirebilme imkânı vardır. Dikkat edilirse payda 1,..,N tam sayılarının toplamına eşit olur ve bu toplam için bir özel formüle göre bu toplam hesaplanabilir. Böylece formül paydası

olur. Bu, genel sınama formülüne konulursa Kruskal-Wallis genel sınama istatistiği şöyle ifade edilir:

.

Anlamlılık düzeyi, p-değeri ve sonuç

En son aşama olarak ya bir g-1 serbestlik değerli ki-kare dağılımı icin p-değeri bulmak veya yine g-1 serbestlik değerli ki-kare tablo değerlerini bulmak; bunları anlamlılik değeri ile karşılaştırıp sıfır hipotez hakkında sonuç çıkartamak ve bu sonucu açıklamak gerekir:

Küçük grup veri sayıları

Eğer bazı gruplar için veri sayısı ni küçükse, yani 5 veya 5in altında ise, kullanılacak anlamlılık değerleri Kruskal-Wallis tarafından özel bir tabloda verilmiştir.[2]

Büyük grup veri sayıları

Eğer grup veri sayıları büyük ise, yani hepsi 5den fazla ise, p-değeri yaklaşık olarak

dağılımı gösterir.

Kruskal-Wallis sınama istatistiği K (veya K*) kullanılarak (g-1) serbestlik derecesi için ki-kare dağılımı kullanılarak bir p-değeri bulunabilir. Genellikle p-degeri bulmak için özel bir kompüter ki-kare değer simulasyon programı veya özel bir istatistik paket programı kullanılmasi gerekir.

  • Bulunan p-değeri anlamlılık düzeyi yüzdeleri olan %5 veya %1 den daha büyük ise sıfır hipotez olan grup medyanlarinin birbirine eşit olması kabul edilir.
  • p-degeri %5den daha küçük fakat %1den büyükse, sonuç pek kesin olmayabilir, ama yine de %5 anlamlılık düzeyinde sıfır hipotez kabul edilir.
  • p-değeri %1den küçükse, sıfır hipotezi rededilir.

Diğer bir yaklaşım, p-değeri bulmadan her bir serbestlik derecesi için özel ki-kare dağılımı yukarı kuyruk alanları veren özel ki-kare tablosu kullanma ile ortaya çıkartılır. Bu halde (g-1) serbestlik değeri için %5 ve %1 tablo değerlerine bakılır. Bu tablo degerleri hesaplanmış K değeri ile karşılaştırılır:

  • Hesaplanmış K değeri tablo değerinden küçükse, sıfır hipotez kabul edilir.
  • Hesaplanmış K değeri tablo değerinden büyükse, sıfır hipotez red edilir.

Sonuç açıklaması

Eğer sıfır hipotez kabul edilirse problem için sonuçlar çok kesin ve anlamlı sayılır. Bu problem için ana varsayım

  • 'Anakütlede grup medyanlardan başka her türlü grup özelliği aynıdır.'

olduğu için sıfır hipotez kabul edilmesi daha pratik bir sonuç olarak

  • 'anakütledeki gruplar her bakımdan aynıdır veya görülen gruplar aralarında anakütlede hiç fark yoktur.'

sonucu çıkartılabilir.

Eğer sıfır hipotez rededilirse (yani karşıt hipotez kabul edilirse) sonuçlar çok kesin değildir. Aynı parametrik tek yönlü varyans analizi sonucu gibi, bu halde grup medyanlarının hepsi birbirine eşit olmamakla beraber, grup medyanlarının bazılarının birbirine eşit olmaları mümkündür. Bu halde varyanslar analizinde çoklu karşılaştırmalar analizi kullanılır.

Ayrıca bakınız

  • Mann-Whitney U sınaması

Kaynakça

  1. ^ William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 583–621, [1] 1 Nisan 2010 tarihinde Wayback Machine sitesinde arşivlendi.
  2. ^ William H. Kruskal ve W. Allen Wallis (1952) "Use of ranks in one-criterion variance analysis Journal of the American Statistical Association Cilt 47 No.26 Say. 614–617, [2] 1 Nisan 2010 tarihinde Wayback Machine sitesinde arşivlendi.

Dışsal kaynaklar

  • Sidney Siegel and N. John Castellan, Jr. (1988). Nonparametric Statistics for the Behavioral Sciences (second edition). New York: McGraw-Hill.

İlgili Araştırma Makaleleri

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

İstatistik bilim dalında, Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. İlk defa bu sınamayi ortaya atan ekonometrici A.K.Bera ve C.M.Jarque adları ile anılmaktadır.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

İstatistik bilim dalında ağırlıklı ortalama betimsel istatistik alanında, genellikle örneklem, veri dizisini özetlemek için bir merkezsel konum ölçüsüdür. En çok kullanan ağırlıklı ortalama tipi ağırlıklı aritmetik ortalamadır. Burada genel olarak bir örnekle bu kavram açıklanmaktadır. Değişik özel tipli ağırlıklar alan özel ağırlıklı aritmetik ortalamalar bulunmaktadır. Diğer ağırlıklı ortalamalar ağırlıklı geometrik ortalama ve ağırlıklı harmonik ortalamadir. Ağırlıklı ortalama kavramı ile ilişkili teorik açıklamalar son kısımda ele alınacakdır.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Bir kuadrupol veya dört kutuplu genellikle daha karmaşık bir yapının çeşitli düzenlemelerini yansıtan çok kutuplu genişlemenin bir parçasıdır. Örnekle açıklamak gerekirse, kuadrupol elektrik yükü, elektrik akımı ya da ideal formunda bulunan çekim kütlesinin birer konfigürasyon dizisidir.