İçeriğe atla

Pearson ki-kare testi

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.[1]

Bağımsızlık testi

Pearson ki-kare testi yönteminin pratik bir problem çözülmesinde kullanılması şu basamaklar kullanılarak yapılır.

1. Araştırma konusu:
Pearson'un ki kare testi her biri iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken arasındaki bağımsızlık veya bağımlılık ilişkisinin incelenmesi için kullanılır. Bir iki isimsel ölçekle ölçülebilen rassal değişken

  • "satır değişkeni" : kategorili ve
  • "sütun segiskeni" : kategorili .

Araştırma konusu genellikle X ile Y değişkenlerinin birbirinden istatistiksel olarak bağımsız olduğudur. Buna başlıca neden Pearson'ın ki kare yeştinin "bağımlılık" konusunda çok zayıf sonuç vermesidir.

2. Hipotezler:
Pearson'un ki kare test için hipotezler şöyle ifade edilir:

  • H0</sub) "sıfır hipotez" : iki kategorili olan iki isimsel ölçekle ölçülebilen rassal değişken birbirinden istatistiksel olarak bağımsızdır.
  • H1 "alternatif hipotez": iki kategorili olan isimsel ölçekle ölçülen iki rassal değişken birbirinden istatistiksel olarak bağımsız değildir.

Bu hipotezlerden açıkça görülmektedir ki sınanma için kullanılan hipotez anakütle parametreler değerleri hakkında değildir ve bir istatistiksel nitelik hakkındadır. Böylece Pearson ki-kare testi bir parametrik olmayan istatistik örneğidir. Bunun yanında, dikkat edilmelidir ki alternatif hipotezin bir "negatif" cümle olarak ifade edilmektedir. yani "istatistiksel olarak bağımsız değildir" ifadesi. Bu ifade pozitif vir cümle yani alternatif hipotezde "iki rassal değişken istatistiksel olarak bağımlıdır." dememektedir. Yapılan çıkarımsal test analizi sonuncu "sıfır hipotez" reddedilirse iki değişkeninin ne kadar birbirine bağımlı olduğu bulunmaz; bağımlılık derecesi çok küçük olması mümkündür.

3. Veri toplanması, her hücresi için "gözlemlenen değerler" bulunan kontenjans tablosu ve marjinal toplamlar:
Pearson ki kare testi "iki-değişirli" istatistiksel analize örnektir; yani her bir "vaka" için iki değişir hakkında veri elde edilir. Değişir için sadece X ve Y olan iki-isimsel ölçekli değişken hakkında cevap olabilir. Örneğin; bir ankete verilen tek kişi cevabı "tek vaka"dır ve araştırmada bu ankete bulunan iki soruya, yani 2 değişire, araştırmacı ilgisi çekilmektedir. Her iki değişir de isimsel ölçekli kategorik değerler alabilir. İki-değişir kategorili gözlem özetlenmesi bir "kontenjans tablosu" halinde olur ve Pearson ki-kare testi için pratikte kullanılan veriler bu karşılıklı olarak sınıflandırılmış iki değişirli "kontenjans tablosu" halindedir.

Kontenjans tablosu verileri şu tip tabloda özetler:

değişiriSatır Toplamı Σ
değişiri1 2 kcnj.
1 O11O12... O1k... O1rO1.
2 O21O22O2kO2cn2.
jOjknj.
rOr1Or2OrkOrcnc.
Sütun toplamı Σn.1n.2n.kn.cn

Bu tabloda bulunan rxc adet ifadesi "gözlem değerleri"'dir ve tam sayılıdırlar. Her bir j satırı için l=1,...,r "satır toplamı" = Her bir k sütunu için k=1,...,c "sütun toplamı" = olarak bulunur ve bunlar a "marjinal toplamlar" adı da verilir.

Satır toplamları hepsinin toplamı ve sütün toplamları hepsinin toplamı toplam gözlem sayısına, yani örneklem büyüklüğü olan n değerine eşittir.

4. Teorik "beklenen değerler":
Her bir hücre üçün bur "beklenen değer" yani Ejk l-1,...r ve k=1,...c bulunur. Bu "beklenen değer" olasılık teoeiasinde bulunan iki bağımsız rassal değişken olan A ve B için "çarpım savı"na dayanır. Bu "bağımsız iki rassal değişken için çarpım savı" şöyle ifade edilir:

Bu savı kullanarak ve olasılığın asımtotik olarak "relatif çokluluk"'a eşit olduğu kabul edilip, eğer X ve Y değişirleri sıfır hipoteze uygun olarak bağımsızlarsa, her bir (jk) hücresi için olasılık şöyle ifade edilebilir:

Bu olasılık ifadesinin her iki tarafını da ile çarpılırsa her bir hücre için "beklenen değer" şöyle bulunur:

5: Hesaplanan ki-kare değeri. Serbestlik derecesi
Hesaplanan ki-kare değeri

Serbestlik derecesi :

6. Anlamlılık seviyesi ve bu seviye için teorik test istatistik ki-kare değeri

Anlamlılık seviyesi ve p-değeri.

wird abgelehnt, wenn , dem -Quantil der -Verteilüng mit

7. Test sonucu ve araştırma konusu

Uygunluk iyiliği testi

"Tekdüze ayrık dağılım'a uygunluk", binom dağılım'a uygunluk", Poisson dağılım'a uygunluk" ve eğer normal değerler sınıflandırılıp sınıf ortalaması kategori değeri gibi kullanılırsa "normal dağılım'a uygunluk" testleri olabilirler.

Ayrık tekdüze dağılımına uygunluk testi

Bu tip problemde n tane sayısal olarak belirtilmiş kategorisi bulunan isimsel ölçekli bir değişken bulunur. Elde edilen N sayıda örneklem de bu kategorilerin frekansları çokluğudur yani Veriler nx1 tipli (yani n satırlı ve 1 sütunlu) bir özel "kontenjans tablosu" halindedir ve bu tabloda n tane hücre bulunup her hücrede o hücrenin kategorisinde olan tam sayı ile ifade edilen "çokluluk (frekans)", ı=1..n) vardır. Her bir hücre çokluğu o kategoriye isabet eden "gözlemlenen değer" olarak alınır.

"Sıfır hipotez" bu veri dağılımının teorik olarak ayrık tekdüze dağılım'ina uyacağıdır ve alternatif hipotez bu dağılıma uymayacağıdır. Bu çok basit sıfır hipotezleri ve teorik olarak her bir hücrenin birbirine eşit sayıda "beklenen değer" alacağını önerir. Tekrar dikkat edilmelidir ki "ki-kare dağılım iyiliği" testi de (diğer Pearson ki-kare testi" gibi) eğer sıfır hipotez reddelerse "zayıf" sonuç verir; yani eldeki veriler "ayrık tekdüze dağılım"'a uymaz ama hangi dağılım uyduğu bu test ile açığa çıkmaz.

Teorik "ayrık tekdüze dağılımı"'na göre rassal değişkende her bir veri kategorisi aynı olasılık gösterir. Bu nedenle N tane veri için her bir i kategorisi için aynı değer taşıyan "beklenen değer", E, yani

olarak hesaplanır.

"Hesaplanan ki-kare değeri" her hücre için "gözlemlenen değer" eksi "beklenen değer" farkının karesinin "beklenen değer"'e bölünmesinin tüm hücreler için toplanmasıdır: Yani

Test istatistiğinin hesaplanması

Uygunluk iyiliği sınaması için test istatistiği su formüle göre hesaplanmış:

Bu formülde

= Pearson'un kümülatif test istatistiği olup, bu "hesaplanmış " değeri asimtotik olarak bir ki-kare dagilimi'na yakınlaşmaktadır.
= gözlenen cokluluk değeri;
= sıfır hipotez önerisinin gerçek olduğu kabul edilerek bir teorik beklenmekte olan çokluluk değerdir ;
= tabloda bulunan hücre sayısı
Ki-kare dagilimi, yatay x-ekseni "hesaplanmis " degerlerini dikey Y-ekseni ise P-degerleridir.

Ayrıca bakınız

Kaynakça

  1. ^ Karl Pearson (1900). "On the criterion that a given system of deviations from the probable ın the case of a correlated system of variables is such that it can be reasonably supposed to have arısen from random sampling". Philosophical Magazine, Series 5. 50 (302). ss. 157-175. doi:10.1080/14786440009463897. 

Dış bağlantılar

İlgili Araştırma Makaleleri

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

<span class="mw-page-title-main">Ki-kare dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında ki-kare dağılım özellikle çıkarımsal istatistik analizde çok geniş bir pratik kullanım alanı bulmuştur.

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

<span class="mw-page-title-main">Binom dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, binom dağılımı n sayıda iki kategori (yani başarı/başarısızlık, evet / hayır, 1/0 vb) sonucu veren denemelere uygulanır. Araştırıcının ilgi gösterdiği kategori başarı olarak adlandırılır. Bu türlü her bir deneyde, bağımsız olarak, başarı (=evet=1) olasılığının p olduğu (ve yalnızca iki kategori sonuç mümkün olduğu için başarısızlık olasılığının 1 - p olduğu) bilinir. Bu türlü bağımsız n sayıda denemeler serisi içinde elde edilen başarı sayısının ayrık olasılık dağılımı binom dağılım olarak tanımlanır. Bir binom dağılım sadece iki parametre ile, yani n ve p ile tam olarak tanımlanır. Matematik notasyon olarak bir rassal değişken X binom dağılım gösterirse şöyle ifade edilir:

X ~ B(n,p)
<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Negatif binom dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında negatif binom dağılım bir ayrık olasılık dağılım tipi olup Pascal dağılımı ve Polya dağılımı bu dağılımın özel halleridir.

<span class="mw-page-title-main">Tekdüze dağılım (sürekli)</span> Özel olasılık dağılımı

Sürekli tekdüze dağılım (İngilizce: continuous uniform distribution) olasılık kuramı ve istatistik bilim dallarında, her elemanı, olasılığın desteklendiği aynı büyüklükteki aralık içinde bulunabilir, her sürekli değer için aynı sabit olasılık gösteren bir olasılık dağılımları ailesidir. Desteklenen aralık iki parametre ile, yani minimum değer a ve maksimum değer b ile, tanımlanmaktadır. Bu dağılım kısa olarak U(a,b) olarak anılır.

Olasılık kuramı ve istatistik bilim kollarında, çokdeğişirli normal dağılım veya çokdeğişirli Gauss-tipi dağılım, tek değişirli bir dağılım olan normal dağılımın çoklu değişirli hallere genelleştirilmesidir.

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek yönlü varyans analizi, bağımsız gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur. Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalında Yates süreklilik düzeltmesi veya Yates'in ki-kare sınamasıisimsel ölçekli' veya sırasal ölçekli iki değişken için gözlemlenmiş örneklem verileri bir bağımlılık tablosu halinde betimlenmiş iken, ilişkili iki değişken arasında bağımsızlık sınaması yapmak için bazı özel hallerde kullanılır.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

Olasılık kuramı bilim dalında matematiksel beklenti veya beklenen değer veya ortalama birçok defa tekrarlanan ve her tekrarda mümkün tüm olasılıklarını değiştirmeyen rastgele deneyler sonuçlarından beklenen ortalama değeri temsil eder. Bir ayrık rassal değişkennin alabileceği bütün sonuç değerlerin olasılıklarıyla çarpılması ve bu işlemin bütün değerler üzerinden toplanmasıyla elde edilen değerdir. Bir sürekli rassal değişken için rassal değişken ile olasılık yoğunluk fonksiyonunun çarpımının aralığı belirsiz integralidir. Fakat dikkat edilmelidir ki bu değerin genel pratik anlamla rasyonel olarak beklenmesi pek uygun olmayabilir, çünkü matematiksel beklentiin olasılığı çok düşük belki sıfıra çok yakın olabilir ve hatta pratikte matematiksel beklenti bulunmaz. Ağırlıklı ortalama olarak da düşünülebilir ki değerler ağırlık katsayıları verilen olasılık kütle fonksiyonu veya olasılık yoğunluk fonksiyonudur.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

Medyan testi, bir örneklem kümesinin belirli bir medyan değerine sahip olan bir anakütleden gelip gelmediğinin araştırılmasında kullanılan çift taraflı bir testtir. istatistik biliminde çıkarımsal istatistik alanında bir parametrik olmayan istatistik aletidir ve Pearson'un ki-kare testinın özel bir halidir. Mood'un-medyan-testi veya Westenberg-Mood-medyan-testi veya Brown-Mood-medyan-testi olarak da anılır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Phi katsayısı veya Φ - katsayısı veya ortalama kare kontenjansı katsayısı olarak isimlendirilen ve matematik notasyonla by φ olarak ifade edilen iki tane iki-değerli isimsel veya sırasal değişkenin birbirine "birliktelik (association)" ilişkisini gösteren ölçü katsayılarıdır.