İçeriğe atla

Yates süreklilik düzeltmesi

İstatistik bilim dalında Yates süreklilik düzeltmesi veya Yates'in ki-kare sınamasıisimsel ölçekli' veya sırasal ölçekli iki değişken için gözlemlenmiş örneklem verileri bir bağımlılık tablosu (kontenjans tablosu) halinde betimlenmiş iken, ilişkili iki değişken arasında bağımsızlık sınaması yapmak için bazı özel hallerde kullanılır.

Genel olarak, iki değişken için gözümlenmiş örneklem veriler bağımlılık tablosu (kontenjans tablosu) sunulup ilişkili iki değişken arasındaki bağımsızlık sınaması Pearson'un ki-kare bağımsızlık sınaması ile yapılır. Ancak ki-kare dağılımı surekli bir dagilim olarak yaklasik olarak eldeki aralıklı karekterli gözümlenmiş çokluklara Pearson'un ki-kare bağımsızlık sınaması için uygulanmaktadir. Bu bağımlılık tablosu büyük olursa (2 den cok sayıda satırlı ve 2 den çok sayıda sütunlu) yani her iki değişken de 2 kategoriden fazla kategoriyi kapsarsa, bu yaklaşımın sonuçlara tesir etmediği kabul edilmektedir. Ancak veriler her iki değişken için 2 kategorili olup (2× 2) büyüklükte bağımlılık tablosunda özetlenmişse sürekli ki-kare dağılımının aralıklı verilere uygulanmasının sonuca etki yaptığı bilinmektedir. Bu halde İngiliz istatistikçisi Frances Yates Pearson'un ki-kare bağımsızlık sınaması için formülü değiştirip (her bir hücre için 0.5 çıkartılmasını gerektiren) bir süreklilik düzeltmesi kullanılmasını önermiştir.[1]

Yöntem

Yates süreklilik düzeltmesi ile ki-kare sınaması için (2 × 2) büyüklükte bağımlılık tablosu için her hücre için önce beklenen çokluk (Ei,j). Sonra her hücre için
 :gözümlenmiş çokluk eksi beklenen çokluk eksi 0.5
olarak bulunur. Bu 0.5 çıkartılması Yates'in süreklilik düzeltmesidir. Böylece Yates süreklilik düzeltmeli ki-kare bağımsızlık sınaması için sınama istatistiği şu formülle bulunur:

Burada

Oi,j : i,j hücresindeki gözümlenmiş çokluk;
Ei,j : sıfır hipoteze gore i,j hücresindeki beklenen çokluk

olur.

Biraz daha ayrıntılı olarak veriler şu 2 × 2 büyüklükte bağımlılık tablosu içinde özetlenmiş olsun:

 Kategori B1Kategori B2 
Kategori A1 ab
Kategori A2 cd
  N

Bu halde Yates süreklilik düzeltilmesi ile uygulanan ki-kare sınama istatistiği formülü basitleştirilip şu sekilde sunulabilir:

Hesaplanan ki-kare istatistiği ki-kare tablosunda serbestlik derecesi 1 olan %5 veya %1 anlamlılık düzeyi için bulunan ki-kare tablo değeri ile karşılaştırılır. Eğer ki-kare tablo değeri daha büyükse iki değişkenin birbirinden bağımsız olacağına dair sıfır hipotez kabul edilir. Eğer kompüter kullanılırsa hesaplanan istatistiği için ki-kare simulasyonu kullanılarak bir p-değer bulunur ve bu p-değer anlamlılık düzeyi olan %5 veya %1den büyükse sıfır hipotez kabul edilip iki değişkenin birbirlerinden bağımsız olduğu sonucuna varılır.

Ek açıklama

Yates düzeltmesi hesaplanan istatistiğini genel istatistiğinden daha küçük yapar. Bunun sonucu ya küçük sayıda kategoriler dolayısıyla ortaya çıkabilecek anlamlılık düzeyinin fazla tahmin yapmasını önlemiş olur ya da daha büyük bir p-değer ortaya çıkartır. Ancak Yates düzeltmesinin fazladan düzeltme yaptığı ve sıfır hipotezi reddetmesi gerekirken kabul ettiği bilinmektedir.

Yates süreklilik düzeltmesinin toplam gözlem sayısı 40dan düşük olduğu (N<40) hallerde kullanılması tavsiye edilmektedir.[2] Ancak birçok istatistikçi her 2 × 2 şekilde bağımlılık tablosu şekline konulan veri için Yates süreklilik düzeltmesi kullanmaktadırlar.

Kaynakça

  1. ^ Yates,F. (1934). "Contingency table involving small numbers and the χ2 test". Journal of the Royal Statistical Society (Supplement) No.1, say.217-235.
  2. ^ Cochran,W.G. (1954), "Some methods for strengthening χ2 tests" Biometrics C.10 say.417-451.

İlgili Araştırma Makaleleri

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Ki-kare dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında ki-kare dağılım özellikle çıkarımsal istatistik analizde çok geniş bir pratik kullanım alanı bulmuştur.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

<span class="mw-page-title-main">F-dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, F-dağılımı bir sürekli olasılık dağılımdır. Bu dağılımı ilk bulan istatistikçiler olan R.A. Fisher veGeorge W. Snedecor adlarına bağlı olarak Snedecor'un F dağılımı veya Fisher-Snedecor dağılımı olarak da anılmaktadir.

İstatistik bilim dalında D'Agostino'nun K2 sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. Örneklem basıklık ve çarpıklık ölçülerinin dönüşümlerinden elde edilmiştir. K2 istatistiği şöyle elde edilir:

İstatistik bilim dalında, Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. İlk defa bu sınamayi ortaya atan ekonometrici A.K.Bera ve C.M.Jarque adları ile anılmaktadır.

İstatistik bilim dalında Kruskal-Wallis sıralamalı tek yönlü varyans analizi, bağımsız gruplar arası anakütle medyanlarının eşitliğini sınamak amacı ile kullanılan bir parametrik olmayan istatistik sınamasıdır. Adı bu yöntemi ilk defa ortaya koyan William Kruskal ve W. Allen Wallis atıfla konmuştur. Matematiksel olarak ayrı olmakla beraber, tek yönlü varyans analizinin bir değişik şekli olarak görülebilir. Diğer bir görüşe göre Mann-Whitney U sınamasının 3 veya daha çoklu gruplara genişletilmesidir.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

<span class="mw-page-title-main">Anlamlılık seviyesi</span>

Anlamlılık seviyesi, istatistik biliminde, İngiliz istatistikçi Ronald Fisher tarafından çıkartımsal hipotez sınama yönteminin kurulması sırasında kavramlaştırılmış özel bir manası olan bir bilimsel ve istatistiksel terimdir. İstatistiksel anlamlılık eğer bir sonucun gerçekleşme olasılık değerlendirilmesine göre olabilirliği düşük değil ise ortaya çıkar.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Phi katsayısı veya Φ - katsayısı veya ortalama kare kontenjansı katsayısı olarak isimlendirilen ve matematik notasyonla by φ olarak ifade edilen iki tane iki-değerli isimsel veya sırasal değişkenin birbirine "birliktelik (association)" ilişkisini gösteren ölçü katsayılarıdır.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.