İçeriğe atla

Normallik sınamaları

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.[1][2]

Hipotez sınaması

İlk ortaya atılan normallik sınaması Pearson tarafından tek örneklem için ki-kare uygunluk iyiliği testinin normal dağılıma uygulanmasıdır. Bunu takiben gittikçe veri gereksinimi daha az olan diğer normallik sınamaları geliştirilmiştir. Diğer taraftan istatistiğin bir özel uygulama dalı olan ekonometri ile uğraşanlar da özellikle regresyon tahmin hatalarının normal olup olmadığını incelemek için bu gelişmeye epey katkıda bulunmuşlardır. Şu liste değişik normallik sınaması isimlerini vermektedir:

Bu sınamalarda sıfır hipotez veri dizisinin normal dağılıma benzer olmasıdır. Bu nedenle normal olmayan veri için yeter derecede küçük bir p-değeri (yani genellikle %5den veya %1den küçük) ortaya çıkacak ve sıfır hipotez olan veri dizisinin normal dağılıma benzerliği hipotezinin reddedilmesine neden olacaktır.

Gösterim ile karşılaştırma

Normallik sınamalarının bir kısmı özel test istatistik tabloları ve özel hesaplamalar gerektirmektedir. Bu nedenle pratik istatistik sorunların çözümü için sınamalara nazaran, daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmaları kullanılmaktadır. İçinde istatistik kısımları olan kutu-çizim (spreadsheet) bilgisayar hesaplama programları (örneğin Microsoft Office paketinin bir kısmı olan Excel, açık model olan Open Office suitinin bir parçası olan Calc vb.) histogram gösterimi üzerinde verinin örneklem ortalaması ve varyansını parametreler olarak alan normal dağılım eğrisinin gösterimi ile birlikte görme imkânı sağlamaktadırlar. Böylece histogram için verilerin bir normal dağılıma uyup uymadığı istatistikçinin subjektif görüşüne ve yargı gücüne bırakmaktadırlar. Eğer örneklem veri hacmi küçükse, bu türlü karşılaştırmanın pek iyi sonuç vermeyeceği aşikardır.

Diğer bir grafikle normallik sınaması Q-Q gösterimi kullanılarak yapılabilir. Burada Q, (quantile) sıralanmış veri dizisini eşit parçalara bölen istatistik ölçüleri ifade etmektedir. Öncelikle hem veriler dizisinin genellikle ondabirliklerini (bazen yüzdebirliklerini) bir eksende ve verilerin örneklem ortalaması ve varyansını parametre alan bir normal dağılımın ondabirillerini diğer eksende gösteren ve bu noktaları bir gösterim de birbirine bağlı 11 nokta olarak gösteren grafiğe Q-Q gösterimi denir.

Eğer bu çizilen eğri bir grafiğin 0dan başlayan doğrusal köşegeni ile çakışırsa veriler tıpatıp (parametreleri örneklem ortalaması ve varyansı değerlerine eşit olan) parametreleri olan normal dağılımlıdır. Eğer eğri her ne kadar köşegenle çakışmıyorsa o kadar verilerin normal dağılımdan değişik olduğu anlaşılmaktadır.

Şu gösterimler de uygunluk iyiliğini incelemek için kullanılabilirler:

  • Rankit gösterimi
  • P-P gösterimi

Regresyon hataları için normallik sınamaları

Yukarıda incelenen normallik sınamalarında veriler örneklemden gelmektedir. Normallık sınamasının diğer bir önemli uygulanması bir pratik ekonometri araştırma yapılmaya başladıktan sonra, bir regresyon doğrusu için kestirim yapıldıktan sonra elde edilen regresyon sonucunda bağımlı değişken verilerinin regresyon kestirim değerlerinden farkının, yani kestirim hatalarının incelenmesi sırasında kullanılır. Bir doğrusal regresyon için bu hataların normal dağılım göstermemesi halinde tahmin değerlendirilmesi veya post-tahmin analizi sırasında kullanılan F-sınaması, t-sınamaları ve ki-kare sınamaları için gerekli varsayımların (yani hataların normal olmasının) doğru olmadığı ve bu sınamalar yapılsa bile sonuç çıkartıcı güçlerinin zayıf olacağı bilinmektedir. Onun için regresyon tahmini yapıldıktan sonra hataların normal olması istenir bir sonuçtur ve bunun gerçekte olup olmadığı normallik sınamaları ile kontrol edilir. Eğer hatalar normal dağılım göstermezlerse, kullanılan fonkisyon şeklinin asgari bir açıklayıcı değişken için hatalı olduğu veya bazı önemli açıklayıcı değişkenin analizde bulunmadığı neticesi çıkarılır. Ekonometri kitapları değişik normallik sınamasının kullanılmasını tavsiye etmektedirler. Örnegin, Gujarati (2003) ve Judge et al (1988) Jarque-Bera sınamasını önermektedirler. Özel ekonometrik analiz komputer paketleri (örneğin Eviews, Gretl vb.) hatalar için normallik sınanmasını bir alışkanlık gibi sırası gelince ifa etmektedirler.

Kaynakça

  1. ^ Judge et al, (1988)Introduction to the Theory and Practice of Econometrics 2.ed. say.890-892.
  2. ^ Gujarati, Damodar N.,(2003) Basic Econometrics 4.ed., say. 147-148

Dış bağlantılar

  • R-istatistiksel yazılım paketinde bulunan normallik sınamaları hakkında bilgi :[1] 19 Şubat 2009 tarihinde Wayback Machine sitesinde arşivlendi.

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Ekonometri</span>

Ekonometri İki veya daha fazla verinin, birbirleri arasındaki ilişkiyi ve bu ilişkiden yola çıkarak, matematik, istatistik ve bilgisayar bilimi aracılığıyla ekonomik ilişkilerin ampirik bir biçimde değerlendirilerek, bu veriler arasındaki ilişkiyi inceleyen bilim dalıdır. Daha açık olmak gerekirse, "sonucu uygun metodlarla ilişkilendirilmiş, teori ve gözlemin eşzamanlı gelişimi tabanlı mevcut ekonomik olgunun nicel çözümlemesidir." Bir ekonomiye giriş ders kitabı ekonometriyi: "dağlarca verinin arasından basit ilişkileri çıkarmak için titizlikle araştırmak" olarak açıklamıştır. "Ekonometri" terimi ilk olarak Polonyalı ekonomist Pawel Ciompa tarafından 1910 yılında kullanılmıştır. Bugünkü kullanım şekline getiren ise Ragnar Frisch'dir. Günümüzde daha güçlü bilgisayar yazılımların varlığıyla ekonometrik analizlerin gücü artmıştır.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

İstatistik bilim dalında, Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uygulama iyiliği ölçüsüdür. İlk defa bu sınamayi ortaya atan ekonometrici A.K.Bera ve C.M.Jarque adları ile anılmaktadır.

İstatistik biliminde önemli bir yeri olan parametrik olmayan istatistik parametrik olmayan istatistiksel modeller ve parametrik olmayan çıkarımsal istatistik, özellikle parametrik olmayan istatistiksel hipotez sınamalar ile ilgilenir. Parametrik olmayan yöntemler çok defa dağılımlardan serbest yöntemler olarak da anılmaktadır, çünkü verilerin bilinen belirli olasılık dağılımı gösteren kaynaklardan geldiği varsayımına dayanmamaktadır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

<span class="mw-page-title-main">Doğrusal olmayan regresyon</span>

Doğrusal olmayan regresyon, istatistik bilimde gözlemi yapılan verilerin bir veya birden fazla bağımsız değişkenin model parametrelerinin doğrusal olmayan bileşiği olan ve bir veya daha çok sayıda bağımsız değişken ihtiva eden bir fonksiyonla modelleştirilmesini içeren bir regresyon (bağlanım) analizi türüdür. Veriler arka-arkaya yapılan yaklaşımlarla kurulan modele uydurularak çözümleme yapılır.

İstatistik bilim dalında, Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup Andrey Kolmogorov ve Nikolai Smirnov adlarındaki iki Sovyet bilim insanı tarafından oluşturulmuştur.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Student'ın t-testi istatistik bilimi içinde incelenen, eğer sıfır hipotez desteklenmekte ise test istatistiğinin bir Student's t-dağılımı gösterdiği hallerde uygulanan çıkartımsal istatistiksel hipotez sınamasıdır. Verilen iki değişik grup sayısal verinin birbirinden anlamlı olarak farklılık gösterip göstermemesini sınamak için kullanılabilir. En sıkça uygulanma örnekleri eğer test istatistiği içinde bulunan ölçek parametre faktörünün değerinin bir normal dağılım gösterdiği bilinmekte olduğu hallerde tatbik edilmektedir. Eğer test istatistiği içinde bulunan ölçek parametresi faktörünün değeri bilinmiyorsa ve bu faktör veriye dayayan bir kestirim ile ifade edilmekte ise test istatistiği bir Student'ın t-dağılımı gösterebilir.

Uygunluk iyiliği İstatistiksel modelin, gözlem setine ne kadar iyi uyulduğunu açıklar. Uygunluk iyiliğinin ölçütleri genel olarak gözlemlenen değerler ile söz konusu modelde beklenen arasındaki tutarsızlığı özetlemektedir. Bu ölçütler istatistiksel hipotez testi işleminde örneğin; hatalı modellerin normalleştirilmesinin testinde, özdeşleşmiş dağılımlardan çıkarılan iki örneklemin aynı olup olmadığının testinde, sonuç frekanslarının belirli bir dağılımı takip edip etmediğinin testinde kullanılabilir. Varyans analizinde, varyansın içerisindeki değişkenlerden biri karelerinin toplamının bir bölümünü oluşturabilir.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.