İçeriğe atla

Betimsel istatistik

Kontrol Edilmiş
Ortak kullanıma açık bir öğretim veritabanında DVD kiralama hakkında betimsel sayımlamaya örnek SQL sorgusu.

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

Betimsel istatistiğin çıkarımsal istatistikten veya daha uygun terimle endüktif istatistikten ana farkı betimsel istatistiğin hedefinin kantitatif sayı değerleri veya sayım veya sıralama değerleri halinde olan[1] bir veri setini kantitatif veya grafik şekilde ifade edip özetlemek olması ve çıkarımsal istatistik gibi bu verilerin temsil ettiği kabul edilen istatistiksel anakütle karakteri hakkında kestirim veya hipotez sınaması için analitik ifadeleri elde etme hedefi olmamasıdır.

Kantitatif verilerin analizi esas sonuçlarını endüktif istatistik analizleri kullanarak elde etmeye hedefli bir çalışma olsa bile, bunun yanında formel analize destek sağlamak için mutlaka betimsel istatistik araçlarının kullanılması gerekmektedir. Örneğin konuları insan davranışları olan bir formel istatistiksel analiz kapsayan bir çalışma tipik olarak tüm kapsamlı örneklem büyüklüğü, önemli alt grupların örneklem büyüklüğü, (ortalama yaş, veri konusu olarak ele alınan kişilerin erkek/kadın oranları gibi) değişik demografik, sosyal veya kliniksel karakterleri de kapsayan tablolarla birlikte verilir.


Betimsel istatistik için örnekler

Birçok istatistiksel araç hem bir betimsel istatistik hem de endüktif analiz aracı olarak kullanılabilmektedir. Örneğin, her ilköğretim okulunda yapılabilen okuma yaşını tespit etmek için verilen test sonuçları tek bir öğrenci veya tek bir sınıf hatta tek bir okulun öğrencileri için tipik test notu olarak ele alınabilir ve bu sonuçların orta konum notası ve yayılmaları hakkında bilgi temin etmek için betimsel istatistikler hazırlanıp kullanılır. Ama bu sonuçları değişik sınıfları karşılaştırmak veya değişik zamanlarda yapılan benzer testlere göre gelişmeyi incelemek istersek o zaman yaptığımız istatistiksel uğraşımız betimsel istatistik değil endüktif çıkarımsal istatistik analiz olur.

Betimsel istatistik araçlarının basit örnekleri şöyle verilebilir:

  • Tablolar
    • Sıklık sayımı tablosu
    • Sıklık dağılımı tablosu
    • Çok sayılı özetleme tabloları
    • İki-yönlü sınıflandırma tablosu
    • Çoklu-yönlü sınıflandırma tabloları
  • Grafiksel betimsel istatistik araçları

İstatistiksel göstergeler

Rassal değişkeni tanımlamanın iki ana biçimi vardır: Birikimli dağılım fonksiyonu ve Olasılık yoğunluk fonksiyonu (biri diferansiyel, diğeri integraldir). İstatistiksel göstergeler, bazı popülasyon parametrelerinin bir tahmini olan bir gözlem örneğinden hesaplanan özet değerlerdir.

Genel olarak, İstatistiksel göstergeler üç kategoriye ayrılır:

  1. Merkezsel Konum göstergeler
    1. Ortalama
    2. Beklenen değer
    3. Medyan, aykırı değerler den kurtulmak için bir araç
    4. Mod
  1. İstatistiksel yayılma ve sapma (şekil göstergeler)
    1. Açıklık
    2. Standart sapma, varyans ve varyasyon katsayısı
    3. Varyasyon katsayısı
    4. Çeyrekler açıklığı
    5. Kesirlilikler (kantil): Ondabirlik, Dörttebirlik, Yüzdebirlik.
  1. Dağılım şekli
    1. Çarpıklık ölçüsü
    2. Basıklık
    3. Moment (matematik)
    4. Varyans

İkili veya çokluklu bağımlılık ilişkileri Korelasyon ve Regresyon analizi'nde öğrenilir.

Ayrıca bakınız

Kaynakça

  1. ^ Bu şekilde ifade edilme dört değişik ölçülme ölçekleri şekildeki kantitatif verileri kapsayabilmek için yapılmaktadır.
  • Spiegel, Murray R ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

Dış bağlantılar

  • Pitsburgh Üniversitesi "Betimsel İstatistik" ders notları: [1]31 Mayıs 2010 tarihinde Wayback Machine sitesinde arşivlendi. (İngilizce) (Erişme:24.4.2010)
  • Sosyal araştırma metotları için "betimsel istatistik" notları: [2]5 Mayıs 2010 tarihinde Wayback Machine sitesinde arşivlendi. (İngilizce) (Erişme: 24.4.2010)

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">İstatistik</span>

İstatistik veya sayım bilimi, belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Bu çerçevede yapılan işlemlerin tümüne sayımlama denir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

İstatistiksel yığın yahut anakütle yahut evren kavramı istatistik biliminde belirli bir konudaki tüm değişkenlerin ölçülebilecek değerlerini ifade eder. Örneğin; Türkiye'de bulunan kişiler bir istatistiksel yığın değil, bunların mümkün sayısı bir istatistiksel yığın olmaktadır. Ankara'nın sayılması mümkün nüfusu ise Türkiye yığınından alınmış bir örneklemdir. Dikkat edilirse istatistiksel yığın kavramı ile, herhangi bir değişkeni içeren elemanlara değil, değişkenlerin mümkün olarak ölçülebilen veya sayılabilen içerik karakteristiğine atıf yapılmaktadır. Böylece istatistikte istatistiksel yığın ya ölçülebilir ya sayılabilir karekteristiktir ve sayısal olarak ortaya çıkabilmesi mümkündür.

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

İstatistik biliminde önemli bir yeri olan parametrik olmayan istatistik parametrik olmayan istatistiksel modeller ve parametrik olmayan çıkarımsal istatistik, özellikle parametrik olmayan istatistiksel hipotez sınamalar ile ilgilenir. Parametrik olmayan yöntemler çok defa dağılımlardan serbest yöntemler olarak da anılmaktadır, çünkü verilerin bilinen belirli olasılık dağılımı gösteren kaynaklardan geldiği varsayımına dayanmamaktadır.

İstatistik bilim dalı içinde Friedman sıralamalı iki yönlü varyans analizi sonradan çok tanınmış bir iktisatçı olan Amerikan Milton Friedman tarafından ortaya atılan bir parametrik olmayan istatistik sınamasıdır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalı içinde tekrarlama sınaması iki değer (0-1) alan veya iki değer alma şekline dönüştürülmüş bir kategorik değişken için örneklem veri serisinin ardı ardına bir rastgele sıralama ile gelip gelmediğini sınamak için kullanılan bir parametrik olmayan istatistik yöntemidir.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

İstatistiksel yayılma ve sapma istatistik biliminde bir sayısal kantitatif değişkenin ölçülen veya ölçülebilen değerlerinin veya bir olasılık dağılımı'nın genel olarak veya bir merkez noktasından yaygınlığı veya değişebilirliği özelliğidir. İstatistiksel yayılma veya sapma kantitatif değişkenlerin veya rassal değişkenlerin diğer bir özelliği olan merkezsel konum ölçüleri ile birlikte istatistikçilerin en çok ilgilendikleri konulardır. Genel olarak günlük hayatta en çok kullanılan yayılma ölçüsü açıklık olmakla beraber, bunun gayet bariz olarak aykırı değerlerden çok etkilenmesi dolayısı ile çeyrekler açıklığı, standart sapma ve varyans gibi diğer çok kullanılan yayılma ölçüleri geliştirilmiştir.

<span class="mw-page-title-main">Kutu grafiği</span>

İstatistik biliminde kutu grafiği bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

Çoklu sayılı özetleme tablosu betimsel istatistik alanında kullanılan genellikle aralıksal ölçekli veya oransal ölçekli tek değişirli sayısal verilerinin iki değişik tip özetleme araçlarıdır. Bu iki değişik özetleme araçları şunlardır:

  1. beş sayılı özetleme tablosu;
  2. yedi sayılı özetleme tablosu.

Çıkarımsal istatistikte, boş hipotez, sıfır hipotez ya da sıfır hipotezi, beklenenin dışında bir durumun olmadığını, mesela gruplar ya da değişkenler arasında bir ilişki bulunmadığını veya ölçülen iki olgunun arasında bir fark olmadığını kabul eden genel bir önermedir. Örneğin tıpta, denenen bir tedavinin etkisiz olması; hukukta, sanığın suçsuz olması birer boş hipotezdir. Modern bilim hipotezler üretip bunları test ederek ilerler; bir boş hipotezinin belirli bir güvenilirlik aralığında istatistiksel olarak kabul ya da reddedilmesi hipotez testleriyle yapılmaktadır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Student'ın t-testi istatistik bilimi içinde incelenen, eğer sıfır hipotez desteklenmekte ise test istatistiğinin bir Student's t-dağılımı gösterdiği hallerde uygulanan çıkartımsal istatistiksel hipotez sınamasıdır. Verilen iki değişik grup sayısal verinin birbirinden anlamlı olarak farklılık gösterip göstermemesini sınamak için kullanılabilir. En sıkça uygulanma örnekleri eğer test istatistiği içinde bulunan ölçek parametre faktörünün değerinin bir normal dağılım gösterdiği bilinmekte olduğu hallerde tatbik edilmektedir. Eğer test istatistiği içinde bulunan ölçek parametresi faktörünün değeri bilinmiyorsa ve bu faktör veriye dayayan bir kestirim ile ifade edilmekte ise test istatistiği bir Student'ın t-dağılımı gösterebilir.

ÇıkarımsaI istatistik veya çıkarımsal sayımlama, veri analizi yoluyla verinin ait olduğu dağılımın özelliklerini anlama süreçlerini kapsar. Çıkarımsal istatistik bir anakütlenin özellikleri hakkında çıkarımlar yapar: bu hipotez testleri ve anakütle paramatrelerinin tahminlerini içerir. Anakütle verisinin gözlenen veri kümesinden daha büyük olduğu varsayılır; diğer bir deyişle, gözlenen verilerin daha büyük bir anakütleden alınmış örneklem olduğu varsayılır.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.