İçeriğe atla

Çoklu sayılı özetleme tabloları

Çoklu sayılı özetleme tablosu betimsel istatistik alanında kullanılan genellikle aralıksal ölçekli veya oransal ölçekli tek değişirli sayısal verilerinin iki değişik tip özetleme araçlarıdır. Bu iki değişik özetleme araçları şunlardır:

  1. beş sayılı özetleme tablosu;
  2. yedi sayılı özetleme tablosu.

Beş sayılı özetleme tablosu

Açıklama

Michelson–Morley deneyi dikey kutu grafikleri aynı zamanda beş-sayılı özetlemeleri de gösterir.

Beş sayılı özetleme tablosu bir betimsel istatistik veri özetleme araci olup bir örneklem veri serisinin alt ve üst uç noktalarından ve sıralanmış verilerini dört eşit parçaya bölen üç ölçüden oluşur; bu beş nokta şunlardır:

  1. Xmin: Örneklem minimumu "en küçük gözlem değeri"
  2. Q1: Dörttebirlik "birinci veya alt dörttebirlik"
  3. Xmed: Medyan "ortanca veya sıralanmış verilerin ortası"
  4. Q1 : Dörttebirlik "üçüncü veya üst dörttebirlik"
  5. Xmaks: Örneklem maksimumu "en büyük gözlem değeri"

Bu noktalar soyle bir tabloya konulabilir:

            Xmed
        Q1         Q3
   Xmin                Xmaks

Tablonun alternatif görünüşü şōyle de olabilir:

Medyan
Alt dörttebirlikÜst dörttebirlik
MinimumMaksimum

Bu araç ve kullandığı beş özetleme noktası tek değişirli sayısal verilerinin genellikle aralıksal ölçekli veya oransal ölçekli olmalıdır. Bazı istatistikçiler sırasal ölçekli veriler için de uygun olacağını kabul etmektedir.

Kullanılış

Beş sayılı özetleme tablosu gözlemlerin dağılımı hakkında kapsamlı ama kısa bir özet sağlamaktadır. Beş tane özetleme sayısını vermekle tek bir özetleme ölçüsünü seçmenin zorluklarından kaçınılmış olmaktadır. Medyan verilmesi ile merkezsel konum niteliği özetlenmekte; minimum ve maksimum verilmekle açıklık değeri ve dörttebirlikler verilmekle çeyrekler açıklığı açıkça görülüp çokluluk dağılımının istatistiksel yayılma ve sapma niteliği ortaya çıkartılmaktadır. Bu grafiksel alet yalnız aralıklı ve orantılı ölçekli miktarsal veriler için değil de sırasal ölçekli veriler için de rahatlıkla kullanılabilmektedir.

Birkaç değişik veri dağılımının karşılaştırılması ya birkaç beş-sayılı özetleme tablosunun veya bunlarda kullanılan grafiksel birkaç kutu grafiği'ni birlikte vererek kolayca yapılabilme imkânı ortaya çıkmaktadır.

Örnek

Örnek veri güneş sistemi içindeki gezegenleri büyük küçük uydu sayısını vermektedir:

0, 0, 1, 2, 63, 61, 27, 13.

Önce bu gözlem verilerini artan bir sıralamaya tabi tutarız:

0, 0, 1, 2, 13, 27, 61, 63.

Elde 8 tane veri bulunmaktadır ve medyan ve dörttebirlikler şöyle bulunur:

Özet ölçü Sıra numarası Değer
Birinci dörttebirlik (8+1)(1/4)=2,75 0+(1-0)(0,75)=0,75
Medyan (8+1)(1/2)=4,5 (2+13)/2 = 7,5.
Üçüncü dörttebirlik (8+1)(3/4)=6,75 27+(61-27)(0,75)=52,5

Böylece beş-sayılı-özetleme tablosu şöyle verilebilir:

            7,5
        0,5         44
   0                  63

R istatistik yazılımı kullanarak örnek çözümü

İyi bilinen istatistik yazılımlarından başta gelenlerden olan "R programlama dili" ile beş-sayılı-özetleme tablosu kurmak için fivenum fonksiyonu kullanılır:

> uydular <- c(0, 0, 1, 2, 63, 61, 27, 13)
> fivenum(uydular)
[1]  0.0  0.5  7.5 44.0 63.0
> summary(fivenum(uydular))
   Min. 1st Qu. Median    Mean 3rd Qu. Max. 
    0.0     0.5     7.5    23.0    44.0    63.0 

Görüldüğü gibi summary komutası kullanarak sonuç alınırken beş-sayılı-özetleme için gerekmeyen aritmetik ortalama değeri de verilmektedir.

Yedi sayılı özetleme tablosu

(Parametrik) Yedi-sayılı özetleme

Bir normal dağılımlı model için uygun parametrelerden oluşan ve bu nedenle parametrik istatistik yaklaşımı olarak kabul edilen bu tür "yedi sayılı özetleme tablosu"nda şu sayısal değerler bulunmaktadır:

  1. 2. yüzdebirlik
  2. 9. yüzdebirlik
  3. 25. yüzdebirlik veya alt dörttebirlik veya birinci dörttebirlik
  4. 50inci yüzdebirlik veyamedian (ortanca veya ikinci dörttebirlik)
  5. 75. yüzdebirlik veya üst dörttebirlik veya üçüncü dörttebirlik
  6. 91. yüzdebirlik
  7. 98. yüzdebirlik

Bu tablodaki ortadaki üç özetleme ölçüsü – alt dörttebirlik, medyan ve üst dörttebirlik – "beş-sayılı-özetleme" için standart istatistiklerdir ve kutu grafiği içinde de kullanılırlar.

Bowley’nin yedi-sayılı-özetleme tablosu

İngiliz istatistikçisi Arthur Bowley parametrik olmayan istatistik olarak maksimum ve minimum, medyan, dörttebirlikler ve iki uç ondabirliklerden oluşan bir "yedi-sayılı özetleme" önermiştir.[1]

Bu yedi özetleme ölçüsü şunlardır:

  1. Xmin : Örneklem minimumu
  2. D1 : "1. ondabirlik"
  3. Q1 : "1. dörttebirlik"
  4. Xmed: "medyan"
  5. Q3 : "3. dörttebirlik
  6. D9 : "9. ondabirlik"
  7. Xmax : "Örneklem maksimumu"

Ayrıca bakınız

Kaynakça

  1. ^ Bu özetlemeye "yedi pozisyon" adını vermektedir. Bowley, Arthur (1920) Elementary Manual of Statistics, 3. ed., say.62 .
  • Bu madde kısmen Ingilizce Wikipedia "Five-number_summary" maddesi kaynaklıdır: İngilizce Wikipedia 23 Şubat 2010 tarihinde Wayback Machine sitesinde arşivlendi. (İngilizce) (Erişme:28.5.2010)
  • Bu madde kısmen Ingilizce Wikipedia "Seven-number_summary" maddesi kaynaklıdır: [1]13 Haziran 2011 tarihinde Wayback Machine sitesinde arşivlendi. (İngilizce) (Erişme:28.5.2010)

Dış kaynaklar

  • Hoaglin, David C, Frederick Mosteller ve John W. Tukey (1983), Understanding robust and exploratory data analysis New York:Wiley ISBN 0-471-09777-2 (İngilizce)

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">İstatistik</span>

İstatistik veya sayım bilimi, belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Bu çerçevede yapılan işlemlerin tümüne sayımlama denir.

<span class="mw-page-title-main">Aritmetik ortalama</span>

Aritmetik ortalama, bir sayı dizisindeki elemanların toplamının eleman sayısına bölünmesi ile elde edilir. İstatistik bilim dalında hem betimsel istatistik alanında hem de çıkarımsal istatistik alanında en çok kullanan merkezi eğilim ölçüsü' dür.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

Ortalama veya merkezsel konum ölçüleri, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber bu ölçünün çok belirli bazı dezavantajları söz konusudur. Bu yüzden matematik ve istatistikte, bir anakütle veya örneklem veri dizisi değerlerini temsil eden tek bir orta değer veya beklenen değer, olarak medyan (ortanca), mod (tepedeğer), geometrik ortalama, harmonik ortalama vb adlari verilen birçok değişik merkezsel konum ölçüleri geliştirilmiş ve pratikte kullanılmaktadır.

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

Betimsel istatistik içinde, bir dörttebirlik sıralanmış bir veri setini dört eşit parçaya bölen ve böylece her bir bölünen parçanın anakütle veya örneklem verilerinin 1/4ini kapsadığı, üç tane özetleme değeridir. Çeyreklik olarak da isimlendirilmektedir.

Matematik ve istatistik bilim dallarında, bir değişken için sayısal veri ölçülme ölçeği, o değişken içindeki nesneleri temsil eden sayısal değerlerin kapsadıkları bilgilerin özelliklerinin belirli bir şekilde sınıflandırmasıdır. İncelenen kavramlar Amerikan uygulamalı matematikçi Stanley Smith Stevens tarafından teklif edilip geliştirilmiştir. Stevens'in ölçekler kuramına göre bir değişken için sayısal veriler dört değişik şekilde ölçülme ölçeğine sahip olabilirler: isimsel, sırasal, aralıksal ve oransal. Bu değişik ölçeklere göre değişken verilerine, değişik matematik ve istatistiksel işlemlerin ve ölçümlerin değişik şekilde uygulanması gerekmektedir.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalında Yates süreklilik düzeltmesi veya Yates'in ki-kare sınamasıisimsel ölçekli' veya sırasal ölçekli iki değişken için gözlemlenmiş örneklem verileri bir bağımlılık tablosu halinde betimlenmiş iken, ilişkili iki değişken arasında bağımsızlık sınaması yapmak için bazı özel hallerde kullanılır.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Betimsel istatistikte çeyrekler açıklığı sıralanmış bir veri dizisinin orta yarısını (%50'sini) kapsayan ve üçüncü dörtte birlik ve birinci dörtte birlik aralığını veya farkını gösteren bir istatistiksel yayılma ölçüsüdür. Birinci dörtte birlik sıralanmış veri dizisinin ilk %25'inden büyük ve üçüncü dörtte birlik sıralanmış veri dizisinin %25'inden daha küçük olduğu için, bu iki dörtte birlik arasında kalan veri yüzdesi %50'dir. Çeyrekler açıklığı ölçüm birimi veri ölçüm birimi ile aynıdır. İngilizcesi IQR'dir.

Betimsel istatistik içinde, bir yüzdebirlik sıralanmış bir veri serisini yüz eşit parçaya bölen ve böylece her bir bölünen parçanın anakütle veya örneklem verilerinin 1/100'ini kapsadığı, 99 tane özetleme değeridir. Betimsel istatistikte yüzdebirlikler çok popüler olarak kullanılır. Yüzdebirliklerin diğer bir popüler kullanım alanı, özellikle ABD'de, eğitimciler ve psikologlar tarafından uygulanan testlerin sonuçlarının normal eğri kestirimi uygulanarak yüzdeliklerin bulunması suretiyle verilmesidir.

Medyan testi, bir örneklem kümesinin belirli bir medyan değerine sahip olan bir anakütleden gelip gelmediğinin araştırılmasında kullanılan çift taraflı bir testtir. istatistik biliminde çıkarımsal istatistik alanında bir parametrik olmayan istatistik aletidir ve Pearson'un ki-kare testinın özel bir halidir. Mood'un-medyan-testi veya Westenberg-Mood-medyan-testi veya Brown-Mood-medyan-testi olarak da anılır.

<span class="mw-page-title-main">Dal-yaprak grafikleri</span>

Dal-yaprak grafikleri, betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

<span class="mw-page-title-main">Kutu grafiği</span>

İstatistik biliminde kutu grafiği bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

Ondabirlik istatistik biliminin betimsel istatistik kısmında, sıralanmış bir veri setinin 10 eşit sayıda parçaya bölünüp, elde edilen her örneklem veya anakütle veri seti kısmının tümün ondabiri olmasını sağlayan 9 tane ölçüdür.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Phi katsayısı veya Φ - katsayısı veya ortalama kare kontenjansı katsayısı olarak isimlendirilen ve matematik notasyonla by φ olarak ifade edilen iki tane iki-değerli isimsel veya sırasal değişkenin birbirine "birliktelik (association)" ilişkisini gösteren ölçü katsayılarıdır.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

Medyan bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.