İçeriğe atla

Kutu grafiği

Michelson-Morley Deneyi veri setleri için dikey "Kutu Grafikleri"

İstatistik biliminde kutu grafiği (İngilizce: Box plot) bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu[1] gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

En basit çiziminde izlenecek yordam

1. Veri seti için Xmed: medyan (ortanca), Xmin (en küçük gözlem değeri), Q1 (birinci dörttebirlik) ve Q3 (üçüncü dörttebirlik) ve Xmaks(en büyük gözlem değeri) olarak bulunur. Bunun en kolay yaklaşımı veri setinin en küçük değerden en büyük değere kadar sıralaması yapılmasi ve bu sıralamadan beş sayılı özetleme tablosu çıkarılmasıdır; yani şu tablo verilebilir:

            Xmed
        Q1         Q3
   Xmin                Xmaks

2. Kutu grafiği iskeleti, veri minimum ile maksimum değerleri arasında üzeri ölçekli bir çizgiden oluşur; yani Xmin lle Xmaks noktaları arasında ya yatay ya da dikey bir çizgi halindedir.

3. Bu çizgi üzerinde ölçeğe göre bir kutu çizilir. Kutunun en küçük değeri birinci dörttebirlik Q1 ve en büyük değeri üçüncü dörttebirlik Q3 olur. Kutunun uç noktalarına Tukey tarafından "menteşe" adı verilmiştir; yani Q1 ve Q3 kutunun uç noktaları "menteşe" noktalarıdır. Bu kutunun uzunluğu QA = Q3 - Q1 olur ve bu QA verinin çeyrekler açıklığı ölçüsünü gösterir. Dikkat edilirse böylece gösterim bir "kutu" ile dörttebirlikler dışındaki (yani "menteşe" dışındaki) veri değerlerini gösteren "bıyıklar" şekle girmiştir. Bunun için bu grafiğe John Tükey tarafından kutu-ve-bıyıklar grafiği adı verilir.

4. Medyan "kutu"nun içinde ölçeğe göre yerine konulup işaretlenir.

Yorumlanması

Veri setinin niteliklerini bir kutu grafiği görsel şekilde ifade eder:

  • Merkezsel konum: Verinin merkezsel konumu kutunun içinde işaretlemiş olan medyan noktası ile gösterilir.
  • Yayılma: Verinin yayılmasının açıklık ölçüsüyle ölçülen niteliği, "kutu grafiği"'nin (yatay veya dikey) tüm çizgisi ile görülür. Çeyrekler açıklığı ise "kutu grafiği"nde kutunun büyüklüğü ile görülür.
  • Şekil:
    • Çarpıklık: Verinin "çarpıklık" ölçüsü bu grafikte bulunmaz. Ama verinin çarpıklık karakteri kutunun tüm çizginin küçük Xmin tarafına mı yoksa büyük Xmaks tarafına mı yakın olması ile görülür. Eğer kutu, çizginin küçük tarafında ise, kutu içindeki medyan noktası Xmin değerine yakın olur ve kutu dışında kalan çizginin yüksek kısmı (yani Xmaksa doğru kısmı) pozitife doğru uzunca bir kuyruk gösterir. Bu demektir ki veri pozitif çarpıklık niteliği gösterir. Eğer kutu, çizginin büyük tarafında ise, yani medyan noktası Xmaks değerine yakın ise, kutu dışında kalan çizginin düşük kısmı (yani Xmine doğru kısmı) negatife doğru uzun kuyruklu olur ve böylece veri değerleri negatif çarpıklık gösterir. Ancak "çarpıklık" karakterini doğrudan doğruya ölçen bir sayısal ölçü "kutu grafiği"nden hemen doğrudan doğruya çıkmaz.
    • Basıklık: Yine basıklık ölçüsü bu grafikte yoktur. Ama verinin basıklık niteliği hakkında bu grafikten bir kanaat edinilebilir. Dikkat edilirse bu kanaat edinme olup, epeyce zayıf, bir intiba edinme şeklindedir ve tam olarak basıklık niteliği öğrenilmez. Basıklık için bir kanaat sağlama kutunun genişliği ile çizginin genişliğini karşılaştırılma ile edinilebilir. Eğer kutu çizginin çoğunu kapsıyorsa genellikle verinin basık olduğu hakkında bir ilk intiba ortaya çıkabilir.

Alternatif şekiller

Aykırı değer sorunları ve kutu grafiği

Eğer veri sıralaması sonunda ya diğer değerlerden çok küçük veya diğer değerlerden çok büyük uç değer bulunmaktaysa kutu grafiği için bu problem olabilir. Bu çok değişik uç değerler bıyık çizgilerini çok uzun yapıp, geri kalan verilerin birbirine çok yakın olmalarına, hatta birbirleri ile çakışmalarına, neden olabilir. Bu nedenle alternatif kutu grafikleri kullanılabilir ve bu alternatifle uç noktalarının minimum ve maksimum veri değerlerinden diğer değerler olmasına dayanır. Şu alternatifler kullanılmıştır:

Bu şekillerde değişik uç noktası kullanıldığı zaman aykırı değerler özel olarak çizginin dışında, çok kere ölçeğe uymadan, birer nokta (veya boş nokta veya küçük yıldız veya *) halinde gösterilmeleri tavsiye edilmektedir.

Çentikli kutu grafiği

Bu halde kutu grafiğinde (çok kere kutu içinde medyan noktasının hemen yanında) bir veri aritmetik ortalama noktası konulmakta ile %95 (hatta %99) güven aralığı alt ve üst sınırları da birer "çentik (notch)" olarak çizgi üzerine konulmaktadır. Bu yaklaşım ile bir betimsel istatistik gösterim aracı olan kutu grafiği üzerine bir çıkarımsal istatistik (yani güven aralığı) eklenmiş olmakta ve kutu grafiğinin temelden karakteri değiştirilmektedir. Bir "çentikli kutu grafiği" çok kere bir çeşit çıkarımsal analiz aracı olarak aykırı değerlerin tanımlanması için kullanılmaktadır. Bazen kutu uçlarından çentiklere kadar "kalın bıyıklar" çizilmektedir.

Diğer yaklaşımlar

Kutu grafiğinin çeşitli diğer alternatifleri de bulunmaktadır ve bunlar burada hiç kritik görmeden şöyle sıralanabilir:

  • Bazen kutu grafikleri ya bir çubuk olarak ya da bir çizgi olarak verilip sadece bunlar üzerinde beş nokta ayrıca yazılarak gösterilir.
  • Bazen %2, %9, %91, %98 gibi beklemedik yüzdebirlikler de (%25, %50 ve %75 yüzdebirliklerle birlikte) yedi nokta olarak özel olarak gösterilmektedir. Eğer veri bir normal dağılım gösterirse bu 7 yüzdebirlik birbirlerinden eşit aralıklarla ayrılması gerekmektedir. Böylece kutu grafiği bir normal dağılıma uygunluk testi için parametrik olmayan sınama (uyma uygunluğu sınaması) aleti olarak kullanılmaktadır.

Örnekler

Ör.1./ İki örneklem veri seti için şu "Beş sayılı özetleme tablosu" verilmiş ve şu iki yatay "kutu grafiği" çizilmiştir:

Örneklem 1 (üstte) : Xmin=1, Q1= 7, Xmed= 9, Q3 = 12, Xmaks = 16.
Örneklem 2 (altta) : Xmin=1, Q1= 3, Xmed= 7, Q3 = 12, Xmaks = 16.

Ör.2./ Bir tüketim malı için yapılan yarışmaya cevap kuponu gönderenlerin yaşları şöyledir:

23, 21, 10, 15, 12, 15, 39, 17, 21, 30, 18, 20

Bu veri setinin en küçükten en büyüğe sıralanması şöyle elde edilir:

10, 12, 15, 15, 17, 18, 20, 21, 21, 23, 30, 39

"Beş sayılı özetleme tablosu" şöyle bulunur:

            19
        15        22
   10               39

Şu yatay kutu grafiği çizilmiştir:

      +---+--+
  ----|   +  |--------        *
      +---+--+

-+----+----+----+----+----+----+- Yaş
10   15   20   25   30   35   40

Not: 39 tam bir "aykırı değer" olduğu için tek başına bir nokta halinde (*) ile gösterilir.

Kaynakça

  1. ^ "Beş sayılı özetleme tablosu" minimum. birinci dörttebirlik, medyan (ortanca), üçüncü dörttebirlik ve maksimum değerlerinin ya bir sıra halinde ya da medyan en üstte ortada, dörttebirlikler ikinci satırda medyan yanlarında ve manimum ve maximum üçüncü satırda en dışarıda yazılarak elde edilen tablodur.

Ayrıca bakınız

Dış kaynaklar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Kalkülüs</span>

Başlangıçta sonsuz küçük hesap veya "sonsuz küçüklerin hesabı" olarak adlandırılan kalkülüs, geometrinin şekillerle çalışması ve cebirin aritmetik işlemlerin genellemelerinin incelenmesi gibi, kalkülüs sürekli değişimin matematiksel çalışmasıdır.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

Ortalama veya merkezsel konum ölçüleri, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber bu ölçünün çok belirli bazı dezavantajları söz konusudur. Bu yüzden matematik ve istatistikte, bir anakütle veya örneklem veri dizisi değerlerini temsil eden tek bir orta değer veya beklenen değer, olarak medyan (ortanca), mod (tepedeğer), geometrik ortalama, harmonik ortalama vb adlari verilen birçok değişik merkezsel konum ölçüleri geliştirilmiş ve pratikte kullanılmaktadır.

Açıklık, betimsel istatistikte bütün veri dizisini içinde kapsayan en küçük aralıktır. Bir veri dizisindeki ya en büyük değer ile en küçük değer arasındaki fark olarak ya da en küçük ve en büyük değerler aralığı verilerek ifade edilir. Örnek olarak; veri dizisi 5,9,1,23,12,23 ise dizisinin açıklığı ya 23-1=22 yahut da 1-23 olarak bildirilir. Bu nedenle açıklık için ölçüm birimi veri ölçüm biriminin aynısıdır.

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

<span class="mw-page-title-main">Çarpıklık</span>

Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Betimsel istatistik içinde, bir dörttebirlik sıralanmış bir veri setini dört eşit parçaya bölen ve böylece her bir bölünen parçanın anakütle veya örneklem verilerinin 1/4ini kapsadığı, üç tane özetleme değeridir. Çeyreklik olarak da isimlendirilmektedir.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

Betimsel istatistikte çeyrekler açıklığı sıralanmış bir veri dizisinin orta yarısını (%50'sini) kapsayan ve üçüncü dörtte birlik ve birinci dörtte birlik aralığını veya farkını gösteren bir istatistiksel yayılma ölçüsüdür. Birinci dörtte birlik sıralanmış veri dizisinin ilk %25'inden büyük ve üçüncü dörtte birlik sıralanmış veri dizisinin %25'inden daha küçük olduğu için, bu iki dörtte birlik arasında kalan veri yüzdesi %50'dir. Çeyrekler açıklığı ölçüm birimi veri ölçüm birimi ile aynıdır. İngilizcesi IQR'dir.

Betimsel istatistik içinde, bir yüzdebirlik sıralanmış bir veri serisini yüz eşit parçaya bölen ve böylece her bir bölünen parçanın anakütle veya örneklem verilerinin 1/100'ini kapsadığı, 99 tane özetleme değeridir. Betimsel istatistikte yüzdebirlikler çok popüler olarak kullanılır. Yüzdebirliklerin diğer bir popüler kullanım alanı, özellikle ABD'de, eğitimciler ve psikologlar tarafından uygulanan testlerin sonuçlarının normal eğri kestirimi uygulanarak yüzdeliklerin bulunması suretiyle verilmesidir.

<span class="mw-page-title-main">Geometrik medyan</span>

Geometrik medyan bir Öklid uzayında bulunan aralıklı set halindeki örneklem noktaları, bu noktalar arasındaki uzaklıkların toplamını en küçük (minimum) yapan bir nokta olarak tanımlanır. Tek boyutlu veri serisi içinde veri noktaları arasında uzaklıkları minimum yapma özelligi olan medyanın, çok boyutlu veri uzayında karşıtı olup, bir çokdeğişirli merkezsel konum ölçüsü olur. Geometrik medyan için kullanılan diğer adlar Fermat-Weber noktası veya 1-medyan olur.

Matematik bilimi içinde moment kavramı fizik bilimi için ortaya çıkartılmış olan moment kavramından geliştirilmiştir. Bir bir reel değişkenin reel-değerli fonksiyon olan f(x)in c değeri etrafında ninci momenti şöyle ifade edilir:

<span class="mw-page-title-main">Dal-yaprak grafikleri</span>

Dal-yaprak grafikleri, betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

Ondabirlik istatistik biliminin betimsel istatistik kısmında, sıralanmış bir veri setinin 10 eşit sayıda parçaya bölünüp, elde edilen her örneklem veya anakütle veri seti kısmının tümün ondabiri olmasını sağlayan 9 tane ölçüdür.

Çoklu sayılı özetleme tablosu betimsel istatistik alanında kullanılan genellikle aralıksal ölçekli veya oransal ölçekli tek değişirli sayısal verilerinin iki değişik tip özetleme araçlarıdır. Bu iki değişik özetleme araçları şunlardır:

  1. beş sayılı özetleme tablosu;
  2. yedi sayılı özetleme tablosu.

Temel matematikte sayı doğrusu, kalın çizgiden oluşan ve her noktası ilgili bir reel sayıya karşılık gelen en temel koordinat sistemidir. Daha çok tamsayılardan oluşan özel işaretli noktalar, aralarında eşit mesafe olacak biçimde gösterilir. Aşağıdaki şekilde her ne kadar −9 ile 9 arasındaki sayılar gösterilse bile, doğruya tüm reel sayılar dahildir. Bu sayılar her iki yönde sonsuza kadar devam eder. Bu sayı doğrusu daha çok, basit toplama ve çıkarmayı, özellikle negatif sayıları öğretmeye yardımcı olmak için kullanılır.

Medyan bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.

İstatistikte, keşifsel veri analizi, genellikle istatistiksel grafikler ve diğer veri görselleştirme yöntemlerini kullanarak temel özelliklerini özetlemek için veri kümelerini analiz etme yaklaşımıdır. İstatistiksel bir model kullanılabilir veya kullanılamaz. Ancak öncelikle EDA, verilerin bize resmi modelleme veya hipotez testi görevinin ötesinde neler söyleyebileceğini görmek için vardır. Keşifsel veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için John Tukey tarafından desteklenmiştir. EDA, model uydurma ve hipotez testi için gereken varsayımları daha dar bir şekilde kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya odaklanan ilk veri analizinden farklıdır. EDA, IDA'yı kapsamaktadır.