İçeriğe atla

Dal-yaprak grafikleri

Tren tarifesinin "dal-yaprak gösterimi", Yokohoma, Japonya "Minatomirai" tren istasyonunda.

Dal-yaprak grafikleri (İngilizce: stem-and-leaf plot veya stemplot), betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

John Tukey’in yaptığı tanıma bağlı olarak açıklayacak olursak grafikteki satırlara "dal" (stem) satırların yanındaki açıklamalara (sayısal değerlere) "yaprak" (leaf) denir. Kısaca bu grafiği çizerken ve okurken kafamızda dallanmış bir ağaç görüntüsü oluşmalıdır.

Tarihçe

Gösterim 20. yüzyılın ilk çeyreğinde istatistikçi Arthur Bowley’in çalışmalarında görülmektedir. Yaygın olarak kullanılmaya başlaması Amerikalı istatistikçi John Tukey’in 1977’de basılan Exploratory Data Analysis adlı kitabından sonradır.

Dal-yaprak grafiklerine görülebilecek veri nitelikleri

  • Gözlem değerleri nerelerde yoğunlaşmıştır?
  • Verilerin yayılma aralığı ne kadardır?
  • Küme çarpık mıdır?
  • Veri kümesinde kaç tane tepe vardır?
  • Verilerin birbirine olan uzaklığı görülebilir.

Dal-yaprak grafiklerinin çizimi

En basit dal-yaprak grafiği aralarında bir çizgi bulunan iki sütun sayıdan oluşur; bu sütunlardan soldaki ilki "dal"ler oluşturup sağdaki ikinci sütundakiler "yaprak"lardır. Böylece iki veya bir sayıdan oluşan bir veri seti olduğu gibi dal-yaprak grafiğinde görülür.

Bir dal-yaprak grafiği çizimi aşamaları şunlardır:

  • . Veri seti en küçükten değerden en büyük değere doğru sıralanır.
  • . Her gözlem değeri dal ve yaprak olarak ayrılır. İki basamaklı tam sayıların onlar basamağındaki rakam 'dal'; birler basamağındaki rakam 'yaprak' diye isimlendirilir. Daha büyük basamaklı veriler için veri değerlerinin belli bir basamağı için (örneğin yüzlüler basamağı şeklinde) yaklaşımları alınır ve bunlar "yaprak" olarak kullanılır.
  • . "Dallar" dikey bir doğrunun sol yanında küçükten büyüğe (veya büyükten küçüğe) doğru sıralanmış "yapraklar" ise dikey bir doğrunun sağ yanında dalların sağında sağa doğru dizilerek yazılır. Her bir veri bir "yaprak" ile ifade edilir.
  • . Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve dal birimi verilir.

Dal-yaprak grafiği çizilirken öncelikle gözlem değerleri büyüklük sırasına konulurlar. Gözlem değerlerinin kullanılan son sayısı "yapraktır". Buna göre veri değerleri değişik biçimlerde "dal" ve "yaprak" kısımlarına ayrılabilirler.

Ayrım biçimlerine örnek için dört sayılı bir veri değeri alınsın 2452:

  • 245|2 - Dört sayıdan (binler, yüzler, onlar ve birlerden) oluşan veri değeri ve yaprak dördüncü (birler) sayısı 5;
  • 24|5 - Üç sayıya yuvarlanan (binler, yüzler ve onlar) veri değeri ve yaprak üçüncü aşağı yuvarlanmış (onlar) sayısı 5;
  • 2|5 - İki sayıya yuvarlanan (binler, yüzler) veri değeri ve yaprak ikinci yukarı yuvarlanmış (yüzler) sayısı 5.

Yaprak değeri dal olan diğer değerler bir dik çizgi ile ayrılır. Bu dik çizginin solundakiler dal, sağındakiler yapraktır.

  • "Dal"ın onlar sayılarının "kolay anlaşılır (nice)" kısımlar ayrılması ile elde edilir yani ya 5'li ya 10'lu hatta 2'li dallar olabilir.

Örnek 1:
Veri değerleri 2030 yılında ülkelerin toplam nüfusu içinde olabilecek erkek nüfus oranları:

ÜlkeİngiltereABDTürkiyeÇinTogoSuriyeVenezuela
Oran24,741,510,22513,451,620

Veri değerleri: "24,7", "41,5", "10,2", "25", "13,4", "51,6", "20" Sıralanmış veri değerleri: "10,2", "13,4", "20", "23,7", "25", "41,5", "51,6"

Bu veri değerleri üç hanelidir: onlar, birler ve ondalıklar. Yaprağın hangisi olarak seçileceği ilk sorun olur ve değişik seçimler değişik dal-yaprak-grafiği verir:

En uygun alternatif birler basamağını yaprak olarak farz ederek ve verileri yuvarlayıp onlar ve birlere indirerek çizime devam etmektir. Bu halde dal-yaprak-grafiği çizilmesi için kullanılan veri değerleri şunlar olur: 10, 13, 20, 24, 25, 42, 52
Dallar "onlar" olabilir: yani 1_, 2_, 3_, 4_, 5_

Kullanana biraz daha destek sağlamak için bir "anahtar" örnek değer, yaprak birimi ve gövde birimi verilir.

Bu alternatif için şu "dal-yaprak-grafiği çizimi" elde edilir:

  1|0 3
  2|0 4 5
  3|
  4|2
  5|2
 anahtar: 4|2=42
 yaprak birimi: 1,0
 dal birimi: 10,0

Bu çizimde sağdaki her bir yaprak sayı değişik veri değeridir; örneğin 2|0 4 5 üç veriyi gösterir 20, 24, 25. Yani dallanma ve yapraklama şu şekilde yapılmıştır: 1 dalı (Türkiye, Togo) 2 dalı (Çin, İngiltere, Venezuela), 4 dalı (ABD), 5 dalı (Suriye). Dallar yukarıdan aşağıya ister büyükten küçüğe ister küçükten büyüğe sıralanabilir.

Dal sayısı azsa yorumlamayı kolaylaştırmak adına her dal için "5 sayı" kullanılabilir. İlk dala 0-4 arası ikinci dala 5-9 arası sayıları yazilir vb..

   1|0 3
   1|
   2|0 4
   2|
   4|1
   4|
   5|1
   5|

Bu gösterim biçimiyle hemen bu grafiğin dezavantajı görülebilir. En uygun veriler iki sayılı olanlardır; burada onlar ve birler. Diğer sayılar (burada ondalıklar) basamağındaki ayrıntıyı yitiririz.

Dal yaprak grafiğini saatin tersi yönde 90 derece çevirirseniz grafiğin sıklık dağılımı tablosuna ve hatta bir histograma benzediğini görülebilir. Yorumlamalarda yardımcı olabilir.

Bu grafikten çıkarabileceğimiz yorumlar şunlardır: • 2030 yılında ülkelerdeki toplam nüfusa göre erkek nüfus oranı yayılımı (yani açıklık) %10 ile %51 arasındadır. • Oranlar özellikle %10 ve %20 arasında yoğunlaşmıştır. • Dağılım tek tepelidir. • Dağılım çarpıktır.

Eksi değerleri de görmek açısından şu örneği incelemek uygun olabilir.

Örnek 2:
Bir n=9 büyüklüğündeki bir örneklem veri seti şöyle verilmiş olsun:
"167,8" "56,78" "-236,652" "-14" "43,2" "55" "245" "124,5" "-124.52" "567,8"

Sıralanınca bu veri seti şöyle olur: "-236,652" "-124,53" "-14" "43,3" "55" "56,78" "167,8" "245" "567.8"

Bunları 2 basamaklı ifade etmek için her veri 10 ile bölünüp iki basamaklı hale gelinceye kadar yuvarlanır; yani:"-24" "-12" "-1" "4" "5" "6" "17" "25" "57"

"Dal-yaprak gösterimi" şu olur:

-2 | 4
-1 | 2
-0 | 1
 0 | 4 5 6 
 1 | 7
 2 | 5
 3 | 
 4 | 
 5 | 7
anahtar: -2|4=240 ≈ 236,652 
yaprak birimi: 10
dal birimi: 100,0

Sırt sırta dal yaprak grafikleri

Dal yaprak grafiklerinin en önemli özelliklerinden biri iki veri kümesini karşılaştırmada sağladığı kolaylıktır. Bu grafiği çizerken dal kısmı ortaya yazılır ve farklı iki veri seti sağ ve sol yana yapraklandırılır. Bu şekilde iki farklı veri seti için sağlıklı yorumlar yapılabilir. Çizilmesinde başta belirtilen kurallar aynen geçerlidir.

Örnek 3:
Bir değişken hakkında iki örneklem veri seti elde edilsin:

Set 1 (n=25) :21 22 26 25 24 28 22 22 21 22 24 22 34 30 37 30 53 54 56 54 55 62 76 72 71
Set 2 (n=31) :28 22 20 20 26 20 20 29 26 24 23 28 26 38 32 30 30 36 54 51 52 50 55 56 59 58 54 61 75 76 77
Her iki örneklem veri seti de sıralanınca şunlar elde edilir:
Set 1 (n=25) :21 21 22 22 22 22 22 22 24 24 25 26 28 30 30 34 37 53 54 54 55 62 71 72 76
Set 2 (n=31) :20 20 20 20 22 23 24 26 26 26 28 28 29 30 30 32 36 38 50 51 52 54 54 55 56 58 59 61 75 76 77
"Sırt sırta dal-yaprak gösterimi" şu olur:
8 6 5 4 4 2 2 2 2 2 1 1|2|0 0 0 0 2 3 4 6 6 6 8 8 9 
                7 4 0 0|3|0 0 2 6 8
               5 4 4 3|5|0 1 2 4 4 5 6 8 9
                      2|6|1
                  6 2 1|7|5 6 7
 anahtar: 3|2=32
 yaprak birimi: 1,0
 dal birimi: 10,0

Daha önce dal yaprak grafiklerini okumayı açıklanmıştı. Burada da bunu karşılaştırma yoluyla yaparak iki veri seti arasındaki aynılıklar ve farkları görülebilir.

Beşli Özet

Veri setine bakarak Dal yaprak grafiklerini rahat bir şekilde çizebiliriz fakat birkaç işlem yaparak verilere ilişkin bilgileri arttırabiliriz. Bunun içinde beşli özet kullanılır. Beşli özet kısaca veri kümesindeki iki uç değerin, iki dördebölenin, bir de ortancanın bulunup alt alta yazılmasıdır.[1]

Kaynakça

  1. ^ Şenesen (2004), s. 280

Ayrıca bakınız

  • İstatistiksel grafik

Kaynakça

  • Tukey, John (1977), EDA Exploratory Data Analysis, Addison-Wesley. ISBN 0-201-07616-0. (İngilizce)
  • Akdeniz, Fikri (2006), Olasılık ve İstatistik, İstanbul:Kartal Yayınevi ISBN 975-8561-38-3.
  • Şenesen, Ümit (2004), İstatistik. Sayıların Arkasını Anlamak, İstanbul:Literatür Yayıncılık ISBN 9799750402839.

İlgili Araştırma Makaleleri

Sayı, sayma, ölçme ve etiketleme için kullanılan bir matematiksel nesnedir. En temel örnek, doğal sayılardır. Sayılar, sayı adı (numeral) ile dilde temsil edilebilir. Daha evrensel olarak, tekil sayılar rakam adı verilen sembollerle temsil edilebilir; örneğin, "5" beş sayısını temsil eden bir rakamdır. Yalnızca nispeten az sayıda sembolün ezberlenebilmesi nedeniyle, temel rakamlar genellikle bir rakam sisteminde organize edilir, bu da herhangi bir sayıyı temsil etmenin organize bir yoludur. En yaygın rakam sistemi Hint-Arap rakam sistemidir, bu sistem on temel sayısal sembol, yani rakam kullanılarak herhangi bir negatif olmayan tam sayının temsil edilmesine olanak tanır. Sayılar sayma ve ölçme dışında, etiketlerde, sıralamada ve kodlarda kullanılmak için de sıklıkla kullanılır. Yaygın kullanımda, bir rakam ile temsil ettiği sayı net bir şekilde ayrılmaz.

<span class="mw-page-title-main">Doğal sayılar</span> sayma sayıları kümesine 0ın eklenmesiyle oluşan sayılar kümesi

Doğal sayılar, şeklinde sıralanan tam sayılardır ve kimi tanımlamalara göre 0 sayısı da bu kümeye dâhil edilebilir. Aralarında standart ISO 80000-2'nin de bulunduğu bazı tanımlar doğal sayıları 0 ile başlatır ve bu durum negatif olmayan tam sayılar için 0, 1, 2, 3, ... şeklinde bir karşılık bulurken, bazı tanımlamalar 1 ile başlamakta ve bu da pozitif tam sayılar için 1, 2, 3, ... şeklinde bir eşlenik oluşturur. Doğal sayıları sıfır olmadan ele alan metinlerde, sıfırın da dahil edildiği doğal sayılar bazen tam sayılar olarak adlandırılırken diğer bazı metinlerde bu terim, negatif tam sayılar da dahil olmak üzere tam sayılar için kullanılmaktadır. Özellikle ilkokul seviyesindeki eğitimde, doğal sayılar, negatif tam sayıları ve sıfırı dışlamak ve saymanın ayrık yapısını, gerçek sayıların bir karakteristiği olan ölçümün sürekliliğiyle karşıtlık oluşturmak amacıyla sayma sayıları olarak adlandırılabilir.

<span class="mw-page-title-main">Aritmetik</span> temel matematik dalı

Aritmetik; matematiğin sayılar arasındaki ilişkiler ile sayıların problem çözmede kullanımı ile ilgilenen dalı. Aritmetik kavramı ile genellikle sayılar teorisi, ölçme ve hesaplama kastedilir. Bununla birlikte bazı matematikçiler daha karmaşık çeşitli işlemleri de aritmetik başlığı altında değerlendirirler.

<span class="mw-page-title-main">Pi sayısı</span> dairenin çevresinin çapına oranını ifade eden irrasyonel matematik sabiti

Pi sayısı , bir dairenin çevresinin çapına bölümü ile elde edilen irrasyonel matematik sabitidir. İsmini, Yunanca περίμετρον (çevre) sözcüğünün ilk harfi olan π harfinden alır. Pi sayısı, Arşimet sabiti ve Ludolph sayısı olarak da bilinir. Aynı zamanda ismini yunancada pie anlamına gelen πίτα' dan alır.

<span class="mw-page-title-main">Rakam</span>

Rakam, sayıları yazılı olarak göstermeye yarayan sembollerden her biri. Pek çok dil ve kültürde kullanılan Arap kökenli rakamlar şunlardır:

<span class="mw-page-title-main">Parite (matematik)</span> hh

Parite, matematikte herhangi bir tam sayının çift ya da tek olması durumudur. Çift sayılar, 2 ile kalansız bölünebilen sayılardır. Tek sayılar ise 2 ile kalansız bölünemeyen sayılardır. Örneğin onluk sistemde 4 ve 8 rakamlarının her ikisi de çift olduğu için "aynı pariteye sahip" kabul edilirler.

▪ Çift doğal sayılar: 0, 2, 4, 6, 8,...
▪ Tek doğal sayılar: 1, 3, 5, 7, 9,...
▪ 2n = 0 eşitliğini sağlayan bir tam sayı mevcuttur: 2 × 0 = 0.
▪ 2n + 1 = 0 eşitliğini sağlayacak bir n tam sayısı yoktur.
▪ Birden fazla basamaklı sayıların birler basamağında 0'ın olması, bu sayıların asal çarpanları arasında 2 ve 5'in olduğunu, dolayısıyla çift sayı olduklarını gösterir.
<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

<span class="mw-page-title-main">Üs</span> matematik terimi

Üs, bazen kuvvet, b taban, n üs veya kuvvet olmak üzere, bn olarak gösterilen ve "b üssü n", "b üzeri n" veya "b'nin n'inci kuvveti" olarak telaffuz edilen matematiksel işlem. Eğer n pozitif bir tam sayıysa, tabanın tekrarlanan çarpımına karşılık gelir:

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Betimsel istatistik içinde, bir dörttebirlik sıralanmış bir veri setini dört eşit parçaya bölen ve böylece her bir bölünen parçanın anakütle veya örneklem verilerinin 1/4ini kapsadığı, üç tane özetleme değeridir. Çeyreklik olarak da isimlendirilmektedir.

Taban aritmetiğinde iki basamaklı bir (ab) sayısı 10a+b şeklinde, üç basamaklı bir (abc) sayısı 100a + 10b + c şeklinde, dört basamaklı bir (abcd) sayısı 1000a + 100b + 10c + d şeklinde çözümlenir ve basamak sayısı arttıkça bu durum benzer şekilde devam eder.

<span class="mw-page-title-main">Basamağa göre sıralama</span> bilgisayar bilimlerinde sayıları basamaklarının üzerinde işlem yaparak sıralayan bir algoritma

Basamağa göre sıralama bilgisayar bilimlerinde sayıları basamaklarının üzerinde işlem yaparak sıralayan bir sıralama algoritmasıdır. Sayma sayıları adlar ya da tarihler gibi karakter dizilerini göstermek için kullanılabildiği için basamağa göre sıralama algoritması yalnızca sayma sayılarını sıralamak için kullanılan bir algoritma değildir.

7 ile bölünebilme, bir doğal sayının 7'ye kalansız olarak bölünebilmesidir.

<span class="mw-page-title-main">Kutu grafiği</span>

İstatistik biliminde kutu grafiği bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

<span class="mw-page-title-main">İkinin tümleyeni</span>

Bir ikili sayının ikiye tümlenmesi, kendisinden büyük ve 2'nin tam sayı üssü olan en küçük tam sayıdan çıkarılması ile gerçekleştirilir. Elde edilen sayının ikili sayı aritmetiğinde orijinal sayının eksi işaretlisi olarak davranması nedeniyle, tam sayı değerleri bilgisayarda temsil etmek için kullanılan ikinin tümleyeni gösterimi bu işlemi temel almıştır. -1 ile çarpmanın ikinin tümleyeni kullanılarak gerçekleştirildiği bu gösterime göre oluşturulmuş sayıların değerleri aşağıdaki formül kullanılarak hesaplanabilir.

Palindromik sayı, iki taraftan okunduğu zaman okunuş yönüyle aynı olan sayılardır.

<span class="mw-page-title-main">BCD kodu</span>

BCD kodu, bilgisayar ve elektronik sistemlerinde onluk tabandaki (decimal) sayıların ikilik tabana (binary) dönüştürülmesi için kullanılan sayısal kodlama metodudur. Bu dönüştürme işlemi yapılırken öncelikle sayının her bir basamağı tek tek ikilik tabana çevrilir ve ardından her basamağın karşılık geldiği binary değerler sırasıyla birleştirilerek sayının BCD Kodu ile gösterimi elde edilir.

Basamak veya hane, matematikte bir sayıyı oluşturan rakamlardan her birinin o sayı içerisindeki konumunu ifade eder.

Rakam hanesi, basamaklı sayısal sistemlerde sayıları temsil etmek için kullanılan kombinasyonlarda kullanılan sayısal semboldür.

Lineer cebirde bir matris, Gauss eliminasyonunun sonucu olan şekle sahipse eşelon biçimindedir.