İçeriğe atla

Sıklık dağılımı

İstatistikte, sıklık dağılımı, bir örnekten alınan bir veya daha fazla değişkenin değerlerin sıralamasıdır.

Tek değişkenli sıklık tabloları

Tek değişkenli sıklık dağılımları, görülen her değerin tekrarının miktara göre sıralamasını ifade eder.

Bir Sıklık Dağılımı bize özet veri gruplamanın karşılıklı olarak özel sınıflara bölündüğünü ve bir sınıfta meydana gelen sayıyı gösterir. Düzensiz veriyi ifade etmenin bir yoludur. Örneğin bir seçimdeki sonuçları, belli bir bölgeye göç eden insanları, belli bir periyotta satılan ürünleri, vb. göstermek için kullanılır. Sıklık dağılımları ile kullanılabilen bazı grafikler, histogramlar, çubuk grafikleri, şerit grafikleri ve çember çizelgeleridir. Sıklık dağılımları hem niteliksel hem de niceliksel veri için kullanılır.

Ortak sıklık dağılımları

İki değişkenli ortak sıklık dağılımları genellikle (iki yollu) olasılık tablosunu ifade eder:

Belirsiz sıklıklı iki yollu olasılık tablosu
DansSporTVToplam
Bay 210820
Bayan 166830
Toplam 18161650

Toplam satır ve toplam sütun belirsiz sıklıkları ve belirsiz dağılımı gösterirken tablonun gövdesi ortak sıklıkları gösteriyor.

Uygulamalar

Tablolandırılmış sıklık verisinde yönetme ve işleme ham veride işlemekten çok daha kolaydır. Bu tablolarda ortalama, medyan, standart sapma, vb. hesaplamak için basit algoritmalar vardır.

Harflerin sıklık dağılımları da kod kırmak için sıklık analizinde kullanılır.

Kaynakça

Dış kaynaklar

  • Spiegel, Murray R ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

İlgili Araştırma Makaleleri

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Lorenz eğrisi</span>

Lorenz Eğrisi, ekonomide, çoğunlukla olasılık gelir dağılımının birikimli dağılım fonksiyonunu ifade eden bir grafiktir. Bu grafiğin her iki ekseninde de yüzde değer bulunur. 1905 yılında Max Otto Lorenz tarafından gelir dağılımının ifade edilmesi amacıyla geliştirilmiştir.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

Bir olasılık dağılımı bir rassal olayın ortaya çıkabilmesi için değerleri ve olasılıkları tanımlar. Değerler olay için mümkün olan tüm sonuçları kapsamalıdır ve olasılıkların toplamı bire eşit olmalıdır. Örneğin, bir rassal olay olarak madeni paranın tek bir defa havaya atılıp yere düşmesi ele alınsın; değerler 'yazı' veya 'tura' veya bunlar isimsel değişken ölçeğinde ifade edilirse 0 (yazı) veya 1 (tura) olur; olasılıklar ise her iki değer için ½ olacaktır. Böylece madeni bir paranın tek bir defa atılma olayı için iki değer ve ilişkili iki olasılık bu rassal olayın olasılık dağılımı olur. Bu dağılım ayrık olasılık dağılımıdır; çünkü sayılabilir şekilde ayrı ayrı sonuçlar ve bunlara bağlı olan pozitif olasılıklar vardır.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Olasılık kuramı ve istatistik bilim dallarında birikimli dağılım fonksiyonu bir reel değerli rassal değişken olan Xin olasılık dağılımını tümüyle tanımlayan bir fonksiyondur. Olasılık dağılım fonksiyonu veya sadece dağılım fonksiyonu olarak da anılmaktadır. Her bir reel sayı olan x için X'in birikimli dağılım fonksiyonu şöyle ifade edilir:

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

İstatistik bilim dalında, Spearman'ın sıralama korelasyon katsayısı veya Spearman'ın rho, bu istatistiksel ölçüyü ilk ortaya atan İngiliz psikolog Charles Edward Spearman'a atfen adlandırılmıştır. Matematik notasyon olarak çok defa eski Yunan harfi ρ ile belirtilir. Bir parametrik olmayan istatistik ölçüsüdür ve iki değişken arasındaki bağımlılık, yani korelasyon, ölçüsü olarak bulunup kullanılır. Bu demektir ki Spearman'in rho (ρ) katsayısı iki değişken için çokluluklar dağılımı hakkında hiçbir varsayım yapmayarak, bu iki değişken arasında bulunan bağlantının herhangi bir monotonik fonksiyon ile ne kadar iyi betimlenebilineceğini değerlendirmek amaçlı incelemedir.

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

<span class="mw-page-title-main">Dal-yaprak grafikleri</span>

Dal-yaprak grafikleri, betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

Yedi kalite aracı, toplam kalite yönetiminde sorun çözme tekniğine temel oluşturan yedi temel araç. Kalite yönetim araçları kişilere ve gruplara, kalite kontrol süreçlerini uygulamak, uygulanan bu süreçleri görüntülemek ve herhangi bir süreçten kaynaklanan bir problemi çözmek için destek sağlar. Yedi kalite aracı, iş problemleri analizlerine ve çözümlerine yapısal yaklaşım dolayısıyla da analizler ve çözümlerde gelişmeyi sağlar. Bu araçlar imalat süreçlerinde olduğu gibi hizmet odaklı süreçlerde de uygulanabilir. Yedi kalite aracı, takım veya gruplar tarafından uygulandığında en fazla getiri elde edilir. Böylece en kullanışlı, yani yönetim için tasarlanmış bilgiler ortaya çıkar. Bu araçlar, ürün geliştirmeden, pazarlamaya ve müşteri ilişkilerine kadar bütün üretim süreçlerinde süreç geliştirme ve müşteri memnuniyetini artırmak için uygulanabilir. Bir işletmenin ya da bir sürecin performansını geliştirmek amacıyla atılacak adımların, verilecek kararların verilere dayanması gerekir. 'Gerçeklere Dayalı Yönetim' ve 'Sürekli Gelişme' ancak; doğru, anlaşılabilir ve güvenilir veriler ile gerçekleştirilebilir.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

<span class="mw-page-title-main">Çizelge</span>

Çizelge, birbirine bağlanan düz çizgi parçalarının veri noktaları serisinin bilgisini gösteren bir tür çizimdir. Çizelge genellikle belirli bir zaman aralığındaki - zaman serisi - verilerin değerlerini görselleştirmek için kullanılır ve kronolojiksel olarak çizilir. Bazen sıcaklık ölçümü için de kullanılır.

Histogram, gruplandırılmış bir veri dağılımının sütun grafiğiyle gösterimidir. Diğer bir ifadeyle, tekrarlı sayılardan oluşan verilerin, uygulanan işlemlerden sonra önce tabloya, tablodan yararlanarak grafiğe aktarılması, yani veri gruplarının grafiğinin dikdörtgen sütunlar halinde gösterilmesidir.

İlişkisel veritabanı, 1970 yılında Edgar Frank Codd tarafından önerildiği gibi, organizasyonu ilişkisel veri modeline dayanan bir dijital veritabanıdır. İlişkisel veritabanlarını korumak için kullanılan çeşitli yazılım sistemleri bir ilişkisel veritabanı yönetim sistemi (RDBMS) olarak bilinir. Neredeyse tüm ilişkisel veritabanı sistemleri, sorgulama ve veritabanının bakımı için dil olarak SQL(Structured Query Language) kullanmaktadırlar.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.