İçeriğe atla

Medyan

Medyan (ya da ortanca) bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.[1]

Merkezsel konum olarak medyan

Bir olasılık dağılımı simetrik olmayıp, çarpıklık gösteriyorsa, medyan, aritmetik ortalamadan daha uygun bir merkezsel konum ölçüsüdür. Simetrik olmama, sıralanmış veri değerleri için ya en küçük değerlerin ya da en büyük değerlerin diğerlerinden çok daha fazla uzaklaşması ile ortaya çıkar. Bu beklenmedik küçük veya büyük değerlere aykırı değer (outlier) adı verilir. Eğer veri dağılımı asitmetrik olan aykırı değerler kapsıyorsa, medyan aritmetik ortalamaya nazaran daha güçlü (robust) bir merkezsel konum ölçüsü halini alır.

Medyan değeri hesaplanması

Veri sayıları küçükten büyüğe doğru sıralandıktan sonra, n gözlem sayısı olmak üzere, medyan değerinin bu seri içindeki sıra numarası şu şekilde bulunur:

Eğer gözlem sayısı tek ise medyanın sıra numarası bir tam sayı olacaktır ve doğrudan medyan bulunur. Eğer gözlem sayısı çift ise medyanın sıra numarası ½ li bir sayı çıkar. Bu durumda bu sayının etrafındaki iki değerin aritmetik ortalaması medyandır.

Örnek

1,3,4,5,7,8,13 dizisinin medyanı 4. sıradaki eleman olan 5'tir.

2,4,6,8 dizisinin medyan pozisyonu 2.5'tir. Bu durumda 2. ve 3. elemanların aritmetik ortalaması yani (4+6)/2=5 medyan değeridir.

Gözlem sayısı küçükse, gözlem değerlerinin sıralaması elle kolay olarak yapılabilmekte ve bu hesaplama kolaylığı merkezsel konum ölçüsü olarak medyanın tercih edilmesine bir neden olmaktadır. Ancak gözlem sayısı n artıkça, sıralama işlemleri gittikçe zorlaşmaktadır; ayrıca basit el hesap makinaları ile sıralama yapmak imkanı olmamaktadır. Bilgisayar kullanılmadan ve elle yapılan işlemler kullanarak büyük gözlem sayılı verilerinin sıralanması zorluğu nedeni ile medyan büyük veri kullanılması gerektiren araştırmalarda kullanılmamıştır. Ama bilgisayarların gelişmesi ile medyan kullanılmasının bu dezavantajı kaybolmuştur. Bilgisayarla yapılan veri sıralanması için, özellikle çok büyük gözlem sayıda veri için özel hızlı sıralama algoritmaları kullanılmaktadır. Bu sıralama algoritmalarında genellikle (n log n) işlem yapılmaktadır ama özel böl ve fethet algoritması kullanılması ile sadece n işlem gerekmektedir.

Çokluk dağılımları için medyan değerinin hesaplanması

Veri değerleri gruplanmış ve çokluk dağılımları olarak verilmişler ise, medyan, gözlem sayısında N/2 inci değerin denk düştüğü sınıftadır ve interpolasyon ile ortaya çıkartılan formülü şu şekilde verilir:

  • L: Medyan sınıfın alt değeri
  • c: Medyan sınıfın aralığı
  • f: Medyan sınıfın frekansı
  • N: Toplam birim sayısı
  • d: Medyan sınıftan bir önceki sınıfın birikimli frekansı.

Olasılık dağılımları için medyanlar

Reel doğrusu üzerinde olan ve F fonksiyonu ile ifade edilen yığmalı dağılım fonksiyonu gösteren herhangi bir olasılık dağılımı için, kesikli veya sürekli olması özelliğine bakılmadan, medyan değeri m şu eşitsizlik ifadelerine her zaman uyar:

veya

Belirli parametreleri olan belirli dağılımların medyanları hakkında şunlar söylenebilir:

  • Ortalama değeri μ ve varyansı σ2 olan bir normal dağılım için medyan değeri μ olur. Gerçekten normal dağılım simetrik çan şeklinde olduğundan ortalama=medyan=mod olur.
  • [a b] aralığında bulunan bir sürekli tekdüze dağılım için medyan değeri (a + b) / 2 olup bu ortalama değerine de eşittir.
  • Konum parametresi x0 ve ölçek parametresi y de x0 olan Cauchy dağılımı için medyan değeri konum parametresine eşittir.
  • Şekil parametresi k ve ölçek parametresi olan bir Weibull dağılımı için medyan değeri olur.

Özellikleri

  • Optimal olma özelliği

Medyan, mutlak dağılmaların ortalamalarının en küçük değerini bulan bir merkezsel noktadır. Olasılık kuramının özel terimlerine göre

ifadesini en küçük yapan c değeri için, X rassal değişkenin olasılık dağılımının medyanıdır. Dikkat edilmesi gerekir ki, c her zaman tek değildir ve onun için genellikle kesinlikle tanımlanamaz.

  • Sürekli bir olasılık dağılımı için, medyan sayı değeri ile ortalama sayı değeri arasında bir standart sapmaya eşit bir fark vardır.
  • Medyan 2inci dörttebirlik, 5inci ondabirlik ve 50inci yüzdebirlik'e eşittir.
  • Genellikle medyan bir yanlı kestirimcidir.

Ayrıca bakınız

Kaynakça

  1. ^ İstatistik. 3.baskı. Yüzer, Ali Fuat. Eskişehir: Anadolu Üniversitesi. 2006. ss. 48-53. ISBN 975-06-0183-1. OCLC 567334808. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Student'in t dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında t-dağılımı ya da Student'in t dağılımı genel olarak örneklem sayısı veya sayıları küçük ise ve anakütle normal dağılım gösterdiği varsayılırsa çıkartımsal istatistik uygulaması için çok kullanılan bir sürekli olasılık dağılımıdır. Çok popüler olarak tek bir anakütle ortalaması için güven aralığı veya hipotez sınaması ve iki anakütle ortalamasının arasındaki fark için güven aralığı veya hipotez sınamasında, yani çıkarımsal istatistik analizlerde, uygulama görmektedir.

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Aritmetik ortalama</span>

Aritmetik ortalama, bir sayı dizisindeki elemanların toplamının eleman sayısına bölünmesi ile elde edilir. İstatistik bilim dalında hem betimsel istatistik alanında hem de çıkarımsal istatistik alanında en çok kullanan merkezi eğilim ölçüsü' dür.

Ortalama veya merkezsel konum ölçüleri, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber bu ölçünün çok belirli bazı dezavantajları söz konusudur. Bu yüzden matematik ve istatistikte, bir anakütle veya örneklem veri dizisi değerlerini temsil eden tek bir orta değer veya beklenen değer, olarak medyan (ortanca), mod (tepedeğer), geometrik ortalama, harmonik ortalama vb adlari verilen birçok değişik merkezsel konum ölçüleri geliştirilmiş ve pratikte kullanılmaktadır.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

<span class="mw-page-title-main">Binom dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, binom dağılımı n sayıda iki kategori (yani başarı/başarısızlık, evet / hayır, 1/0 vb) sonucu veren denemelere uygulanır. Araştırıcının ilgi gösterdiği kategori başarı olarak adlandırılır. Bu türlü her bir deneyde, bağımsız olarak, başarı (=evet=1) olasılığının p olduğu (ve yalnızca iki kategori sonuç mümkün olduğu için başarısızlık olasılığının 1 - p olduğu) bilinir. Bu türlü bağımsız n sayıda denemeler serisi içinde elde edilen başarı sayısının ayrık olasılık dağılımı binom dağılım olarak tanımlanır. Bir binom dağılım sadece iki parametre ile, yani n ve p ile tam olarak tanımlanır. Matematik notasyon olarak bir rassal değişken X binom dağılım gösterirse şöyle ifade edilir:

X ~ B(n,p)
<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Çarpıklık</span>

Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.

<span class="mw-page-title-main">Gamma dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında gamma dağılımı iki parametreli bir sürekli olasılık dağılımıdır. Bu parametrelerden biri ölçek parametresi θ; diğeri ise şekil parametresi k olarak anılır. Eğer k tam sayı ise, gamma dağılımı k tane üstel dağılım gösteren rassal değişkenlerin toplamını temsil eder; rassal değişkenlerin her biri nin üstel dağılımı için parametre olur.

<span class="mw-page-title-main">Üstel dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında üstel dağılımı bir sürekli olasılık dağılımları grubudur. Sabit ortalama değişme haddinde ortaya çıkan bağımsız olaylar arasındaki zaman aralığını modelleştirirken bir üstel dağılım doğal olarak ortaya çıkar.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

<span class="mw-page-title-main">Laplace dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Laplace dağılımı Pierre-Simon Laplace anısına isimlendirilmiş bir sürekli olasılık dağılımıdır. Arka arkaya birbiriyle yapıştırılmış şekilde ve bir de konum parametresi dahil edilerek birleştirilmiş iki üstel dağılımdan oluştuğu için, çift üstel dağılımı adı ile de anılmaktadır. İki bağımsız ve tıpatıp aynı şekilde üstel dağılım gösteren bir rassal değişken bir Laplace dağılımı ile işlev görürler. Bu, aynen üstel dağılım gösteren rassal zamanda değerlendirilen Brown devinimine benzer.

<span class="mw-page-title-main">Büyük sayılar yasası</span>

Büyük Sayılar Kanunu ya da Büyük Sayılar Yasası, bir rassal değişkenin uzun vadeli kararlılığını tanımlayan bir olasılık teoremidir. Sonlu bir beklenen değere sahip birbirinden bağımsız ve eşit dağılıma sahip bir rassal değişkenler örneklemi verildiğinde, bu gözlemlerin ortalaması sonuçta bu beklenen değere yakınsayacak ve bu değere yakın bir seyir izleyecektir.

Betimsel istatistikte çeyrekler açıklığı sıralanmış bir veri dizisinin orta yarısını (%50'sini) kapsayan ve üçüncü dörtte birlik ve birinci dörtte birlik aralığını veya farkını gösteren bir istatistiksel yayılma ölçüsüdür. Birinci dörtte birlik sıralanmış veri dizisinin ilk %25'inden büyük ve üçüncü dörtte birlik sıralanmış veri dizisinin %25'inden daha küçük olduğu için, bu iki dörtte birlik arasında kalan veri yüzdesi %50'dir. Çeyrekler açıklığı ölçüm birimi veri ölçüm birimi ile aynıdır. İngilizcesi IQR'dir.

<span class="mw-page-title-main">Cauchy dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Cauchy-Lorentz dağılımı bir sürekli olasılık dağılımı olup, bu dağılımı ilk ortaya atan Augustin Cauchy ve Hendrik Lorentz anısına adlandırılmıştır. Matematik istatistikçiler genel olarak Cauchy dağılımı adını tercih edip kullanmaktadırlar ama fizikçiler arasında Lorentz dağılımı veya Lorentz(yen) fonksiyon veya Breit-Wigner dağılımı olarak bilinip kullanılmaktadır.

İstatistik bilim dalında ağırlıklı ortalama betimsel istatistik alanında, genellikle örneklem, veri dizisini özetlemek için bir merkezsel konum ölçüsüdür. En çok kullanan ağırlıklı ortalama tipi ağırlıklı aritmetik ortalamadır. Burada genel olarak bir örnekle bu kavram açıklanmaktadır. Değişik özel tipli ağırlıklar alan özel ağırlıklı aritmetik ortalamalar bulunmaktadır. Diğer ağırlıklı ortalamalar ağırlıklı geometrik ortalama ve ağırlıklı harmonik ortalamadir. Ağırlıklı ortalama kavramı ile ilişkili teorik açıklamalar son kısımda ele alınacakdır.

Matematik bilimi içinde moment kavramı fizik bilimi için ortaya çıkartılmış olan moment kavramından geliştirilmiştir. Bir bir reel değişkenin reel-değerli fonksiyon olan f(x)in c değeri etrafında ninci momenti şöyle ifade edilir: