İçeriğe atla

Ortalama

Ortalama veya merkezsel konum ölçüleri, istatistik bilim dalında ve veri analizinde kullanılan bir veri dizisinin orta konumunu, tek bir sayı ile ifade eden betimsel istatistik ölçüsüdür. Günlük hayatta ortalama dendiğinde genellikle kast edilen aritmetik ortalama olmakla beraber bu ölçünün çok belirli bazı dezavantajları söz konusudur. Bu yüzden matematik ve istatistikte, bir anakütle veya örneklem veri dizisi değerlerini temsil eden tek bir orta değer veya beklenen değer, olarak medyan (ortanca), mod (tepedeğer), geometrik ortalama, harmonik ortalama vb adlari verilen birçok değişik merkezsel konum ölçüleri geliştirilmiş ve pratikte kullanılmaktadır.

Tarihçe

Ortalama kavramı başlangıçta deniz nakliyatında ortaya çıkan zarar kavramından geliştirilmiştir. Deniz nakliyatında zarar, ya zarar gören eşya sahibi tarafından özel avarya olarak tümüyle yüklenilir veya nakledilen eşyaların satış kârını ortak olarak paylaşanlar tarafından genel avarya ortaklık payına göre karşılanır. Genel avarya hesabının yapılması için geliştirilip kullanılan matematiksel hesaplar aritmetik ortalamanın ilk kullanılma alanı olmuştur. Bu kavrama Arapça avar, İtalyanca avaria, Türkçede (pek çok denizcilik terimi gibi İtalyancadan alınan) avarya ve İngilizce average adı verilmektedir. İngilizcede aynı sözcük ve bazı günlük pratik hallerde Türkçede kullanılan averaj sözcüğü ortalamaya eşit anlamda kullanılmaktadır.

İstatistikte bilimsel olarak ortalamalar kavramına bir aksiyomatik yaklaşım John Bibby (1974) tarafından verilmiştir.[1]

Ortalama tipleri

Ortalama bir sayısal veri dizisinin merkezsel konumunu temsil etmek için seçilen tek bir sayı halinde bir özettir. Eğer veri dizisinde tüm elemanlar aynı sayı ise ortalama bu tek sayıdır. Ancak bu tip veri dizisi pratikte gayet az olarak bulunduğu, hatta nerede ise hiç bulunmadığı için, bir pratik veri dizisinin merkezsel konumunu farklı şekilde temsil edecek ortalamalar geliştirilmiştir. Önce bu ortalamalardan en çok kullanılanları kısaca ele alınacak ve sonra daha geniş kapsamlı bir tablo sunulacaktır.

En çok kullanılan ortalama tipleri

Günlük hayatta en çok kullanılan ortalama türü aritmetik ortalama olmakla birlikte, bazı durumlarda mod, medyan, geometrik ortalama ve diğer ortalama türleri tercih edilmektedir.

Aritmetik ortalama

Aritmetik ortalama bir anakütle veya bir örneklem veri değerlerinin toplamlarının o anakütledeki terim sayısına veya örneklem büyüklüğüne bölünerek elde edilen merkezsel konum değeridir. Bu tanınım şu formülle gösterilir:

Burada örneklem aritmetik ortalaması sembolüdür; anakütle aritmetik ortalaması için μ kullanılır.

Bu yöntem istatistikte sıkça kullanılır. Fakat bazı eksik yönleri vardır.

  • Verilerin ölçülme ölçeğinin aralıklı veya oransal olması gerekir. İsimsel ölçekli veriler için aritmetik ortalama anlamsızdır. Birçok istatistikçi sırasal ölçekli veriler için aritmetik ortalamanın anlamsız olduğunu kabul etmektedirler; ancak pratikte, özellikle bir anketten ortaya çıkarılan, sırasal ölçekli veriler için aritmetik ortalama hesaplanıp önemli alanlarda kullanılmaktadır.
  • Eğer anakütle veya örneklem veri dağılımı simetrik olmayıp çarpıklık gösteriyorsa, aritmetik ortalama merkezsel değer olmaktan çıkıp çarpıklık kuyruğunun bulunduğu tarafa doğru gitmeye eğilimlidir. Bu halde aritmetik ortalama istatistik bilenlerin istatistik bilmeyenlere karşı kullanabilecekleri bir aldatmaca yolu olarak da kullanılabilir.

Örnek: Bir iş yerinde işçiler maaşlarının düşük olmasından dolayı şikayetçidirler. Fakat yöneticiler tam tersini savunabilirler. Maaş dağılımları şöyle olsun:

1 Genel Müdür: 15.000,00 YTL
2 tane Genel Müdür Yardımcısı: her biri 5.500,00 YTL
5 tane idari işler sorumluları (Halkla ilişkiler, İnsan kaynakları...vb): her biri 1.500,00 YTL
30 tane normal personel = her biri 1.000,00 YTL
Böyle bir durumda maaşların aritmetik ortalaması alınırsa
[15000+(2x5500)+(5x1500)+(30x1000)]/38 = 1.671,05 YTL

olarak ortalama aylık maaş hesaplanır. Ama bu ortalama merkezsel konumu göstermez. 38 personelden ancak 3'ü ortalamadan fazla maaş almakta görülmektedir ve maaş dağılımı çok bariz şekilde çarpıktır. Çok küçük sayıda kişi (müdür ve 2 yardımcısı) karşılaştırılmalı olarak çok büyük değerde maaş almakta ama çok büyük sayıda kişi düşük değerde maaş almaktadır. Böylece maaş dağılımı gayet asimetrik olup sağda ince uzun bir kuyruk bulunmaktadır; veri dağılımı pozitif çarpıklık göstermektedir. Bu nedenle maaş aritmetik ortalaması merkezsel konum göstergesi olmaktan çıkmıştır.

GRiS[2]

Aritmetik Ortalama'nın Çarpık veri dizilerinde işlevini kaybetmesi durumunun önüne geçebilmek için, 2014 yılında yayınlanan "İstatistikte Altın Oran" Kitabında yeni bir ortalama tanımlanmıştır.[3] Bu yeni ortalama GRiS (Golden Ratio in Statistics) Ortalama olarak adlandırılmıştır. Bu ortalamanın özelliği, veri dizisindeki her bir elemanın, konumuna göre katkı sağlamasıdır.

GRiS ortalama katsayı maskesi
GRiS ortalama katsayı maskesi

Veri Dizisi küçükten büyüğe sıralandıktan sonra, her bir elemana bulunduğu konuma göre, yukarıda gösterilen GRiS ortalama katsayı maskesindeki ağırlıklandırma katsayıları atanır. Her bir elemanın Medyan'dan farkı, kendine atanmış ağırlıklandırma katsayısı ile çarpılır, bu çarpımların toplamı, ağırlıklandırma katsayıları toplamına bölünür ve medyandan sapma hesaplanır. Veri dizisinin her iki ucunda bulunan elemanlar, aynı ölçüde baskılandığı için; GRiS ortalama her durumda medyana, aritmetik ortalamadan daha yakın konumlanmaktadır. Bu yöntem sayesinde aritmetik ortalamanın en bariz zayıflığı olan merkezsel değer olmaktan çıkıp çarpıklık kuyruğunun bulunduğu tarafa doğru gitme eğilimi bertaraf edilmiştir.

Geometrik ortalama

Geometrik ortalama bir anakütle veya bir örneklem veri değerlerinin çarpımlarının o anakütledeki terim sayısına veya örneklem büyüklüğüne eşit kökü alınmak suretiyle elde edilen bir merkezsel konum değeridir. Bu tanımlama için formül şöyle verilir:

Burada G geometrik ortalama sembolüdür.

Bu tür ortalamanın da dezavantajları bulunmaktadır:

  • Büyük bir sayıda kök almak el hesabı ile imkânsız olduğu için bu tür ortalama genel olarak elektronik hesap makinelerinin veya bilgisayarların gelişmesinden önce kullanılması çok zor olmaktaydı. Verilerin logaritması alınıp bu logaritma verilerinin toplamı bulunduktan sonra eldeki veri büyüklük sayısına bölünerek geometrik ortalamanın logaritma değeri bulunur, bunun antilogaritmasının alınması gerekirdi. Orta basitlikte hesaplar yapabilen elektronik hesap makinaları veya kompüter kullanılarak geometrik ortalama almak çok kolaylaşmıştır.
  • Geometrik ortalama bulabilmek için verilerin pozitif değerde olması gerekmektedir yani veri değerlerinin özellikle sıfır veya negatif olmaması gerekmektedir. Eğer tek bir veri değeri sıfır ise, geometrik ortalama almak anlamsız olacaktır.
  • Ayrıca verilerin ölçülme ölçeğinin oransal olması gerekir; isimsel ölçekli, sırasal ölçekli ve aralıksal ölçekli veri değerleri için geometrik ortalama anlamsız olur.

Mod

Mod veri dizisi içinde en çok defa tekrarlanan veri değeridir. Mod isimsel ölçekli veriler için anlamlı olan tek ortalama ölçüsüdür. Ancak veri dizisi içinde tek bir mod olmayabilir yahut birden fazla sayıda mod bulunabilir.

Medyan

  • Ana madde: Medyan

Medyan bir veri dizisinin küçükten büyüğe veya büyükten küçüğe sıralanmasından sonra bu dizinin tam ortasında bulunan değerdir. Eğer veri büyüklüğü tek sayılı ise medyan verilen bir veri değerine eşit olur. Eğer veri büyüklüğü çift sayılı ise medyan orta iki değerin ortalaması olur. Medyan bulmak için basit bir algoritmaya göre sıralanmış veri değerlerinin kalan en küçük ve en büyük değerleri birer birer elimine edilir; veri sayısı tek ise en son kalan tek veri medyandır; eğer veri sayısı çift ise son kalan iki veri çiftinin ortalaması medyan olur.

Genelleştirilmiş ortalama türleri

İstatistikçiler ortalama türlerini genelleştiren tek bir formül bulmak için değişik yaklaşımlar kullanmışlardır:

Bu formülde m için değişik değerler değişik ortalama türü verirler: :

    • eğer m = 1 ise aritmetik ortalama;
    • eğer m = 2 ise kuadratik ortalama;
    • eğer m = -1 ise harmonik ortalama;
    • limit m → 0 ise geometrik ortalamaya yaklaşır.
  • Genelleştirilmiş f-ortalaması formülü diğer bir örnektir. Genelleştirilmiş f-ortalaması için formül şudur:

Burada f tersi alınabilir bir fonksiyondur. Bu formül değişik ortalamalar için şu şekilleri alır:

    • Geometrik ortalama için f(x)=log x olur.
    • Harmonik ortalama için f(x)= 1/x olur.
    • Çok az bilinen üstel ortalama için f(x)=ex olur.

Ancak bu genelleştirme ile tüm ortalamaların ayrı ayrı formüllerini bulmak imkânsızdır.

  • Diğer bir genelleştirme, ortalamalar listesi elamanlarının permütasyonu halinde simetrik olan bir g(x1, x2, ..., xn) fonksiyonunun değişik şekillerde ifadesi ile yapılır:[4]
    • Aritmetik ortalama için g(x1, x2, ..., xn) =x1+x2+ ...+ xn.
    • Geometrik ortalama için g(x1, x2, ..., xn) =x1·x2· ...· xn.
    • Harmonik ortalama için g(x1, x2, ..., xn) =x1−1+x2−1+ ...+ xn−1.

Değişik ortalama tipleri özeti

İstatistik bilim dalında bir sıra değişik ortalama tipleri geliştirilmiş ve bunlardan araştırıcının isteğine göre birinin veya birkaçının eldeki veriler için merkezsel konum ölçüsü olarak kullanılması imkânı sağlanmıştır.

İsimDenklem veya betimleme
Aritmetik ortalama
Medyan (ortanca)Bu yüksek değerde olan veriler ile düşük değerde olan verilerin tam ortasında bulunan bir sayı.
Geometrik medyanRn düzeyindeki noktalar için, medyan kavramının, matematik rotasyon dönüşümünde sabit kalan bir genişletilmesi,
Mod (tepedeğer)Verilerin en çok defa tekrarlanmış değeri
Geometrik ortalama
Harmonik ortalama
Kuadratik ortalama
(veya ortalama kareler karekökü)
Genelleştirilmiş ortalama
Ağırlıklı ortalama
Kesilmiş ortalamaBelirli bir yüzde oranda en yüksek ve en düşük veri değerlerinin bertaraf edilmelerinden sonra hesaplanan aritmetik ortalamadır.
Çeyrekler açıklığı ortasıÇeyrekler açıklığı kullanılarak kesilmiş ortalamanın özel bir hali.
Açıklık-ortası
Winsorize ortalamasıBir çeşit kesilmiş ortalama olup belirli bir yüzde olarak kesilen en yüksek ve en düşük değerler bertaraf edileceğine kalan sayılar için en yuksek ve en düşük veri değerleri yerine ikame edilirler.
Anualizasyon

Ayrıca bakınız

Kaynakça

  1. ^ Bibby, J. (1974) "Axiomatisations of the average and a further generalization of monotonic sequences" Glasgow Mathematical Journal C.15, say.63–65.
  2. ^ Gunver, Mehmet Guven; Senocak, Mustafa Sukru; Vehid, Suphi. "TO DETERMINE SKEWNESS, MEAN AND DEVIATION WITH A NEW APPROACH ON CONTINUOUS DATA" 2 Haziran 2018 tarihinde Wayback Machine sitesinde arşivlendi.. PONTE International Scientific Researchs Journal73 (2). doi:10.21506/j.ponte.2017.2.34
  3. ^ Mehmet Güven GÜNVER, Prof. Dr. Mustafa Şükrü ŞENOCAK, Doç Dr. Suphi VEHİD, İstatistikte Altın Oran, Türkmen Kitabevi, 2014, ISBN : 9786054749409
  4. ^ Bakın Bibby,J. (1974) "Axiomatisations of the average and a further generalisation of monotonic sequences", Glasgow Mathematical Journal, C.15, say. 63–65,
  • Spiegel, Murray R ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

Dış bağlantılar

İlgili Araştırma Makaleleri

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Hipotez testi, bir hipotezin doğruluğunun istatistiksel bir güvenilirlik aralığında saptanması için kullanılan yöntem.

<span class="mw-page-title-main">Aritmetik ortalama</span>

Aritmetik ortalama, bir sayı dizisindeki elemanların toplamının eleman sayısına bölünmesi ile elde edilir. İstatistik bilim dalında hem betimsel istatistik alanında hem de çıkarımsal istatistik alanında en çok kullanan merkezi eğilim ölçüsü' dür.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

Harmonik ortalama, gözlem sonuçlarının terslerinin aritmetik ortalamasının tersidir.

İstatistik bilimi için mod bir veri kümesi içinde en sık görülen değerdir. Tepedeğer olarak da adlandırılır. Bazı kullanım alanlarında, özellikle eğitim alanında, örnek veriler çok kere puan olarak anılmakta ve örnek mod değerine ise mod puanı adı verilmektedir.

Merkezi limit teoremi büyük bir sayıda olan bağımsız ve aynı dağılım gösteren rassal değişkenlerin aritmetik ortalamasının, yaklaşık olarak normal dağılım göstereceğini ifade eden bir teoremdir. Matematiksel bir ifadeyle, bir merkezi limit teoremi olasılık kuramı içinde bulunan bir zayıf yakınsama sonucu setidir. Bunların hepsi, birçok bağımsız aynı dağılım gösteren rassal değişkenlerin herhangi bir toplam değerinin limitte belirli bir "çekim gücü gösteren dağılıma" göre dağılım gösterme eğiliminde olduğu gerçeğini önerir.

<span class="mw-page-title-main">Çarpıklık</span>

Çarpıklık olasılık kuramı ve istatistik bilim dallarında bir reel-değerli rassal değişkenin olasılık dağılımının simetrik olamayışının ölçülmesidir.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Olasılık kuramı içinde herhangi bir rassal değişken için karakteristik fonksiyon, bu değişkenin olasılık dağılımını tüm olarak tanımlar. Herhangi bir rassal değişken X için, gerçel doğru üzerinde, bu fonksiyonu tanımlayan formül şöyle yazılır:

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

<span class="mw-page-title-main">Büyük sayılar yasası</span>

Büyük Sayılar Kanunu ya da Büyük Sayılar Yasası, bir rassal değişkenin uzun vadeli kararlılığını tanımlayan bir olasılık teoremidir. Sonlu bir beklenen değere sahip birbirinden bağımsız ve eşit dağılıma sahip bir rassal değişkenler örneklemi verildiğinde, bu gözlemlerin ortalaması sonuçta bu beklenen değere yakınsayacak ve bu değere yakın bir seyir izleyecektir.

Bir genelleştirilmiş ortalama; Pisagorik ortalamalarını, yani aritmetik ortalama, geometrik ortalama ve harmonik ortalamayı, aynı tanım formülünde birleştirip kapsayan bir soyut genelleştirmedir. Güç ortalaması veya Holder ortalaması adları da verilmektedir.

<span class="mw-page-title-main">Cauchy dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Cauchy-Lorentz dağılımı bir sürekli olasılık dağılımı olup, bu dağılımı ilk ortaya atan Augustin Cauchy ve Hendrik Lorentz anısına adlandırılmıştır. Matematik istatistikçiler genel olarak Cauchy dağılımı adını tercih edip kullanmaktadırlar ama fizikçiler arasında Lorentz dağılımı veya Lorentz(yen) fonksiyon veya Breit-Wigner dağılımı olarak bilinip kullanılmaktadır.

İstatistik bilim dalında ağırlıklı ortalama betimsel istatistik alanında, genellikle örneklem, veri dizisini özetlemek için bir merkezsel konum ölçüsüdür. En çok kullanan ağırlıklı ortalama tipi ağırlıklı aritmetik ortalamadır. Burada genel olarak bir örnekle bu kavram açıklanmaktadır. Değişik özel tipli ağırlıklar alan özel ağırlıklı aritmetik ortalamalar bulunmaktadır. Diğer ağırlıklı ortalamalar ağırlıklı geometrik ortalama ve ağırlıklı harmonik ortalamadir. Ağırlıklı ortalama kavramı ile ilişkili teorik açıklamalar son kısımda ele alınacakdır.

Matematik ve istatistik bilim dallarında genelleştirilmiş f-ortalaması merkezsel konum ölçülerinden olan değişik ortalamalar için tek bir genel fonksiyon ve formül bulma ve kullanma çabaları sonucu ortaya çıkarılmıştır. Benzer çabalar biraz değişik diğer bir genelleştirilmiş ortalama formülünü vermiştir. Bu nedenle isim karışıklığını önlemek için f-ortalaması çeşitli diğer isimlerde de anılmaktadır. Bazen yarı-aritmetik ortalama adı kullanılmaktadır. Bu kavramı ve formülü ilk geliştiren Rus matematikçisi A.Kolmogorov adına atfen de bazen Kolmogorov ortalaması olarak isimlendirilmektedir.

Matematik bilimi içinde moment kavramı fizik bilimi için ortaya çıkartılmış olan moment kavramından geliştirilmiştir. Bir bir reel değişkenin reel-değerli fonksiyon olan f(x)in c değeri etrafında ninci momenti şöyle ifade edilir:

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

Tek anakütle ortalaması için parametrik hipotez sınaması veya tek-örneklem için sınama veya μ için sınama, bir rastgele örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz anakütlenin μ ile belirtilen "anakütle ortalaması" hakkında bir hipotez değeri belirtilmesinin anlamlı olup olmadığını araştırmamızı sağlayan parametrik hipotez sınamasıdır.

Medyan bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.