İçeriğe atla

Varyans hesaplanması için algoritmalar

İstatistiksel ölçülerinin bilgisayar ile yapılan hesaplanmalarında varyans hesaplanması için kullanılan algoritmalar pratik sonuçlar elde edilmesinde önemli rol oynamaktadırlar. Varyansın hesaplanması için işe yarar bilgisayar algoritmalarının tasarlanmasında ana sorun varyans formüllerinin veri kare toplamlarının hesaplanmasını gerektirmesindedir. Bu işlem yapılırken sayısal kararsızlık problemleri ve özellikle büyük veri değerleri bulunuyorsa aritmetik taşmalar problemleri ortaya çıkması çok muhtemeldir.

Ancak, 2014 yılında yayınlanan "İstatistikte Altın Oran" adlı bir kitapta, kareler ortalamasının karekökü operatörü yerine, üstel bir işlem içermeyen, sadece dört işlem ve sınırlı toplama operatörü ile hesaplanabilen bir sapma metodolojisi tanımlanmıştır. Tanımlanan bu sapma'nın en dikkat çekici özelliği, ortalama'nın sağı ve solu için, birbirinden bağımsız iki ayrı sapma üretmesidir.[1]

I. Naif algoritma

Tüm bir anakütle veri dizisi için varyansın hesaplanması için formül şudur:

Bir sonsuz olmayan n gözlem hacminde bir örneklem veri dizisi kullanarak anakütle varyansının bir yansız kestirim değerini bulmak için formül şöyle ifade edilir:

Bu formüller kullanılarak varyans kestirimi hesaplamak için bir naif algoritma için szde kod şöyle verilir:

n = 0
toplam = 0
toplam_kare = 0

for veri olan her x:
  n = n + 1
  toplam = toplam + x
  toplam_kare = toplam_kare + x*x
end for

ortalama = toplam/n
varyans = (toplam_kare - toplam*ortalama)/(n - 1)

Bu algoritma bir sonlu anakutle verileri için varyansin hesaplanmasına hemen adapte edilebilir: en son satırda ki n - 1 ile bolum yapılacağına n ile bolum yapılır.

toplam_kare ve toplam * ortalama birbirine hemen yakın sayılar olabilir. Bu nedenle sonucun kesinliği hesaplamada kullanılan kayan noktali aritmetiğin doğal kesinliğinden daha az olabilir. Eğer varyans değeri elde edilen veri toplamına karşıt olarak daha küçük ise, bu sorun daha da şiddetle ortaya çıkar.

II. İki-geçişli algoritma

Varyans için değişik bir formül kullanan diğer bir yaklaşım şu sözde kod ile verilmiştir:

n = 0
toplam1 = 0
for veri olan her x:
  n = n + 1
  toplam1 = toplam1 + x
end for
ortalama = toplam1/n

toplam2 = 0
for veri olan her x:
  toplam2 = toplam2 + (x - ortalama)^2
end for
varyans = toplam2/(n - 1)

IIa. Düzeltilmiş toplam şekli

Yukarıda verilen algoritmanın düzeltilmiş toplam şekli şöyle verilir:

n = 0
toplam1 = 0
for veri olan her x:
  n = n + 1
  toplam1 = toplam1 + x
end for
ortalama = toplam1/n

toplam2 = 0
toplamc = 0
for veri olan her x:
  toplam2 = toplam2 + (x - ortalama)^2
  toplamc = toplamc + (x - ortalama)
end for
varyans = (toplam2 - toplamc^2/n)/(n - 1)

III. On-line algoritması

Gereken yenileştirme için bulunabilecek daha uygun bir işlemin (cari) ortalamadan farkların karelerinin toplamını bulmak olduğu anlaşılmıştır; bu değer olup burada olarak gösterilmektedir:

Sayısal olarak daha kararlı bir algoritma aşağıda verilmiştir. Bu algoritma ortalama hesaplamak için kullanılmak niyetiyle Knuth (1998) tarafından verilmiş[2] ve orada ilk defa Welford(1962) tarafından ortaya atıldığı bildirilmiştir.[3]

n = 0
ortalama = 0
M2 = 0

for veri olan her x:
  n = n + 1
  delta = x - ortalama
  ortalama = ortalama + delta/n
  M2 = M2 + delta*(x - ortalama)   // Bu terim ortalama için yeni değeri kullanır
end for

varyans_n = M2/n
varyans = M2/(n - 1)


IV. Ağırlıklı küçük artışlı algoritma

Eğer gözlemler için değişik ağırlıklar verilmişse, West (1979) şu küçük artışlı algoritmanın kullanılabileceğini bildirmiştir:[4]

n = 0
for veri olan her x:
  if n=0 then 
      n = 1
      ortalama = x
      S = 0
      toplamagırlık = agırlık
  else
      n = n + 1
      temp = agırlık + toplamagırlık
      S = S + sumweight*agırlık*(x-ortalama)^2 / temp
      ortalama = ortalama + (x-ortalama)*agırlık / temp
      toplamagırlık = temp
  end if
end for
Varyans = S * n / ((n-1)*toplamagırlık)  // eğer veri dizisi anakütle içinse n/(n-1) kullanılmaz.

V. Paralel algoritma

Chan, Golub ve LeVeque (1979) hazırladıkları bir raporda yukarıda verilen III. On-line Algoritmasının bir örneklem olan i herhangi iki tane ve setlerine ayırmak için işleme konabilen bir algoritmanın özel bir hali olduğunu bildirmişlerdir:

.

Bu bazı hallerde daha kullanışlı olabilmektedir. Örneğin girdinin ayrılabilir parçalarına çoklu kompüter işlem birimlerinin kullanılması imkânını sağlayabilir.

V.a. Üst seviyede istatistikler

Örneklem verileri için üst seviyede istatistikler olan çarpıklık ve basıklık ölçülerini bulmak için Terriberry Chen'in üçüncü ve dördüncü merkezsel moment bulmak için ortaya attığı formülü daha uygun bir şekle şöyle değiştirmiştir.::[5]

Burada yine, verilerin ortalamadan farklarının üstel değerlerinin toplamlarıdır; yani olur. Bu değerler kullanılarak çarpıklık ve basıklık ölçüleri şöyle bulunur:

 : çarpıklık,
 : basıklık.

Küçük artışlı hallerde (yani ), bu şöyle basitleştirilebilir:

Burada dikkati çeken nokta, değerini korumak suretiyle, sadece tek bir bölme işleminin gerekli olması ve böylece çok az bir ekstra maliyetle daha yüksek istatistiksel ölçüler hesaplanabilmesidir.

Örnek

Kullanılan kompüterde bütün "floating" nokta operasyonlarının IEEE 754 çifte-hassiyetli aritmetik ile yapıldığı varsayılsın. Sonsuz büyüklükte bir anakütleden n=5 büyüklüğünde bir örneklem olarak

4, 7, 13, 16

veri seti elde edildiğini düşünelim. Bu örneklem için örneklem ortalaması 10 olur ve yanlı olmayan anakütle varyans kestirimi 30dur. Hem "I. naif Algoritma" hem de "II. iki geçişli Algoritma" bu değerleri doğru olarak hesaplamaktadırlar.

Şimdi örnekleme olarak şu veri setini alalım:

, , ,

Bu örneklemin de, birinci örneklem gibi ayni varyans kestirimine sahip olması gerekir. "II. Algoritma" bu varyansı doğru olarak hesaplamaktadır. Fakat "I. Algoritma" sonuç olarak tam 30 yerine 29.333333333333332 sonucu verir. Bu dakiklik kaybının belki kabul edilebilir tolerans olduğu ve "I. Algoritma" kullanılmasının nispeten önemsiz bir hata doğurduğu söylenebilir.

Fakat bu "I. Algoritma" hesaplamasında çok önemli bir eksiklik ve hataya işaret etmektedir. Bu sefer örneklem olarak şunu alalım:

, , ,

Yine "II. Algoritma" doğru anakütle varyans kestirimi olarak 30 gösterir. Ama "I. Algoritma" kullanılınca elde edilen kestirim hesabı -170.66666666666666 olarak verilir. Bu çok önemli ve yapılmaması gereken bir hatadır; çünkü kavram olarak tanımlamayla varyans değerinin hiçbir zaman negatif olmaması gerekir.

Ayrıca bakınız

  • Varyans
  • Varyans hesaplaması için formül

Kaynakça

  1. ^ Mehmet Güven GÜNVER, Prof. Dr. Mustafa Şükrü ŞENOCAK, Doç Dr. Suphi VEHİD, İstatistikte Altın Oran, Türkmen Kitabevi, 2014, ISBN : 9786054749409
  2. ^ Knuth,D.E. (1998). The Art of Computer Programming, V.2: Seminumerical Algorithms, 3. ed., p. 232. Boston: Addison-Wesley.
  3. ^ Welford,B.P. (1962). "Note on a method for calculating corrected sums of squares and products". Technometrics C.4 No.3 say.419–420. [1]
  4. ^ D. H. D. West (1979). Communications of the ACM, 22, 9, 532-535: Updating Mean and Variance Estimates: An Improved Method
  5. ^ Terriberry,T.B. (2007), Computing Higher-Order Moments Online url=http://people.xiph.org/~tterribe/notes/homs.html 23 Nisan 2014 tarihinde Wayback Machine sitesinde arşivlendi.

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Riemann toplamı</span>

Matematikte, Riemann toplamı genellikle fonksiyon eğrisinin altında kalan bölgenin yaklaşık alanıdır. Bu toplama, Alman matematikçi Bernhard Riemann'ın soyadı verilmiştir.

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Dirac delta fonksiyonu</span>

Adını Paul Dirac' tan alan Dirac delta fonksiyonu tek boyutta

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

Termodinamiğin(Isıldevinimin) ikinci yasası, izole sistemlerin entropisinin asla azalamayacağını belirtir. Bunun sebebini izole sistemlerin termodinamik dengeden spontane olarak oluşmasıyla açıklar. Buna benzer olarak sürekli çalışan makinelerin ikinci kanunu imkânsızdır.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Üstel dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında üstel dağılımı bir sürekli olasılık dağılımları grubudur. Sabit ortalama değişme haddinde ortaya çıkan bağımsız olaylar arasındaki zaman aralığını modelleştirirken bir üstel dağılım doğal olarak ortaya çıkar.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Olasılık kuramı ve istatistik bilim kollarında, çokdeğişirli normal dağılım veya çokdeğişirli Gauss-tipi dağılım, tek değişirli bir dağılım olan normal dağılımın çoklu değişirli hallere genelleştirilmesidir.

<span class="mw-page-title-main">Log-normal dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında log-normal dağılım logaritması normal dağılım gösteren herhangi bir rassal değişken için tek-kuyruklu bir olasılık dağılımdır. Eğer Y normal dağılım gösteren bir rassal değişken ise, bu halde X= exp(Y) için olasılık dağılımı bir log-normal dağılımdır; aynı şekilde eğer X log-normal dağılım gösterirse o halde log(X) normal dağılım gösterir. Logaritma fonksiyonu için bazın ne olduğu önemli değildir: Herhangi iki pozitif sayı olan ab ≠ 1 için eğer loga(X) normal dağılım gösterirse, logb(X) fonksiyonu da normaldir.

İstatistik bilim dalında ağırlıklı ortalama betimsel istatistik alanında, genellikle örneklem, veri dizisini özetlemek için bir merkezsel konum ölçüsüdür. En çok kullanan ağırlıklı ortalama tipi ağırlıklı aritmetik ortalamadır. Burada genel olarak bir örnekle bu kavram açıklanmaktadır. Değişik özel tipli ağırlıklar alan özel ağırlıklı aritmetik ortalamalar bulunmaktadır. Diğer ağırlıklı ortalamalar ağırlıklı geometrik ortalama ve ağırlıklı harmonik ortalamadir. Ağırlıklı ortalama kavramı ile ilişkili teorik açıklamalar son kısımda ele alınacakdır.

<span class="mw-page-title-main">Laplace denklemi</span>

Matematikte Laplace denklemi, özellikleri ilk defa Pierre-Simon Laplace tarafından çalışılmış bir kısmi diferansiyel denklemdir. Laplace denkleminin çözümleri, elektromanyetizma, astronomi ve akışkanlar dinamiği gibi birçok bilim alanında önemlidir çünkü çözümler bilhassa elektrik ve yerçekim potansiyeli ile akışkan potansiyelinin davranışını açıklar. Laplace denkleminin çözümlerinin genel teorisi aynı zamanda potansiyel teorisi olarak da bilinmektedir.

Ekserji verimi, termodinamiğin ikinci kanununa göre verimliliği hesaplar. Bir tesisin, mekanizmanın veya sistemin oluşturduğu ve faydalı iş için gereken toplam ekserjilerin, yine aynı sistemdeki kütle akışı veya enerji kaynaklarının potansiyel ekserjilerinin toplamına oranını ifade eder.

Medyan bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.

Elektrokimyada Nernst denklemi, bir elektrokimyasal reaksiyonun indirgenme potansiyelini ; indirgeme ve oksidasyona uğrayan kimyasal türlerin standart elektrot potansiyeli, sıcaklığı ve aktiflikleri ile ilişkilendiren bir denklemdir. Denklemi formüle eden Alman fiziksel kimyacı Walther Nernst'in adını almıştır.

<span class="mw-page-title-main">Dize titreşimi</span>

Bir dizedeki (tel) [[titreşim]] bir ses dalgasıdır. Rezonans titreşen bir dizenin sabit frekanslı, yani sabit perdeli bir ses üretmesine neden olur. Telin uzunluğu veya gerginliği doğru şekilde ayarlanırsa üretilen ses bir [[müzik tonu]] olur. Titreşimli teller gitar, [[Viyolonsel|çello]] ve piyano gibi yaylı çalgıların temelini oluşturur.