İçeriğe atla

Bayesci istatistik

Bayesci istatistik şeması

Bayesci istatistik, Bayesyen istatistik veya Bayesgil istatistik,[1] olasılığın bir olaya olan inancın bir derecesini ifade ettiği Bayesci olasılık yorumuna dayanan istatistik alanındaki bir teoridir. İnanç derecesi, önceki deneylerin sonuçları gibi olay hakkında önceki bilgilere veya olayla ilgili kişisel inançlara dayanabilir. Bu, olasılığı birçok denemeden sonra bir olayın göreceli sıklığının sınırı olarak gören sıklıkçı olasılık yorumlaması gibi bir dizi başka olasılık yorumundan farklıdır.[2]

Bayes istatistiksel yöntemleri, yeni veriler elde ettikten sonra olasılıkları hesaplamak ve güncellemek için Bayes teoremini kullanır. Bayes teoremi, verilere ve olayla veya koşullarla ilgili önceki bilgilere veya inançlara dayalı olarak bir olayın koşullu olasılığını tanımlar.[3][4] Örneğin, Bayes çıkarımında Bayes teoremi, bir olasılık dağılımı veya istatistiksel modelin parametrelerini tahmin etmek için kullanılabilir. Bayes istatistikleri, olasılığı bir inanç derecesi olarak ele aldığından, Bayes teoremi, inanca dair olasılık dağılımını bir parametreye veya parametre setine doğrudan atayabilir.[2]

Bayesci istatistik, Thomas Bayes'in 1763'te yayınlanan ve belirli bir Bayes teoremi vakasını formüle ettiği An Essay towards solving a Problem in the Doctrine of Chances adlı makalesinden sonra kendisinin adıyla anılmaya başlamıştır. Pierre-Simon Laplace, 18. yüzyılın sonlarından 19. yüzyılın başlarına kadar kaleme aldığı birkaç makalede Bayesci olasılık yorumunu geliştirdi.[5] Laplace, bir dizi istatistiksel problemi çözmek için artık Bayes olarak kabul edilecek yöntemleri kullandı. Birçok Bayes yöntemi daha sonraki yazarlar tarafından geliştirildi, ancak terim bu tür yöntemleri tanımlamak için 1950'lere kadar yaygın olarak kullanılmadı. 20. yüzyılın büyük bir bölümünde, Bayesci yöntemler felsefi ve pratik hususlar nedeniyle birçok istatistikçi tarafından olumsuz olarak değerlendiriliyordu. Birçok Bayes yönteminin tamamlanması için çok fazla hesaplama gerekiyordu ve yüzyıl boyunca yaygın olarak kullanılan yöntemlerin çoğu, sıklık yorumuna dayanıyordu. Bununla birlikte 21. yüzyılda, güçlü bilgisayarların ve Markov zincirli Monte Carlo gibi yeni algoritmaların ortaya çıkmasıyla, Bayesçi yöntemlerin istatistiklerde kullanımının arttığını gördü.[2][6]

Bayesci istatistiğin klasik istatistikten temel farkı şudur: Bayesci istatistikte araştırma verilerinin dışında dışşal bilgilerden de yararlanılır. Salt verilerden değil, uzman görüşlerinden veya geçmiş örneklemlerin sonuçları da ölçüm yapılan örneklem verilerine dahil edilir. Uzman görüşlerine ve geçmiş çalışmalardan alınan örneklemlerdeki bilgilere, önsel bilgi (prior) denir. Bayesci istatistiğin temeli önsel bilgiye dayanmaktadır. Ölçülecek örneklemden elde edilen bilgiler ise olabilirlik (likelihood) olarak tanımlanır.[1] Önsel olasılık, Bayesci istatistikte gözlemlere başvurmadan önce değerlendirilen ve öznel de olabilen olasılık olarak değerlendirilir ve tecrübeye dayalı olasılık olarak da tanımlanır.[7]

Bayes teoremi

Bayes teoremi, yeni veriler elde edildikten sonra inanç derecesi olasılıklarını güncellemek için Bayesci yöntemlerden yararlanır ve Bayesci istatistiğin temel bir teoremidir. ve olayları verildiğinde, 'nın koşullu olasılığı, verilen 'nin doğruluğunu şu şekilde sağladığı ifade edilir:[8]

kanıtının olasılığı toplam olasılık yasası kullanılarak hesaplanabilir. Eğer deneme sonuçlarından oluşan örnek uzayın bir veri kümesi ise denklem şu şekilde kurulur:[2][8]

Bayes yöntemlerinin ana hatları

Genel istatistiksel teknikler kümesi, çoğu özel Bayes versiyonlarına sahip olan aşağıdaki gibi bir dizi çalışmaya ayrılabilir.

Bayesci çıkarım

Bayesci çıkarım, çıkarımlardaki belirsizliğin olasılık kullanılarak ölçüldüğü çıkarımsal istatistiği ifade eder. Klasik sıklıkçı çıkarımda model parametreleri ve hipotezler sabit kabul edilir. Sıklıklı çıkarımda olasılıklar parametrelere veya hipotezlere atanmaz. Örneğin, sıkça yapılan çıkarımda, bir sonraki doğru yazı turanın sonucu gibi, yalnızca bir kez gerçekleşebilecek bir olaya doğrudan bir olasılık atamak bir anlam ifade etmeyecektir. Bununla birlikte, yazı tura sayısı arttıkça her birinin oranının yarıya yaklaştığını söylemek mantıklı olacaktır.[9]

İstatistiksel modeller, örnek verilerin nasıl üretildiğini temsil eden bir dizi istatistiksel varsayım ve işlemi belirtir. İstatistiksel modellerin değiştirilebilen bir dizi parametresi vardır. Örneğin, bir madeni para, iki olası sonucu modelleyen bir Bernoulli dağılımından örnekler olarak temsil edilebilir. Bernoulli dağılımının, tek bir sonucun olasılığına karşılık gelen tek bir parametresi vardır, bu da yüzlerden birinin üzerine düşme olasılığıdır. Veriler için iyi bir model tasarlamak Bayesci çıkarımın merkezinde yer alır. Çoğu durumda, modeller yalnızca gerçek süreci tahmin eder ve verileri etkileyen belirli faktörleri hesaba katmayabilir.[2] Bayesci çıkarımda, olasılıklar model parametrelerine atanabilir. Parametreler rassal değişkenler olarak gösterilebilirler. Bayesci çıkarım, daha fazla kanıt elde edildikten veya öğrenildikten sonra olasılıkları güncellemek için yine Bayes teoremini kullanır.[10]

İstatistiksel modelleme

Bayes istatistiklerini kullanan istatistiksel modellerin formülasyonu, bilinmeyen parametreler için önceki dağılımların belirtilmesini gerektirmek gibi tanımlama özelliğine sahiptir. Aslında, önceki dağılımların parametreleri, Bayes hiyerarşik modellemesine yol açan öncül dağılımlara sahip olabilir[11] veya Bayes ağlarına yol açacak şekilde birbiriyle ilişkili olabilir.

Bayes modellerinin keşif analizi

Bayes modellerinin veri keşif analizi, keşifsel veri analizi yaklaşımının Bayes modellemenin ihtiyaçlarına ve özelliklerine bir uyarlaması veya uzantısıdır. Persi Diaconis'in sözleriyle:[12]

Veri keşif analizi, verilerdeki yapıyı veya basit açıklamaları ortaya çıkarmaya çalışır. Sayılara veya grafiklere bakar ve kalıplar bulmaya çalışırız. Arka plan bilgileri, hayal gücü, algılanan kalıplar ve diğer veri analizleriyle ilgili deneyimler tarafından önerilen ipuçlarını takip ederiz.

Bayesci çıkarım süreci, Bayes istatistiklerinde merkezi bir role sahip olan bir ardıl dağılım (sonsal bilgi) üretir ve bunun yanında, ardılı öngörülebilir dağılım ve öncül tahmini dağılım gibi diğer dağılımlar da vardır. Bu dağılımların doğru görselleştirilmesi, analizi ve yorumlanması, çıkarım sürecini belirleyen soruları doğru şekilde cevaplamanın anahtarıdır.[13]

Tüm bu görevler, Bayes modellerinin keşif analizi yaklaşımının bir parçasıdır ve bunları başarılı bir şekilde gerçekleştirmek, yinelemeli ve etkileşimli modelleme sürecinin merkezinde yer alır. Bu görevler hem sayısal hem de görsel özetler gerektirir.[14][15][16]

Kaynakça

  1. ^ a b "Bayesci İstatistik ve Klasik İstatistik". İstatistik Merkezi. 18 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Ocak 2021. 
  2. ^ a b c d e Bayesian Data Analysis (İngilizce) (Third Edition bas.). Chapman and Hall/CRC. 2013. ISBN 978-1-4398-4095-5. 
  3. ^ Statistical Rethinking, First Edition (İngilizce). Chapman and Hall/CRC. 2015. ISBN 978-1-4822-5344-3. 
  4. ^ Doing Bayesian Data Analysis, Second Edition (İngilizce). Academic Press. 2014. ISBN 978-0-1240-5888-0. 
  5. ^ The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy, First Edition (İngilizce). Chapman and Hall/CRC. 2012. ISBN 978-0-3001-8822-6. 
  6. ^ Fienberg (2006). "When Did Bayesian Inference Become "Bayesian"?". Bayesian Analysis (İngilizce). 1 (1): 1-40. doi:10.1214/06-BA101. 
  7. ^ "Önsel olasılık". Ansiklodedi.com. 2018. Erişim tarihi: 3 Ocak 2021. []
  8. ^ a b Introduction to probability. 2. (İngilizce). Providence, RI: American Mathematical Society. 2006. ISBN 978-0-8218-9414-9. 
  9. ^ Bayesian and frequentist regression methods (İngilizce). New York, NY: Springer. 2013. ISBN 978-1-4419-0924-4. 
  10. ^ Applied Bayesian modelling. 2 (İngilizce). Wiley. 2014. ISBN 978-1-119-95151-3. 
  11. ^ Hajiramezanali, E.; Dadaneh, S. Z.; Karbalayghareh, A.; Zhou, Z.; Qian, X. (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data (İngilizce) (32.32 çalışma = Conference on Neural Information Processing Systems (NIPS) bas.). Montreal, Kanada.  arXiv:1810.09433
  12. ^ Diaconis, Persi (2011). "Theories of Data Analysis: From Magical Thinking Through Classical Statistics" (İngilizce) (2:e55). John Wiley & Sons Ltd. doi:10.1002/9781118150702.ch1. 
  13. ^ Kumar (2019). "ArviZ a unified library for exploratory analysis of Bayesian models in Python". Journal of Open Source Software (İngilizce). 4 (33): 1143. doi:10.21105/joss.01143. 
  14. ^ Gabry (2019). "Visualization in Bayesian workflow". Journal of the Royal Statistical Society: Series A (Statistics in Society) (İngilizce). 182 (2): 389-402. doi:10.1111/rssa.12378. 
  15. ^ Vehtari (2019). "Rank-normalization, folding, and localization: An improved $\widehat{R}$ for assessing convergence of MCMC" (İngilizce). 
  16. ^ Bayesian Analysis with Python: Introduction to statistical modeling and probabilistic programming using PyMC3 and ArviZ (İngilizce). Packt Publishing Ltd. 2018. ISBN 978-1-789-34165-2. 30 Eylül 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 3 Ocak 2021. 

Konuyla ilgili eserler

Ayrıca bakınız

İlgili Araştırma Makaleleri

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

Serbestlik derecesi istatistik'te bir istatistiğin kesin hesaplanmasında kullanılan değerlerin sayısının ne kadar değişme serbestisi olduğunu sayısal olarak verir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

İstatistiksel yığın yahut anakütle yahut evren kavramı istatistik biliminde belirli bir konudaki tüm değişkenlerin ölçülebilecek değerlerini ifade eder. Örneğin; Türkiye'de bulunan kişiler bir istatistiksel yığın değil, bunların mümkün sayısı bir istatistiksel yığın olmaktadır. Ankara'nın sayılması mümkün nüfusu ise Türkiye yığınından alınmış bir örneklemdir. Dikkat edilirse istatistiksel yığın kavramı ile, herhangi bir değişkeni içeren elemanlara değil, değişkenlerin mümkün olarak ölçülebilen veya sayılabilen içerik karakteristiğine atıf yapılmaktadır. Böylece istatistikte istatistiksel yığın ya ölçülebilir ya sayılabilir karekteristiktir ve sayısal olarak ortaya çıkabilmesi mümkündür.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

Olasılık kuramı ve istatistik bilim kollarında, multinom dağılımı binom dağılımının genelleştirilmesidir.

Olasılık teorisi ya da ihtimaliyet teorisi rastgele olayların analizi ile ilgilenen bir matematik bilim dalıdır. Olasılık teorisinin ana ögeleri rassal değişkenler, saf rassal süreçler, olaylar olarak sayılabilir. Bunlar ya tek olarak ortaya çıkan veya bir zaman dönemi içinde gelişerek meydana gelen, ilk görünüşü rastgele bir şekilde olan deterministik olmayan olayların veya ölçülebilir miktarların matematiksel soyutlamalarıdır. Bir madeni parayı yazı-tura denemesi için havaya atmak veya bir zarı atmak ile ortaya çıkan sonuç ilk bakışta rastgele bir olay olarak görülebilirse bile eğer birbirini takip eden rastgele olaylar tekrar tekrar ortaya çıkartılırsa incelenebilecek ve tahmin edilebilecek belirli bir istatistiksel seyir takip ettikleri görülecektir. Bu türlü olaylar ve sonuçların seyirlerini betimleyen iki temsilci matematiksel sonuç büyük sayılar yasası ve merkezsel limit teoremidir.

Bayes teoremi, olasılık kuramı içinde incelenen önemli bir konudur. Bu teorem bir rassal değişken için olasılık dağılımı içinde koşullu olasılıklar ile marjinal olasılıklar arasındaki ilişkiyi gösterir. Bu şekli ile Bayes teoremi bütün istatistikçiler için kabul edilir bir ilişkiyi açıklar. Bu kavram için Bayes kuralı veya Bayes savı veya Bayes kanunu adları da kullanılır.

İstatistik biliminde önemli bir yeri olan parametrik olmayan istatistik parametrik olmayan istatistiksel modeller ve parametrik olmayan çıkarımsal istatistik, özellikle parametrik olmayan istatistiksel hipotez sınamalar ile ilgilenir. Parametrik olmayan yöntemler çok defa dağılımlardan serbest yöntemler olarak da anılmaktadır, çünkü verilerin bilinen belirli olasılık dağılımı gösteren kaynaklardan geldiği varsayımına dayanmamaktadır.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

<span class="mw-page-title-main">Anlamlılık seviyesi</span>

Anlamlılık seviyesi, istatistik biliminde, İngiliz istatistikçi Ronald Fisher tarafından çıkartımsal hipotez sınama yönteminin kurulması sırasında kavramlaştırılmış özel bir manası olan bir bilimsel ve istatistiksel terimdir. İstatistiksel anlamlılık eğer bir sonucun gerçekleşme olasılık değerlendirilmesine göre olabilirliği düşük değil ise ortaya çıkar.

İstatistiksel makine çevirisi, iki dilli metin derlemlerinin incelenmesinden elde edilen parametrelerin kullanıldığı istatistiksel modelleri içeren bir makine çevirisi yaklaşımıdır. İstatiksel çeviri yöntemi, makine çevirisi disiplini içerisinde kural tabanlı makine çevirisi ve örnek tabanlı makine çevirisi yaklaşımlarına göre farklılık gösterir.

<span class="mw-page-title-main">Thomas Bayes</span> Bayes teoremi ile bilinen İngiliz matematikçi

Thomas Bayes ( BAYZ

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

<span class="mw-page-title-main">Naive Bayes sınıflandırıcısı</span>

Naïve Bayes sınıflandırıcı, örüntü tanıma problemine ilk bakışta oldukça kısıtlayıcı görülen bir önerme ile kullanılabilen olasılıksal bir yaklaşımdır. Bu önerme, örüntü tanımada kullanılacak her bir tanımlayıcı öznitelik ya da parametrenin istatistik açıdan bağımsız olması gerekliliğidir. Her ne kadar bu önerme Naive Bayes sınıflandırıcının kullanım alanını kısıtlasa da istatistik bağımsızlık koşulu esnetilerek kullanıldığında da daha karmaşık yapay sinir ağları gibi metotlarla karşılaştırabilir sonuçlar vermektedir. Bir Naive Bayes sınıflandırıcı, her özniteliğin birbirinden koşulsal bağımsız olduğu ve öğrenilmek istenen kavramın tüm bu özniteliklere koşulsal bağlı olduğu bir Bayes ağı olarak da düşünülebilir.

Önsel olasılık*, Bayesci İstatistikte gözlemlere atıf yapmadan önce değerlendirilen özellikle öznel olabilen olasılıktır. Tecrübeye dayalı olasılık olarak da adlandırılır. Örneğin bir hasta hekim ziyaretinde yorgunluktan şikayet ediyor ve böbrek taşı geçmişi var. Fakat paratiroid hastalığını işaret eden başka fiziksel belirtileri (semptomlar) yok. Bu durumda hekim hastanın hiperparatiroidizm olma olasılığının düşük olduğuna karar verir. Bu örnekte hekimin kullandığı olasılık gözlemlere önsel 'dir dolayısıyla önsel olasılıktır. Önsel olasılık istatistikte tanı testlerinin değerlendirilmesinde kullanılır.

Bayes çıkarımı, daha fazla kanıt veya bilgi elde edildikçe bir hipotezin olasılığını güncellemek amacıyla Bayes teoreminin kullanıldığı bir istatistiksel çıkarım yöntemidir. Bayesci çıkarım, istatistikte ve özellikle matematiksel istatistikte önemli bir tekniktir. Bayes güncellemesi, bir veri dizisinin dinamik analizinde önemlidir. Bayesci çıkarım, bilim, mühendislik, felsefe, tıp, spor ve hukuk dahil birçok faaliyette uygulama bulmuştur. Karar teorisi felsefesinde genellikle "Bayes olasılığı " olarak adlandırılan öznel olasılıkla yakından ilişkilidir.

<span class="mw-page-title-main">Bayes ağı</span>

Bir Bayes ağı, Bayes modeli ya da olasılıksal yönlü dönüşsüz çizge modeli bir olasılıksal çizge modelidir ve birbirleriyle koşulsal bağımlılıklara sahip bir rassal değişkenler kümesini yönlü dönüşsüz çizge(YDÇ) şeklinde ifade eder. Bayes ağları; gündelik hayatta meydana gelen bir olayı anlatmak ve o olayın gerçekleşmesine sebebiyet verebileceği bilinen birkaç olası nedenden herhangi birinin katkıda bulunan faktör olma olasılığını tahmin etmek için kullanılan ideal bir modelleme türüdür. Örneğin, bir Bayes ağı kullanılarak hastalıklar ve semptomları arasındaki olasılıksal koşul ilişkileri modellenebilir. Bu model kullanılarak, bir kişide görülen semptomlar verildiğinde bu kişinin bazı hastalıklara sahip olma olasılıkları hesaplanabilir. Buna benzer olarak neden-sonuç ilişkisi olan birçok olayın olasılığı bu modelleme ile görselleştirilebilir.

<span class="mw-page-title-main">Parametre</span> belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik

Parametre belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik. Parametre, sistemi tanımlarken veya performansını, durumunu değerlendirirken yararlı veya kritik olan bir sistem unsurudur.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.