İçeriğe atla

Hipergeometrik dağılım

Hipergeometrik
Olasılık kütle fonksiyonu
Yığmalı dağılım fonksiyonu
Parametreler
Destek
Olasılık kütle fonksiyonu (OYF)
Birikimli dağılım fonksiyonu (YDF)
Ortalama
Medyan
Mod
Varyans
Çarpıklık
Fazladan basıklık

Entropi
Moment üreten fonksiyon (mf)
Karakteristik fonksiyon

Olasılık kuramında ve istatistikte, hipergeometrik dağılım sonlu bir ana kütle içinden tekrar geri koymadan birbiri arkasına n tane nesnenin çekilmesi işlemi için başarı sayısının dağılımını bir ayrık olasılık dağılımı şekilde betimler.

Yaygın bir örnek, hatalı ve hatasız malları sınıflandıran bir ihtimal tablosunda gösterilebilir:

ÇekilmişÇekilmemişToplam
Hatalıkmkm
HatasıznkN + k − n − mN − m
ToplamnN − nN

İçinde m sayıdan daha fazla hatalı mal birimi olmadığını kabul ettiğimiz N birimlik bir mal teslimi yapılmıştır. Bu N sayıdaki malların içinden tam n sayıda bir örnek alınıp bunlar kontrolden geçilirse bu örnek içinde tam k tane hatalı mal birimi bulunacağı hipergeometrik dağılım ile açıklanır.

Genel olarak: Eğer bir X rassal değişkeni N, m ve n parametreleri olan bir hipergeometrik dağılım gösterirse, tam olarak k sayıda başarı elde edilmesi, şu fonksiyonla bulunur:

k değeri max(0, n+mN) ile min(mn) arasındaysa olasılık pozitiftir.

Bu formül şöyle daha da açıklanabilir: (Geri koyulmadan) alınabilmesi mümkün örnek sayısı 'dir. Hatalı nesne sayısının k olması için sayıda ihtimal bulunur; geride kalan kısmın hatasız nesnelerle doldurulması için de ihtimal mevcuttur.

k, 0 ve N arasında her tam sayı değeri alabildiği için ve olasılık değerlerinin toplamı 1 olduğu için, kombinatorik matematikte bu Vandermonde'nin özdeşliğidir.

Uygulama ve bir örnek

Hipergeometrik dağılımın klasik uygulaması geri koymadan örnekleme adı verilebilen bir denemedir. Bir küp problemi düşünülsün: bir küpün içinde iki tip küçük top, beyaz ve siyah, bulunduğu düşünülsün. Aynen bir binom dağılımı için yapılan deneme gibi, küpten bir beyaz top çekmeye başarı adı verilsin ve alternatif olan siyah top çekmek başarısızlık sayılsın. N küpte bulunan toplam top sayısı, m küpteki beyaz top sayısı ve böylece N − m ise küpteki siyah top sayısı olsun. Şimdi küpün içinde 5 beyaz ve 45 siyah top olduğu varsayılsın. Gözleri kapalı olarak küpten birer birer 10 tane top çekilsin ve her çekilen top küpe geri konulmasın. Bu deneme geri koyulmadan örnekleme olur.

Araştırmayı ilgilendiren soru: Bu çekişte küpten tam 4 tane beyaz top çekme (yani ima ile 6 tane de siyah top çekme) olasılığı nedir? Buna binom dağılım modeli uygulanamaz; çünkü her çekilişte başarı olasılığı değişmektedir. Bu problem iki kategorik değişkeni sınıflandıran olumsallık tablosunda şöyle özetlenebilir:

ÇekilmişÇekilmemişToplam
Beyaz toplar4 (k)1 = 5 − 4 (mk)5 (m)
Siyah toplar6 = 10 − 4 (nk)39 = 50 + 4 − 10 − 5 (N + k − n − m)45 (N − m)
Toplam10 (n)40 (N − n)50 (N)

Küpten tam olarak k tane beyaz top çekmenin olasılığı şu formül kullanılarak hesaplanir:

Bu problem için k = 4 olduğundan 4 tane beyaz top (ve 6 tane siyah top) çekme olasılığı

çok düşük bir değerde (yaklaşık 0,004) olup, olabilirliği nerede ise sıfıra eşittir. Bu bir değişik ifade ile açıklanırsa bu rassal deneme (yani içinde 50 top bulunan bir küpten 10 tane top çekip hiçbirini geri koyulmamasi denemesini) 1000 defa tekrarlanırsa 4 beyaz (ve 7 siyah) top elde etmek ancak 4 defa ortaya çıkan bir sonuç olacaktır.

Bu sefer küpten 5 tane beyaz (ve 5 tane siyah) top çekme olasılığına göz atılsın. İki kategorik değişkeni sınıflandıran olumsallık tablosu şöyle kurulur:

ÇekilmişÇekilmemişToplam
Beyaz toplar5 (k)0 = 5 − 5 (m − k)5 (m)
Siyah toplar5 = 10 − 5 (n − k)40 = 50 + 5 − 10 − 5 (N + k − n − D)45 (N − m)
Toplam10 (n)40 (N − n)50 (N)

Olasılık şöyle hesaplanabilir (Dikkat edilirse paydalar hep aynıdır):

Beklendiği gibi 5 beyaz top çekme olasılığı, 4 beyaz top çekme olasılığının çok daha altındadır.

Simetriler

Hipergeometrik dağılımda n ve m parametreleri arasında çok önemli simetriler vardır. Bu simetriler verilen küp problemi için önemli değil gibi görünmektedirler. Gerçekten verilen bazı hipergeometrik dağılım gösteren problemlerde n ve m parametreleri hiçbir problem olmadan birbiriyle değiştirilebilir. Ancak hayat/ölüm sorunlarına hipergeometrik dağılım uygulanmaya başlayınca önemleri anlaşılabilir.

Parametreler olan n ve m arasındaki simetriler şöyle sıralanabilirler:

  • Bu halde siyah ve beyaz en basitçe rol değiştirmektedirler.
f(k;N,m,n) = f(n − k;N,N − m,n)

Bunu daha kolay anlamak için siyah toplar beyaza; beyaz toplar siyaha boyanınca neyin değiştiğini düşünmek gerektir.

  • Bu halde çekilmiş ve çekilmemiş toplar rol değiştirmektedirler.
f(k;N,m,n) = f(m − k;N,m,N − n)
  • Bu simetriyi anlamak için topları çekme hareketini unutup, zaten çekilmiş olan toplara dikkat

çekilmektedir ve zaten çekilmiş olan toplara etiket yapıştırma işlemine benzer:

f(k;N,m,n) = f(k;N,n,m)

İlişkili dağılımlar

X ~ Hypergeometrik(, , ) ve olsun.

  • Eğer ise rassal değişkeni parametreli bir Bernoulli dağılımı gösterir.
  • Eğer 0 veya 1 e eşit olmayan ve ile karşılaştırılınca ve büyük değerlerde iseler, o halde

Burada rassal değişkeni parametreleri ve olan bir binom dağılım gösterir.

  • Eğer 0 veya 1 e eşit olmayan ve ile karşılaştırılınca ve büyük değerlerde iseler, o halde

Burada bir standart normal dağılım gösterir.

Ayrıca bakınız

Kaynakça

Dış bağlantılar

İlgili Araştırma Makaleleri

Rassal değişken kavramının geliştirilmesi ile, sezgi yoluyla anlaşılan şans kavramı, soyutlaştırarak teorik matematik analiz alanına sokulmuş ve bu geliştirilen matematik kavram ile olasılık kuramı ve matematiksel istatistiğin temeli kurulmuştur.

<span class="mw-page-title-main">Binom dağılımı</span>

Olasılık kuramı ve istatistik bilim kollarında, binom dağılımı n sayıda iki kategori (yani başarı/başarısızlık, evet / hayır, 1/0 vb) sonucu veren denemelere uygulanır. Araştırıcının ilgi gösterdiği kategori başarı olarak adlandırılır. Bu türlü her bir deneyde, bağımsız olarak, başarı (=evet=1) olasılığının p olduğu (ve yalnızca iki kategori sonuç mümkün olduğu için başarısızlık olasılığının 1 - p olduğu) bilinir. Bu türlü bağımsız n sayıda denemeler serisi içinde elde edilen başarı sayısının ayrık olasılık dağılımı binom dağılım olarak tanımlanır. Bir binom dağılım sadece iki parametre ile, yani n ve p ile tam olarak tanımlanır. Matematik notasyon olarak bir rassal değişken X binom dağılım gösterirse şöyle ifade edilir:

X ~ B(n,p)

İstatistik bilimi içinde küp problemi bir idealize edilmiş düşünce denemesi olup pratik hayatta ilgilenilen nesneler bir küp veya benzeri bir kap içinde bulunan renkli toplarla temsil edilmektedir. Bir veya daha fazla sayıda topun küpten çıkartıp alındığı düşünülür; bu düşüncenin hedefi, belli bir renkte ve diğer özellikte olan topların küpten çıkarılma olasılığını incelemektir.

<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

Bernoulli dağılımı olasılık kuramı ve istatistik bilim dallarında, p olasılıkla başarı ile 1 değeri alan ve olasılıkla başarısızlık ile 0 değeri alan bir ayrık olasılık dağılımıdır. İsmi ilk açıklamayı yapan İsviçreli bilim insanı Jakob Bernoulli anısına verilmiştir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

Bir olasılık dağılımı bir rassal olayın ortaya çıkabilmesi için değerleri ve olasılıkları tanımlar. Değerler olay için mümkün olan tüm sonuçları kapsamalıdır ve olasılıkların toplamı bire eşit olmalıdır. Örneğin, bir rassal olay olarak madeni paranın tek bir defa havaya atılıp yere düşmesi ele alınsın; değerler 'yazı' veya 'tura' veya bunlar isimsel değişken ölçeğinde ifade edilirse 0 (yazı) veya 1 (tura) olur; olasılıklar ise her iki değer için ½ olacaktır. Böylece madeni bir paranın tek bir defa atılma olayı için iki değer ve ilişkili iki olasılık bu rassal olayın olasılık dağılımı olur. Bu dağılım ayrık olasılık dağılımıdır; çünkü sayılabilir şekilde ayrı ayrı sonuçlar ve bunlara bağlı olan pozitif olasılıklar vardır.

<span class="mw-page-title-main">Negatif binom dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında negatif binom dağılım bir ayrık olasılık dağılım tipi olup Pascal dağılımı ve Polya dağılımı bu dağılımın özel halleridir.

<span class="mw-page-title-main">Beta dağılımı</span>

Olasılık kuramı ve istatistikte, beta dağılımı, [0,1] aralığında iki tane pozitif şekil parametresi ile ifade edilmiş bir sürekli olasılık dağılımları ailesidir. Çok değişkenli genellemesi Dirichlet dağılımıdır.

Olasılık kuramı ve istatistik bilim kollarında, multinom dağılımı binom dağılımının genelleştirilmesidir.

<span class="mw-page-title-main">Bozulmuş dağılım</span>

Matematik bilim dalında bir bozulmuş dağılım desteği sadece tek bir noktadan oluşan bir ayrık rassal değişken için bir olasılık dağılımıdır. Bu rassal değişken için örnekler her iki tarafı da yazı olan özel bir madeni disk veya her altı yüzü de aynı sayıyı gösteren özel bir zar olabilir. Örneklerden de görülebildiği gibi, bu türlü rassal değişken günlük yaşantıya göre hiç rastgelelik niteliği taşımamaktadır; ancak matematik bilimi içinde bulunan rassal değişken tanımlama özelliklerinin hepsini tatmin etmektedir.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

<span class="mw-page-title-main">Laplace dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında Laplace dağılımı Pierre-Simon Laplace anısına isimlendirilmiş bir sürekli olasılık dağılımıdır. Arka arkaya birbiriyle yapıştırılmış şekilde ve bir de konum parametresi dahil edilerek birleştirilmiş iki üstel dağılımdan oluştuğu için, çift üstel dağılımı adı ile de anılmaktadır. İki bağımsız ve tıpatıp aynı şekilde üstel dağılım gösteren bir rassal değişken bir Laplace dağılımı ile işlev görürler. Bu, aynen üstel dağılım gösteren rassal zamanda değerlendirilen Brown devinimine benzer.

Olasılık teorisi ya da ihtimaliyet teorisi rastgele olayların analizi ile ilgilenen bir matematik bilim dalıdır. Olasılık teorisinin ana ögeleri rassal değişkenler, saf rassal süreçler, olaylar olarak sayılabilir. Bunlar ya tek olarak ortaya çıkan veya bir zaman dönemi içinde gelişerek meydana gelen, ilk görünüşü rastgele bir şekilde olan deterministik olmayan olayların veya ölçülebilir miktarların matematiksel soyutlamalarıdır. Bir madeni parayı yazı-tura denemesi için havaya atmak veya bir zarı atmak ile ortaya çıkan sonuç ilk bakışta rastgele bir olay olarak görülebilirse bile eğer birbirini takip eden rastgele olaylar tekrar tekrar ortaya çıkartılırsa incelenebilecek ve tahmin edilebilecek belirli bir istatistiksel seyir takip ettikleri görülecektir. Bu türlü olaylar ve sonuçların seyirlerini betimleyen iki temsilci matematiksel sonuç büyük sayılar yasası ve merkezsel limit teoremidir.

<span class="mw-page-title-main">Ayrık olasılık dağılımları</span>

Olasılık kuramı içinde bir olasılık dağılımı eğer bir olasılık kütle fonksiyonu ile karakterize edilmiş ise ayrık olarak anılır. Böylelikle bir rassal değişken olan X için dağılım ayrık ise o zaman X bir ayrık rassal değişken olarak bilinir. Bu halde

Olasılık kuramı ve istatistik bilim dallarında birikimli dağılım fonksiyonu bir reel değerli rassal değişken olan Xin olasılık dağılımını tümüyle tanımlayan bir fonksiyondur. Olasılık dağılım fonksiyonu veya sadece dağılım fonksiyonu olarak da anılmaktadır. Her bir reel sayı olan x için X'in birikimli dağılım fonksiyonu şöyle ifade edilir:

Olasılık kuramı ve istatistik bilim dallarında bir rassal değişken X için olasılık yoğunluk fonksiyonu bir reel sayılı sürekli fonksiyonu olup f ile ifade edilir ve şu özellikleri olması gereklidir:

Olasılık kuramında iki olayın bağımsız olması bu olaylardan birinin gerçekleşme olasılığının diğer olayın gerçekleşip gerçekleşmediğine bağlı olmaması anlamına gelmektedir. Örneğin;

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

<span class="mw-page-title-main">Bir olayın olma olasılığı</span>

Olasılık yoğunluk fonksiyonu, olasılık kuramı ve bir olayın olma olasılığı dallarında bir rassal değişken olan X için reel sayılı sürekli fonksiyondur.