İçeriğe atla

Serbestlik derecesi (istatistik)

Diğer bilimler için serbestlik derecesi üzerindeki bilgiler için, bakın serbestlik derecesi:

Serbestlik derecesi istatistik'te bir istatistiğin kesin hesaplanmasında kullanılan değerlerin sayısının ne kadar değişme serbestisi olduğunu sayısal olarak verir.[1]

İstatistiksel parametrelerin kestirimleri değişik nicelikte veriye veya bilgiye dayanabilir. Bir parametrenin kestirimi için kullanılması gereken bağımsız bilgi parçalarının sayısına serbestlik derecesi denir. Genellikle, bir kestirim için serbestlik derecesi bu kestirimi elde etmek için kullanılan bağımsız skorlar sayısı eksi bu parametrenin kendisinin kestirimini yapma etaplarında kullanılan parametreler sayısına eşittir.[2]

Matematiksel terimlerle, serbestlik derecesi bir rastgele vektörun sahasının boyutu olur veya vektörün tümünün belirlenmesi için bilinmesi gereken parçaların sayısıdır.

Serbestlik derecesi terimi çok defa olasılık dağılımlarında, hipotez sınamasında ve doğrusal modeller (yani doğrusal regresyon ve varyans analizi) alanlarında kullanılır. İstatistiğe giriş kitap veya makalelerinde çok kere bu kavram hipotez sınamasında veya olasılık dağılımları parametreleri olarak ilk defa ortaya çıkartılır. Fakat bu kavramin derinden anlaşılabilmesi için kritik olan, kavramın altında bulunan geometrinin kavranmasıdır. Eğer N boyutlu geometri bilinmezse veya modern örnekleme kuramı ikinci elden sadece istatistiğe giriş kitaplarından öğrenilirse, bu kavram pratik anlamı olmayan bir mistik sözcük olmaktan ileri gitmemektedir.

Bu kavram için notasyon ünlü istatistikçi Ronald Fisher tarafından n olarak kullanılmıştır; ama modern istatistik metinlerinde n örneklem büyüklüğü olarak kullanılır. Bu nedenle serbestlik derecesi notasyon olarak (s.d.) veya İngilizceden esinlenerek d.f. ("degree of freedom") olarak ifade edilir.

Artıklar

İstatistiksel modelin veriye uyarlanmasında, hata ve artık vektörleri genelde vektördeki bileşenlerin sayısından daha kısıtlı bir boyuta sahiptir. Artık veya hata vektörünün bu daha küçük boyuta sahip olma durumuna hatanın "serbestlik derecesi" adı verilir.

Basit bir örnekle açıklanması gerektiğinde:

ifadesindeki x'ler, μ beklenen değerine sahip rassal değişkenler olsun ve

örneklem ortalaması olsun. Öyleyse

büyüklüğü Xi - μ hata tahmininin artıklarını oluşturan bir büyüklüktür.

Hata terimlerinin aksine, artıkların toplamının 0 olması gerekir. Yani n - 1 boyutlu bir uzayda yer alma kısıntı içindedirler. Eğer artıklardan n - 1 tanesi bilinirse, sonuncusu da bulunabilir. Dolayısıyla hata terimi için n - 1 serbestlik derecesi vardır.

modelindeki a ve b'nin en küçük kareler yöntemiyle tahmininde

i ve dolayısıyla Yi rassaldır). ve , a ve b tahmin ettiğimiz değerler olsun. O zaman;

artıkları iki denklemin tanımladığı uzay içinde yer alacak şekilde kısıtlıdırlar:

Dolayısıyla hata terimi için n - 2 serbestlik derecesi vardır.

(Model tanımlanırken büyük y harfi (Y), artıklar tanımlanırken küçük y harfi (y) kullanılmıştır. Birinci ifade teorik rassal değişkenlere bağlıyken ikinci ifade gerçek veriye dayalıdır.)

Olasılık Dağılımlarındaki Parametreler

Hata terimlerinin olasılık dağılımları genelde bu serbestlik dereceleri ile parametrelendirilir. Bu yüzden Ki-kare dağılımından söz edilirken belli bir serbestlik derecesi gerekir, F-dağılımı, t-dağılımı veya bir Wishart dağılımı pay veya paydalarında serbestlik derecesi içerir.

Bu dağılımlarının genel uygulamalarında, serbestlik derecesi yalnızca tam sayı değeri alır. Hâlbuki, konunun temelinde yer alan matematik, çoğu durumda kesirli serbestlik derecesinin alınmasına müsaade eder ki bu da daha karmaşık kullanımlar ortaya çıkarabilir.

Kaynakça

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Student'in t dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında t-dağılımı ya da Student'in t dağılımı genel olarak örneklem sayısı veya sayıları küçük ise ve anakütle normal dağılım gösterdiği varsayılırsa çıkartımsal istatistik uygulaması için çok kullanılan bir sürekli olasılık dağılımıdır. Çok popüler olarak tek bir anakütle ortalaması için güven aralığı veya hipotez sınaması ve iki anakütle ortalamasının arasındaki fark için güven aralığı veya hipotez sınamasında, yani çıkarımsal istatistik analizlerde, uygulama görmektedir.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Ki-kare dağılımı</span>

Olasılık kuramı ve istatistik bilim dallarında ki-kare dağılım özellikle çıkarımsal istatistik analizde çok geniş bir pratik kullanım alanı bulmuştur.

Korelasyon, olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Genel istatistiksel kullanımda korelasyon, bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir.

<span class="mw-page-title-main">Normal dağılım</span> sürekli olasılık dağılım ailesi

Normal dağılım, aynı zamanda Gauss dağılımı veya Gauss tipi dağılım olarak isimlendirilen, birçok alanda pratik uygulaması olan, çok önemli bir sürekli olasılık dağılım ailesidir.

<span class="mw-page-title-main">Standart sapma</span> İstatistikte bir varyasyon ölçüsü

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ ile ifade edilir; örneklem verileri için standart sapma için ise s veya s'

<span class="mw-page-title-main">Poisson dağılımı</span>

Poisson dağılımı, olasılık kuramı ve istatistik bilim kollarında bir ayrık olasılık dağılımı olup belli bir sabit zaman birim aralığında meydana gelme sayısının olasılığını ifade eder. Bu zaman aralığında ortalama olay meydana gelme sayısının bilindiği ve herhangi bir olayla onu hemen takip eden olay arasındaki zaman farkının, önceki zaman farklarından bağımsız oluştuğu kabul edilir.

<span class="mw-page-title-main">Geometrik dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında geometrik dağılım şu iki şekilde ifade edilebilen ayrık olasılık dağılımıdır:

<span class="mw-page-title-main">Üstel dağılım</span>

Olasılık kuramı ve istatistik bilim dallarında üstel dağılımı bir sürekli olasılık dağılımları grubudur. Sabit ortalama değişme haddinde ortaya çıkan bağımsız olaylar arasındaki zaman aralığını modelleştirirken bir üstel dağılım doğal olarak ortaya çıkar.

Olasılık kuramı ve istatistik bilim kollarında, multinom dağılımı binom dağılımının genelleştirilmesidir.

Olasılık kuramı ve bir dereceye kadar istatistik bilim dallarında basıklık kavramı 1905da K. Pearson tarafından ilk defa açıklanmıştır. Basıklık kavramı bir reel değerli rassal değişken için olasılık dağılımının, grafik gösteriminden tanımlanarak ortaya çıkarılan bir kavram olan, sivriliği veya basıklığı özelliğinin ölçümüdür. Basıklık kavramının ayrıntıları olasılık kuramı içinde geliştirilmiştir. Betimsel istatistik için bir veri setinin basıklık karakteri pek dikkate alınmayan bir özellik olarak görülmektedir. Buna bir neden parametrik çıkarımsal istatistik alanında basıklık hakkında hemen hemen hiçbir kestirim veya sınama bulunmamasındandır ve pratik istatistik kullanımda basıklık pek önemsiz bir karakter olarak görülmektedir. Belki de basıklık ölçüsünün elle hesaplanmasının hemen hemen imkânsızlığı buna bir neden olmuştur.

Olasılık kuramı ve istatistik bilim kollarında, çokdeğişirli normal dağılım veya çokdeğişirli Gauss-tipi dağılım, tek değişirli bir dağılım olan normal dağılımın çoklu değişirli hallere genelleştirilmesidir.

Olasılık kuramı içinde herhangi bir rassal değişken için karakteristik fonksiyon, bu değişkenin olasılık dağılımını tüm olarak tanımlar. Herhangi bir rassal değişken X için, gerçel doğru üzerinde, bu fonksiyonu tanımlayan formül şöyle yazılır:

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır. Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

İstatistik bilim dalında ağırlıklı ortalama betimsel istatistik alanında, genellikle örneklem, veri dizisini özetlemek için bir merkezsel konum ölçüsüdür. En çok kullanan ağırlıklı ortalama tipi ağırlıklı aritmetik ortalamadır. Burada genel olarak bir örnekle bu kavram açıklanmaktadır. Değişik özel tipli ağırlıklar alan özel ağırlıklı aritmetik ortalamalar bulunmaktadır. Diğer ağırlıklı ortalamalar ağırlıklı geometrik ortalama ve ağırlıklı harmonik ortalamadir. Ağırlıklı ortalama kavramı ile ilişkili teorik açıklamalar son kısımda ele alınacakdır.

Matematik bilimi içinde moment kavramı fizik bilimi için ortaya çıkartılmış olan moment kavramından geliştirilmiştir. Bir bir reel değişkenin reel-değerli fonksiyon olan f(x)in c değeri etrafında ninci momenti şöyle ifade edilir:

<span class="mw-page-title-main">Kovaryans matrisi</span>

İstatistik'te, kovaryans matrisi, rassal vektörlerin elemanları arasındaki kovaryansları içeren matristir. Kovaryans matrisi, skaler-değerli rassal değişkenler için var olan varyans kavramının çok boyutlu durumlara genelleştirilmesidir.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

Güven aralığı, istatistik biliminde bir anakütle parametresi için bir çeşit aralık kestirimi olup bir çıkarımsal istatistik çözüm aracıdır. Bir anakütle parametre değerinin tek bir sayı ile kestirimi yapılacağına, bu parametre değerini kapsayabilecek iki sayıdan oluşan bir aralık bulunur. Böylece güven aralıkları bir kestirimin ne kadar güvenilir olduğunu gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.