İçeriğe atla

Keşifsel veri analizi

İstatistikte, keşifsel veri analizi (exploratory data analysis; EDA), genellikle istatistiksel grafikler ve diğer veri görselleştirme yöntemlerini kullanarak temel özelliklerini özetlemek için veri kümelerini analiz etme yaklaşımıdır. İstatistiksel bir model kullanılabilir veya kullanılamaz. Ancak öncelikle EDA, verilerin bize resmi modelleme veya hipotez testi görevinin ötesinde neler söyleyebileceğini görmek için vardır. Keşifsel veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için John Tukey tarafından desteklenmiştir. EDA, model uydurma ve hipotez testi için gereken varsayımları daha dar bir şekilde kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya odaklanan ilk veri analizinden (initial data analysis; IDA)[1] farklıdır. EDA, IDA'yı kapsamaktadır.

Tarihçe

Birçok EDA fikri daha önceki yazarlara kadar izlenebilir, örneğin:

  • Francis Galton, sipariş istatistiklerini ve niceliklerini vurguladı.
  • Arthur Lyon Bowley, stemplot'un öncüllerini ve beş sayı özetini kullandı (Bowley, ortanca ile birlikte uç noktalar, ondalık sayılar ve çeyrekler dahil olmak üzere aslında "yedi haneli bir özet" kullandı - bkz. İlk İstatistik El Kitabı (3. baskı, 1920).), sayfa 62[2]– "maksimum ve minimum, medyan, çeyrekler ve iki ondalık" "yedi pozisyon" olarak tanımlar.
  • Andrew Ehrenberg bir veri azaltma felsefesi dile getirdi.[2]

Açık Üniversite'nin Toplumda İstatistik (MDST 242) dersi, yukarıdaki fikirleri aldı ve bunları Gottfried Noether'in yazı tura ve medyan testi yoluyla istatistiksel çıkarımlar sunan çalışmasıyla birleştirdi.

Genel bakış

Tukey, 1961'de veri analizini şu şekilde tanımladı: "Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve verilerin analizi için geçerli olan (matematiksel) istatistiklerin tüm makineleri ve sonuçları."[3]

Tukey'nin EDA'yı savunması, istatistiksel hesaplama paketlerinin, özellikle de Bell Laboratuvarlarında S'nin geliştirilmesini teşvik etti. S programlama dili, S-PLUS ve R sistemlerine ilham verdi. Bu istatistiksel hesaplama ortamları ailesi, istatistikçilerin daha fazla çalışmayı hak eden verilerdeki aykırı değerleri, eğilimleri ve kalıpları belirlemesine olanak tanıyan büyük ölçüde geliştirilmiş dinamik görselleştirme yeteneklerine sahiptir.

Tukey'nin EDA'sı istatistiksel teorideki diğer iki gelişmeyle ilgiliydi: her ikisi de istatistiksel modellerin formüle edilmesinde istatistiksel çıkarımların hatalara duyarlılığını azaltmaya çalışan sağlam istatistikler ve parametrik olmayan istatistikler. Tukey, sayısal verilerin beş sayı özetinin (iki uç (maksimum ve minimum), medyan ve çeyrekler) kullanımını teşvik etmiştir. Çünkü bu medyan ve çeyrekler, deneysel dağılımın işlevleri olan, ortalama ve standart sapma; dahası, çeyrekler ve medyan, geleneksel özetlerden (ortalama ve standart sapma) çarpık veya ağır kuyruklu dağılımlara karşı daha dayanıklıdır. S, S-PLUS ve R paketleri, parametrik olmayan ve sağlam (birçok problem için) Quenouille ve Tukey'nin jackknife[4] ve Efron'un önyüklemesi gibi yeniden örnekleme istatistiklerini kullanan rutinleri içeriyordu.

Keşfedici veri analizi, sağlam istatistikler, parametrik olmayan istatistikler ve istatistiksel programlama dillerinin geliştirilmesine yarar sağlamıştır. Ayrıca istatistikçilerin bilimsel ve mühendislik problemleri üzerindeki çalışmalarını kolaylaştırmıştır. Bu tür problemler, yarı iletkenlerin üretimini ve Bell Laboratuvarlarını ilgilendiren iletişim ağlarının anlaşılmasını içeriyordu. Tümü Tukey tarafından desteklenen bu istatistiksel gelişmeler, istatistiksel hipotezleri test etmeye yönelik analitik teoriyi, özellikle de Laplacian geleneğinin üstel ailelere yaptığı vurguyu tamamlamak üzere tasarlanmıştır.[5]

Geliştirme

Veri bilimi süreç akış şeması
Veri bilimi süreç akış şeması

John W. Tukey, 1977'de Keşif Verileri Analizi kitabını yazdı.[6] Tukey, istatistikte çok fazla vurgunun istatistiksel hipotez testine (doğrulayıcı veri analizi) verildiğine karar verdi; test edilecek hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerekiyordu. Özellikle, iki tür analizin karıştırılmasının ve bunların aynı veri kümesi üzerinde kullanılmasının, veriler tarafından önerilen hipotezleri test etmenin doğasında bulunan sorunlar nedeniyle sistematik önyargıya yol açabileceğini savundu.

EDA'nın amaçları şunlardır:

  • Gözlenen fenomenin nedenleri hakkında hipotezler önermek
  • İstatistiksel çıkarımın dayandırılacağı varsayımları değerlendirmek
  • Uygun istatistiksel araç ve tekniklerin seçimini desteklemek
  • Anketler veya deneyler yoluyla daha fazla veri toplanması için bir temel sağlamak[7]

Veri madenciliğinde birçok EDA tekniği benimsenmiştir. Ayrıca genç öğrencilere istatistiksel düşünceyi tanıtmanın bir yolu olarak öğretilmektedir.[8]

Teknikler ve araçlar

EDA için yararlı olan bir dizi araç vardır. Ancak EDA, belirli tekniklerden çok, alınan tutumla karakterize edilir.[9]

EDA'da kullanılan tipik grafik teknikleri şunlardır:

  • Kutu grafiği
  • Histogram
  • Çok değişkenli grafik
  • Akış Çizelgesi
  • Pareto grafiği
  • Dağılım grafiği
  • Kök-yaprak grafiği
  • Paralel koordinatlar
  • Olasılık oranı
  • Hedeflenen projeksiyon takibi
  • PhenoPlot[10] ve Chernoff yüzleri gibi glif tabanlı görselleştirme yöntemleri
  • Büyük tur, rehberli tur ve manuel tur gibi projeksiyon yöntemleri
  • Bu planların etkileşimli versiyonları

Boyutsal küçülme:

Tipik nicel teknikler şunlardır:

  • Median polish
  • Trimean
  • Ordination

Yazılım

  • JMP, SAS Enstitüsünden bir EDA paketi.
  • KNIME, Konstanz Information Miner – Eclipse tabanlı Açık Kaynaklı veri keşif platformu.
  • Orange, açık kaynaklı bir veri madenciliği ve makine öğrenimi yazılım paketi.
  • Python, veri madenciliği ve makine öğreniminde yaygın olarak kullanılan açık kaynaklı bir programlama dilidir.
  • R, istatistiksel hesaplama ve grafikler için açık kaynaklı bir programlama dili. Python ile birlikte veri bilimi için en popüler dillerden biri.
  • TinkerPlots, ilkokul ve ortaokul öğrencileri için bir EDA yazılımıdır.
  • Weka, görselleştirme ve hedeflenen projeksiyon takibi gibi EDA araçlarını içeren açık kaynaklı bir veri madenciliği paketi.

Ayrıca bakınız

  • Anscombe'un dörtlüsü, keşfin önemi üzerine
  • Veri tarama
  • Tahmine dayalı analitik
  • Yapılandırılmış veri analizi (istatistikler)
  • Yapısal frekans analizi
  • Tanımlayıcı istatistikler

Kaynakça

  1. ^ Chatfield, Christopher (1995). Problem solving : a statistician's guide. 2nd ed. Londra: Chapman & Hall. ISBN 0-412-60630-5. OCLC 32881624. 
  2. ^ a b Bowley, A. L. (Arthur Lyon) Sir (1920). An elementary manual of statisics. Cornell University Library. London, MacDonald and Evans. 
  3. ^ Tukey, John W. (1 Mayıs 1991). "Data Analysis". Fort Belvoir, VA. 
  4. ^ "Dış bağlantı". 10 Şubat 2006 tarihinde kaynağından arşivlendi. 
  5. ^ Fernholz, Luisa T.; Morgenthaler, Stephan (1 Şubat 2000). "A conversation with John W. Tukey and Elizabeth Tukey". Statistical Science. 15 (1). doi:10.1214/ss/1009212675. ISSN 0883-4237. 24 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021. 
  6. ^ Tukey, John W. (1977). Exploratory data analysis. Reading, Mass.: Addison-Wesley Pub. Co. ISBN 0-201-07616-0. OCLC 3058187. 
  7. ^ "Behrens-Keşfedici Veri Analizinin İlke ve Prosedürleri-Amerikan Psikoloji Derneği-1997" (PDF). 8 Ağustos 2017 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 23 Haziran 2021. 
  8. ^ Konold, Clifford. "Statistics Goes to School". Contemporary Psychology. 44 (1): 81-82. doi:10.1037/001949. 
  9. ^ Tukey, John W. "We Need Both Exploratory and Confirmatory". The American Statistician (İngilizce). 34 (1): 23-25. doi:10.1080/00031305.1980.10482706. ISSN 0003-1305. 6 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021. 
  10. ^ Sailem, Heba Z.; Sero, Julia E.; Bakal, Chris. "Visualizing cellular imaging data using PhenoPlot". Nature Communications (İngilizce). 6 (1): 5825. doi:10.1038/ncomms6825. ISSN 2041-1723. 19 Aralık 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Haziran 2021. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">İstatistik</span>

İstatistik veya sayım bilimi, belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Bu çerçevede yapılan işlemlerin tümüne sayımlama denir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

<span class="mw-page-title-main">Betimsel istatistik</span>

Betimsel istatistik veya betimsel sayımlama istatistik bilim alanında üç temel kısmından biridir. Sayısal verilerinin derlenmesi, toplanması, özetlenmesi ve analiz edinilmesi ile ilgili istatistiktir.

İstatistiksel yığın yahut anakütle yahut evren kavramı istatistik biliminde belirli bir konudaki tüm değişkenlerin ölçülebilecek değerlerini ifade eder. Örneğin; Türkiye'de bulunan kişiler bir istatistiksel yığın değil, bunların mümkün sayısı bir istatistiksel yığın olmaktadır. Ankara'nın sayılması mümkün nüfusu ise Türkiye yığınından alınmış bir örneklemdir. Dikkat edilirse istatistiksel yığın kavramı ile, herhangi bir değişkeni içeren elemanlara değil, değişkenlerin mümkün olarak ölçülebilen veya sayılabilen içerik karakteristiğine atıf yapılmaktadır. Böylece istatistikte istatistiksel yığın ya ölçülebilir ya sayılabilir karekteristiktir ve sayısal olarak ortaya çıkabilmesi mümkündür.

İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşididir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok subjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incelenmesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.

İstatistik biliminde önemli bir yeri olan parametrik olmayan istatistik parametrik olmayan istatistiksel modeller ve parametrik olmayan çıkarımsal istatistik, özellikle parametrik olmayan istatistiksel hipotez sınamalar ile ilgilenir. Parametrik olmayan yöntemler çok defa dağılımlardan serbest yöntemler olarak da anılmaktadır, çünkü verilerin bilinen belirli olasılık dağılımı gösteren kaynaklardan geldiği varsayımına dayanmamaktadır.

Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek kullanılan bir parametrik olmayan istatistik testdir. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Sonradan, Mann and Whitney (1947) tarafından değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir.

Shapiro-Wilk Testi, örneklemelerde temel alınan istatistiksel yığının normal dağıldığı bir hipotezin sağlamasını yapan istatistiksel bir hipotez testidir. Parametrik olmayan istatistikte normallik testleri arasında yer almaktadır. Shapiro-Wilk Testi, Amerikalı istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından 1965 yılında ortaya konuldu. Normal dağılım için analizin grafiksel bilgisini bir anahtar şeklinde normal olasılık grafiği kullanarak özetlemeye yönelik tezlerinin sonucudur.

<span class="mw-page-title-main">R (programlama dili)</span> istatistik analizi için kullanılan programlama dili

R, istatistiksel hesaplama ve grafikler için yazılım ortamı olup aynı zamanda programlama dilidir. R Foundation tarafından desteklenen ve GNU Tasarısının parçası olan bir özgür yazılımdır. Yeni Zelanda Auckland Üniversitesinden Ross Ihaka ve Robert Gentleman tarafından ortaya çıkarılan R, hâlihazırda R Geliştirme Çekirdek Ekibi tarafından geliştirilmektedir. S programlama diline benzeyen R, S'nin uyarlaması olarak değerlendirilebilir.

<span class="mw-page-title-main">Dal-yaprak grafikleri</span>

Dal-yaprak grafikleri, betimsel istatistik ve "istatistiksel grafik" konusu olup sayısal olarak elde edilen verilerin grafik olarak görsel şekilde özetlemek amacıyla çizilir. Bu çizimi tek değişkenli verileri incelerken kullanılır. Bu gösterim şekli veri setinin yapısını, örüntüsünü veya genel eğilimini gösterir.

<span class="mw-page-title-main">Kutu grafiği</span>

İstatistik biliminde kutu grafiği bir betimsel istatistik ve istatistiksel grafik aleti olup niceliksel verileri görsel şekilde özetlemek için Amerikan istatistikçi John Tukey tarafından kutu-ve-bıyıklar grafiği adı altında bir açıklayıcı veri analizi aracı olarak ilk defa geliştirilmiştir. Kutu grafiği, ilgili değişken bakımından veri için hazırlanan beş sayılı özetleme tablosu gösterimini grafiksel olarak özetlemeye dayalıdır. Özellikle merkezsel konum, yayılma, çarpıklık ve basıklık yönünden verileri özetlemek ve aykırı değerleri tanımlamak için kullanılır.

Çoklu sayılı özetleme tablosu betimsel istatistik alanında kullanılan genellikle aralıksal ölçekli veya oransal ölçekli tek değişirli sayısal verilerinin iki değişik tip özetleme araçlarıdır. Bu iki değişik özetleme araçları şunlardır:

  1. beş sayılı özetleme tablosu;
  2. yedi sayılı özetleme tablosu.

Çıkarımsal istatistikte, boş hipotez, sıfır hipotez ya da sıfır hipotezi, beklenenin dışında bir durumun olmadığını, mesela gruplar ya da değişkenler arasında bir ilişki bulunmadığını veya ölçülen iki olgunun arasında bir fark olmadığını kabul eden genel bir önermedir. Örneğin tıpta, denenen bir tedavinin etkisiz olması; hukukta, sanığın suçsuz olması birer boş hipotezdir. Modern bilim hipotezler üretip bunları test ederek ilerler; bir boş hipotezinin belirli bir güvenilirlik aralığında istatistiksel olarak kabul ya da reddedilmesi hipotez testleriyle yapılmaktadır.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

Pearson ki-kare testi nicel veya nitel değişkenler arasında bağımlılık olup olmadığının, örnek sonuçlarının belirli bir teorik olasılık dağılımına uygun olup olmadığının, iki veya daha fazla örneğin aynı anakütleden gelip gelmediğinin, ikiden fazla anakütle oranının birbirine eşit olup olmadığının ve çeşitli anakütle oranlarının belirli değere eşit olup olmadığının araştırılmasında kullanılır. İstatistik biliminin çıkarımsal istatistik bölümünde ele alınan iki-değişirli parametrik olmayan test analizlerinden olan ve ki-kare dağılımı'nı esas olarak kullanan ki-kare testlerinden en çok kullanılanıdır. İngiliz istatistikçi olan Karl Pearson tarafından 1900'da ortaya çıkartılmıştır.

John Wilder Tukey ForMemRS 20. yüzyılın en ünlü Amerikalı istatistikçilerinden biridir. FFT algoritmasını ve kutu grafiğini geliştirmiştir. Ayrıca kendi adını taşıyan çoklu karşılaştırma testi Tukey Testi'ni ve Tukey'in Lambda dağılımını geliştirmiştir.

<span class="mw-page-title-main">Veri analizi</span>

Veri analizi, faydalı bilgiler bulma, sonuçları bilgilendirme ve karar vermeyi destekleme amacı ile verileri inceleme, temizleme, dönüştürme ve modelleme işlemidir. Veri analizi, farklı isimler altında çeşitli teknikleri bünyesinde bulunduran, işletme, bilim ve sosyal bilimler gibi farklı alanlarda kullanılan çok çeşitli görünüş ve yaklaşımlara sahiptir. Günümüzün iş dünyasında, veri analizi karar verme işlemlerinin daha bilimsel hale getirilmesine ve işletmelerin daha etkin çalışmalarına yardımcı olmaktadır.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.

Burada, sayısal analiz veya veri analizi için kullanılmak üzere tasarlanmış önemli son kullanıcı bilgisayar uygulamaları listelenmiştir:

Bu, istatistik alanında kayda değer katkılarda bulunmuş veya başarılar elde etmiş kadınların bir listesidir.