İçeriğe atla

Çapraz doğrulama (istatistik)

Çarpraz-doğrulama diyagramı.

Çarpraz doğrulama, yapılan bir istatistiksel analizin bağımsız bir veri setinde nasıl bir sonuç elde edeceğini sınayan bir model doğrulama tekniğidir.[1] Başlıca kullanım alanı bir öngörü sisteminin pratikte hangi doğrulukla çalışacağını kestirmektir. Bir öngörü probleminde, model genellikle bir "bilinen veri" kümesiyle eğitilir ("eğitim kümesi") ve bir "bilinmeyen veri" kümesiyle ("doğrulama kümesi" ya da "test kümesi") sınanır.[2] Bu sınamanın amacı, eğitilen modelin yeni verilere genelleşme kabiliyetini ölçmek ve aşırı uyma ya da seçim yanlılığı problemlerini tespit etmektir.[3]

Çapraz doğrulamanın ilk adımı farklı miktarlarda örnekler seçilerek veri kümeleri oluşturulmasıdır. Tipik olarak verilen eğitim kümesi ve test kümesi olarak birbirini tamamlayan iki kümeye ayrılır. Birinci küme üzerinde analiz yapılarak model oluşturulur ve ikinci küme üzerinde model sınanır. Varyansı azaltmak için bu doğrulama adımı birkaç defa tekrarlanır. Çapraz doğulama ismini aynı veri örneklerinin farklı şekillerde gruplanmasından (çaprazlama) alır. Çaprazlanan gruplar üzerinde yapılan sınama sonuçları birleştirilerek (örn. ortalama) modelin genel tahmin başarısı ölçülür.

Kaynakça

  1. ^ Kohavi, Ron (1995). "A study of cross-validation and bootstrap for accuracy estimation and model selection". Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. 2 (12). San Mateo, CA: Morgan Kaufmann. ss. 1137-1143. 
  2. ^ Galkin, Alexander (28 Kasım 2011). "What is the difference between test set and validation set?". Erişim tarihi: 10 Ekim 2018. []
  3. ^ Cawley, Gavin C.; Talbot, Nicola L. C. (2010). "On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation" (PDF). Cilt 11. Journal of Machine Learning Research. ss. 2079-2107. 25 Eylül 2019 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 18 Eylül 2019. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Tam sayı</span> sıfırın sağında bulunan sayılar büyükken solunda bulunan sayılar küçüktür

Tam sayılar, sayılar kümesinde yer alan sıfır (0), pozitif yönde yer alan doğal sayılar ve bunların negatif değerlerinden oluşan negatif sayılardan oluşan sayı kümesidir.

<span class="mw-page-title-main">İstatistik</span>

İstatistik veya sayım bilimi, belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Bu çerçevede yapılan işlemlerin tümüne sayımlama denir.

<span class="mw-page-title-main">Küresel yıldız kümesi</span> galaksi merkezi etrafında dolanan yıldızların, küresel bir bileşimi

Küresel yıldız kümesi, galaksi merkezi etrafında uydu gibi dolanan, yıldızların küresel bir bileşimidir. Küresel yıldız kümeleri yerçekimi ile bir arada durabilirler. Yerçekimi sayesinde küresel bir şekle ve göreceli olarak merkeze doğru artan bir madde yoğunluğuna sahiplerdir. Yıldız kümesinin bir alt kategorisi olan küresel yıldız kümesi, Latince bir sözcük olan ve küçük küre anlamına gelen globulus kelimesinden türetilmiştir.

<span class="mw-page-title-main">Yıldız kümesi</span> Kütle çekimi altında birbirlerine bağlı yıldızlar topluluğu

Yıldız kümeleri veya yıldız bulutları, öz kütleçekimiyle bir arada tutulan büyük yıldız gruplarıdır. İki ana yıldız kümesi türü belirlenmiştir: Küresel kümeler, kütleçekimsel olarak bağlı on bin ila milyonlarca yaşlı yıldızın oluşturduğu sıkı gruplardır, açık kümeler ise genellikle birkaç yüzden az üye içeren, daha gevşek kümelenmiş ve çoğunlukla çok genç yıldızların oluşturduğu gruplardır. Açık kümeler, gökada içinde hareket ederken dev moleküler bulutların çekim etkisiyle zamanla dağılır, fakat küme üyeleri artık çekimsel olarak bağlı olmasalar da uzayda genel olarak aynı yönde hareket etmeye devam ederler; bunlara yıldız topluluğu, bazen de hareketli grup denir.

<span class="mw-page-title-main">Küme</span> matematiksel anlamda tanımsız bir kavramdır. Bu kavram "nesneler topluluğu veya yığını" olarak yorumlanabilir.

Küme, matematikte farklı nesnelerin topluluğu veya yığını olarak tanımlanmaktadır. Bu tanımdaki "nesne" soyut ya da somut bir şeydir. Fakat her ne olursa olsun iyi tanımlanmış olan bir şeyi, bir eşyayı ifade etmektedir. Örneğin, "Tüm canlılar topluluğu", "Dilimiz alfabesindeki harflerin topluluğu", "Masamın üzerindeki tüm kâğıtlar" tümcelerindeki nesnelerin anlaşılabilir, belirgin oldukları, kısaca iyi tanımlı oldukları açıkça ifade edilmektedir. Dolayısıyla bu tümcelerin her biri bir kümeyi tarif etmektedir. O halde, matematikte "İyi tanımlı nesnelerin topluluğuna küme denir." biçiminde bir tanımlama yapılmaktadır.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

Matematiksel model, bir sistemin matematiksel kavramlar ve dil kullanılarak tanımlanmasıdır. Matematiksel model geliştirme süreci, matematiksel modelleme olarak adlandırılır. Matematiksel modeller, doğa bilimlerinde ve mühendislik disiplinlerinde bunun yanı sıra sosyal bilimlerde kullanılır. Matematiksel modelleri daha çok fizikçiler, mühendisler, istatistikçiler, operasyon araştırma analistleri ve ekonomistler kullanır. Model, bir sistemi açıklamaya, farklı bileşenlerin etkilerini incelemeye ve bir davranış hakkında öngörüde bulunmak için yardımcı olabilir.

Ayrık seçim veya kesikli seçim, ekonomide, işgücü piyasasına girme veya girmeme veya ulaşım yöntemleri arasında seçim gibi, iki veya daha fazla ayrık alternatifler arasındaki seçimleri içeren problemler. Tüketilen her ürünün sürekli bir değişen olduğu varsayılan standart tüketim modellerinden farklı olarak, ayrık seçimlerde alternatiflerin sürekliliği yoktur. Sürekli durumlarda, optimum değerler matematiksel yöntemler kullanılarak hesaplanabilir ve talep miktarı regresyon analizi ile modellenebilir. Diğer taraftan potansiyel sonuçları birbirinden bağımsız olan durumlar için ayrık seçim analizleri kullanılır. Regresyon analizi "ne kadar" sorusuna cevap verirken, ayrık seçim analizleri "hangisi" sorusuna cevap verir. Bununla beraber, ayrık seçim analizleri bazı durumlarda "ne kadar" sorusuna cevap ararken de kullanılabilir; örneğin bir ev sahibinin sahip olmayı seçtiği araba sayısı ve telekomünikasyon servislerini kaç dakika kullanacağı gibi durumları incelerken ayrık seçim modelleri kullanılabilir.

Ki-kare testi veya χ² testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan bazıları parametrik olmayan sınama ve diğerleri parametrik sınama yöntemidir. Bu çeşit istatistiksel sınamalarda test istatistiği için "örnekleme dağılımı", sıfır hipotez gerçek olursa ki-kare dağılımı gösterir veya sıfır hipotez "asimptotik olarak gerçek" olursa, eğer sıfır hipotez gerçekse ve eğer örnekleme hacmi istenilen kadar yeterli olarak büyük ise bir ki-kare dağılımına çok yakın olarak yaklaşım gösterir.

<span class="mw-page-title-main">Weka</span>

Weka, makine öğrenimi amacıyla Waikato Üniversitesinde geliştirilmiş ve "Waikato Environment for Knowledge Analysis" kelimelerinin baş harflerinden oluşmuş yazılımın ismidir. Günümüzde yaygın kullanımı olan çoğu makine öğrenimi algoritmalarını ve metotlarını içermektedir.

<span class="mw-page-title-main">Gözetimli öğrenme</span>

Gözetimli öğrenme ya da denetimli öğrenme, bilinen etiketler ve özellikler kullanarak bir fonksiyon öğrendiğimiz, makine öğreniminin önemli bir alt dalıdır. Bu yöntem, eğitim veri seti kullanılarak öğrenilen modelin, yeni ve bilinmeyen veri noktalarını doğru bir şekilde tahmin etmesini amaçlar.

<span class="mw-page-title-main">V-Model (Yazılım geliştirme)</span>

V-model şelale (waterfall) modelinin gelişmiş hali olarak düşünülebilecek bir yazılım geliştirme süreci sunar. Doğrusal bir yönde ilerlemek yerine, süreç adımları kodlama evresinden sonra yukarıya doğru eğim alır ve tipik V şeklini oluşturur. V-Model geliştirme yaşam çevriminin her bir evresi arasındaki ilişkileri gösterir. Yatay ve dikey açılar zaman veya projenin tamamlanabilirliğini ve soyut seviyeyi gösterir.

<span class="mw-page-title-main">Destek vektör makinesi</span>

Destek vektör makinesi, eğitim verilerindeki herhangi bir noktadan en uzak olan iki sınıf arasında bir karar sınırı bulan vektör uzayı tabanlı makine öğrenme yöntemi olarak tanımlanabilir.

Matematiksel jeofizik, jeofizikteki matematiksel yöntemlerin geliştirilmesiyle ilgilidir. Bu nedenle, özellikle jeodinamik ve sismoloji başta olmak üzere jeofizikteki birçok alanda uygulamaya sahiptir.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.

<span class="mw-page-title-main">Veri bilimi</span> verilerden bilgi ve içgörü elde etmeye odaklanan disiplinler arası çalışma alanı

Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.

<span class="mw-page-title-main">Analiz</span> belirli bir türdeki mevcut verilere analitik yöntemler uygulama, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma süreci

Analiz, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma sürecidir. Teknik, matematik ve mantık çalışmalarında Aristoteles'ten önce uygulanmıştır.

Veri analizinde, anomali tespiti, verilerin çoğunluğundan önemli ölçüde farklılaşarak şüphe uyandıran nadir öğelerin, olayların veya gözlemlerin tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir. Anormallikler ayrıca aykırı değerler, yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılmaktadır.

Naif küme teorisi, 19. yüzyılın sonlarında geliştirilen orijinal küme teorisidir. Bu teori, bir kümenin bazı ortak özelliklerle birleştirilen farklı şeylerin bir koleksiyonu olarak düşünülmesini sağlar. Ayrık matematikten zaten bilinen örneğin, bir kümede hangi öğelerin bulunduğunu gösteren Venn diyagramları veya Boole cebiri gibi kavramların çoğu kullanılır. Saf küme teorisindeki ciddi kusurların keşfine yanıt olarak geliştirilen aksiyomatik küme teorisi ile karıştırılmamalıdır. Çağdaş matematik ve mühendisliğin birçok alanı için yeterince güçlüdür.

<span class="mw-page-title-main">OptiSLang</span>

optiSLang, CAE tabanlı duyarlılık analizi, çok disiplinli optimizasyon ve sağlamlık değerlendirmesi için bir yazılım platformudur. Dynardo GmbH tarafından geliştirilmiştir ve önceden tanımlanmış bir optimizasyon hedefine en çok katkıda bulunan değişkenleri belirleyerek sayısal Robust Design Optimization (RDO) ve stokastik analiz için bir çerçeve sağlar. Bu aynı zamanda sağlamlığın değerlendirilmesini, yani tasarım değişkenlerinin dağılımına veya parametrelerin rastgele dalgalanmalarına karşı duyarlılığı da içerir. 2019 yılında Dynardo GmbH, Ansys tarafından satın alındı.