İçeriğe atla

Temel bileşen analizi

Bir normal dağılımın temel bileşenleri oklar şeklinde gösterilmiştir.

İstatistikte, temel bileşen analizi (TBA), çok boyutlu uzaydaki bir verinin daha düşük boyutlu bir uzaya izdüşümünü, varyansı maksimize edecek şekilde bulma yöntemidir.[1] Uzayda bir noktalar kümesi için, tüm noktalara ortalama uzaklığı en az olan "en uygun doğru" seçilir. Daha sonra bu doğruya dik olanlar arasından yine en uygun doğru seçilerek, bu adımlar, yeni bir boyutun varyansı belirli bir eşiğin altına inene kadar tekrarlanır. Bu sürecin sonunda elde edilen doğrular, bir doğrusal uzayın tabanlarını oluşturur. Bu taban vektörlerine temel bileşen denir. Verinin temel bileşenleri birbirinden bağımsız olur.

Bu kavram bazen orijinal terimin kısaltması olan PCA (İngilizcePrincipal component analysis) olarak da anılır.

TBA'nın ana kullanım amaçları keşifsel veri analizi[2] yapmak ve kestirimsel modeller[3] oluşturmaktır. Genetikte, iki nüfus arasındaki yakınlığı ve benzerliği görselleştirmek için kullanılır.

TBA'nın Tarihçesi

Temel bileşen analizi, 1901 yılında Karl Pearson tarafından geliştirilen ve daha sonra 1930'larda Harold Hotelling tarafından genişletilen bir tekniktir.[4] TBA, istatistik ve makine öğrenmesi alanlarında yaygın olarak kullanılır ve veri indirgeme, görüntü işleme, yüz tanıma, genetik analiz gibi birçok alanda uygulanır.

Matematiksel Temelleri

TBA, doğrusal cebir ve istatistiksel kavramlara dayanmaktadır. Temel bileşenler, verinin kovaryans matrisinin özvektörleridir. Bu özvektörler, veri setinin en büyük varyansını açıklayan doğrultulardır. İlk temel bileşen, veri setinin en büyük varyansını kapsar ve her bir sonraki bileşen, bir önceki bileşene dik olacak şekilde, kalan en büyük varyansı kapsar.

Uygulama Alanları

  1. Keşifsel Veri Analizi: TBA, veri setindeki önemli desenleri ve ilişkileri ortaya çıkarmak için kullanılır.[5]
  2. Boyut İndirgeme: Yüksek boyutlu veri setlerinin boyutunu azaltarak, veri işleme ve görselleştirme işlemlerini kolaylaştırır.
  3. Görüntü İşleme: TBA, görüntülerin sıkıştırılması ve yüz tanıma sistemlerinde kullanılır.[6]
  4. Genetik Analiz: Genetik verilerde, popülasyonlar arası farklılıkları ve benzerlikleri incelemek için kullanılır.
  5. Finans: Portföy optimizasyonu ve risk yönetimi gibi finansal uygulamalarda kullanılır.

TBA'nın Avantajları ve Dezavantajları

Avantajları:

  • Boyut indirgeme ile hesaplama maliyetini düşürür.
  • Verideki önemli desenleri ortaya çıkarır.
  • Gürültüyü azaltarak model performansını artırabilir.

Dezavantajları:

  • Yalnızca doğrusal ilişkileri yakalayabilir.
  • Veri normalleştirilmediğinde, sonuçlar yanıltıcı olabilir.
  • TBA'nın sonuçları, verinin ölçüm birimlerine duyarlıdır.[7]

TBA'nın Hesaplanması

TBA, genellikle şu adımlarla hesaplanır:

  1. Veri Standardizasyonu: Verinin ortalaması çıkarılır ve verinin varyansı ile ölçeklendirilir.
  2. Kovaryans Matrisinin Hesaplanması: Verinin kovaryans matrisi hesaplanır.
  3. Özdeğer ve Özvektörlerin Bulunması: Kovaryans matrisinin özdeğerleri ve özvektörleri hesaplanır.
  4. Yeni Öz Uzayına Dönüşüm: Veriler, seçilen özvektörlerle yeni bir alt uzaya projekte edilir.

Kaynakça

  1. ^ {{Kitap kaynağı |soyadı1=Alpaydin |ad1=Ethem |başlık=Introduction to machine learning |url=https://archive.org/details/introductiontoma00alpa_135 |tarih=2010 |yayıncı=MIT Press |isbn=978-0-262-01243-0 |sayfalar=113-120|basım=2.2
  2. ^ Yücel, Fatih (2009). "Temel Bileşenler Yöntemiyle Türk Sermaye Piyasası Gelişiminin Ekonomik Büyüme Üzerine Etkilerinin Bir Analizi" (PDF). Sosyoekonomi, 1. doi:10.38155/ksbd.668703. ISSN 1309-081X. 20 Aralık 2018 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 23 Temmuz 2020. 
  3. ^ Işul Yazar; Hasan Serhan Yavuz; Mehmet Atıf Çay (2009). "Temel Bileşen Analizi Yönteminin ve Bazı Klasik ve Robust Uyarlamalarının Yüz Tanıma Uygulamaları". Eskişehir Osmangazi Üniversitesi Mühendislik ve Mimarlık Fakültesi Dergisi, 1. s. 49-63. Erişim tarihi: 23 Temmuz 2020. 
  4. ^ Pearson, Karl (Kasım 1901). "LIII. On lines and planes of closest fit to systems of points in space". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. 2 (11): 559-572. doi:10.1080/14786440109462720. ISSN 1941-5982. 
  5. ^ Turk, Matthew; Pentland, Alex (1 Ocak 1991). "Eigenfaces for Recognition". Journal of Cognitive Neuroscience. 3 (1): 71-86. doi:10.1162/jocn.1991.3.1.71. ISSN 0898-929X. 
  6. ^ Fama, Eugene F.; French, Kenneth R. (Haziran 1992). "The Cross-Section of Expected Stock Returns". The Journal of Finance. 47 (2): 427. doi:10.2307/2329112. ISSN 0022-1082. 
  7. ^ Abdi, Hervé; Williams, Lynne J. (Temmuz 2010). "Principal component analysis". WIREs Computational Statistics. 2 (4): 433-459. doi:10.1002/wics.101. ISSN 1939-5108. 

İlgili Araştırma Makaleleri

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın karekökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

<span class="mw-page-title-main">Lineer cebir</span> Uzay matematiği

Doğrusal cebir ya da lineer cebir; matematiğin, vektörler (yöney), vektör uzayları, doğrusal dönüşümler, doğrusal denklem takımları ve matrisleri (dizey) inceleyen alanıdır. Vektör uzayları, modern matematiğin merkezinde yer alan bir konudur. Bundan dolayı doğrusal cebir hem soyut cebirde hem de fonksiyonel analizde sıkça kullanılır. Doğrusal cebir, analitik geometri ile de alakalı olup sosyal bilimlerde ve fen bilimlerinde yaygın bir uygulama alanına sahiptir.

Varyans Analizi istatistik bilim dalında, grup ortalamaları ve bunlara bağlı olan işlemleri analiz etmek için kullanılan bir istatistiksel modeller koleksiyonudur. Varyans Analizi kullanılmaktayken belirlenmiş bir değişkenin gözlemlenen varyansı farklı değişim kaynaklarına dayandırılabilen varyans bileşenine ayrılır. En basit şekliyle varyans analizi birkaç grubun ortalamalarının birbirine eşit mi eşit değil mi olduğunu sınamak için bir çıkarımsal istatistik sınaması olur ve bu sınama iki-grup için yapılan t-test sınamasını çoklu-gruplar için genelleştirir. Eğer, çoklu değişkenli analiz için birbiri arkasından çoklu iki-örneklemli-t-sınaması yapmak istenirse bunun I. tip hata yapma olasılığını artırma sonucu doğurduğu aşikardır. Bu nedenle, üç veya daha fazla sayıda ortalamaların ististiksel anlamlığının sınama ile karşılaştırılması için Varyans Analizleri daha faydalı olacağı gerçeği ortaya çıkmaktadır.

<span class="mw-page-title-main">Matris (matematik)</span>

Matematikte matris veya dizey, dikdörtgen bir sayılar tablosu veya daha genel bir açıklamayla, toplanabilir veya çarpılabilir soyut miktarlar tablosudur. Dizeyler daha çok doğrusal denklemleri tanımlamak, doğrusal dönüşümlerde çarpanların takibi ve iki parametreye bağlı verilerin kaydedilmesi amacıyla kullanılırlar. Dizeylerin toplanabilir, çıkartılabilir, çarpılabilir, bölünebilir ve ayrıştırılabilir olmaları, doğrusal cebir ve dizey kuramının temel kavramı olmalarını sağlamıştır.

İstatistiksel terimler, kavramlar ve konular listesi matematik biliminin çok önemli bir alt-bölümü olan istatistik biliminde içeriğinde bulunan konuların çok ayrıntılı olarak sınıflandırılması ile ortaya çıkarılmıştır. Milletlerarası İstatistik Enstitüsü bir enternasyonal bilim kurumu olarak istatistik bilimi konu ve terimlerini bir araya toplayıp 28 bilim dilinde karşılıklı olarak yayınlamıştır. Bu uğraşın sonucunun milletlerarası bilim camiasının büyük başarılarından biri olduğu kabul edilmektedir. Ortaya çıkartılan, istatistik bilimi içinde kullanılan ve bu bilime ait özel kavramların ve terimlerin listesi, tam kapsamlı olma hedeflidir ve böylelikle istatistik bilimi için bir Türkçe yol haritası yapılmış olmaktadır.

<span class="mw-page-title-main">Sayısal analiz</span>

Sayısal analiz, diğer adıyla nümerik analiz veya sayısal çözümleme, matematiksel analiz problemlerinin yaklaşık çözümlerinde kullanılan algoritmaları inceler. Bu nedenle birçok mühendislik dalı ve doğa bilimlerinde önem arz eden sayısal analiz, bilimsel hesaplama bilimi olarak da kabul edilebilir. Bilgisayarın işlem kapasitesinin artması ile gündelik hayatta ortaya çıkan birçok sistemin matematiksel modellenmesi mümkün olmuş ve sayısal analiz algoritmaları burada ön plana çıkmıştır. 21. yüzyıldan itibaren bilimsel hesaplama yöntemleri mühendislik ve doğa bilimleri ile sınırlı kalmamış ve sosyal bilimler ile işletme gibi alanları da etkilemiştir. Sayısal analizin alt başlıklarına adi diferansiyel denklemlerin yaklaşık çözümleri ve özellikle veri biliminde önem taşıyan sayısal lineer cebir ile optimizasyon örnek gösterilebilir.

<span class="mw-page-title-main">Kovaryans matrisi</span>

İstatistik'te, kovaryans matrisi, rassal vektörlerin elemanları arasındaki kovaryansları içeren matristir. Kovaryans matrisi, skaler-değerli rassal değişkenler için var olan varyans kavramının çok boyutlu durumlara genelleştirilmesidir.

F-testi istatistik bilimi içinde bir sıra değişik problemlerde kullanılan parameterik çıkarımsal sınama yöntemidir. F-testi sıfır hipotezine göre gerçekte bir F-dağılımı gösteren sınama istatistiği bulunduğu kabul edilen hallerde, herhangi bir istatistiksel sınama yapma şeklidir. Bu çeşit bir istatistiksel sınama önce Ronald Fisher tarafından 1920'li yıllarda tek yönlü varyans analizi için ortaya atılıp kullanılmış ve sonradan diğer şekillerde F-dağılım kullanan sınamalar da ortaya atılınca, bu çeşit sınamalara genel isim olarak F-testi adı verilmesi Ronald Fisher anısına George W. Snecedor tarafından teklif edilip, istatistikçiler tarafından F-testi bir genel isim olarak kabul edilmiştir.

<span class="mw-page-title-main">Hesaplamalı fizik</span>

Hesaplamalı fizik, fizik sorunlarını çözebilmek için sayısal algoritmaların üretilmesi ve gerçeklenmesini içerir. Genelde kuramsal fizikin bir alt dalı olarak değerlendirilir ancak bazen de kuramsal ve deneysel fizik arasında orta bir dal olarak da düşünülür.

<span class="mw-page-title-main">Tensör</span> skaler, vektör, covector ve tensörlerin bazı kombinasyonlarında çok çizgili harita

Matematikte, tensör, çok boyutlu verinin simgelenebildiği geometrik bir nesnedir. Skaler denilen yönsüz nicel büyüklükler, vektör denilen yönlü büyüklükler ve matris denilen iki boyutlu nesneler birer tensördür. Tensör, tüm bu nesnelerin genelleştirilmiş halidir ve çok boyutlu veri kümeleri için kullanılır. Nesnenin kaç boyutla ifade edildiğine de tensörün derecesi denilir. Bir skalerin derecesi sıfır, bir vektörün bir, bir matrisin ise ikidir. Tensörler üç ve üzeri dereceye sahip olabilir.

<span class="mw-page-title-main">Öznitelik çıkarımı</span>

Makine öğrenimi, örüntü tanıma ve görüntü işleme alanlarında kullanılan öznitelik çıkarımı, girdi olarak verilen ölçülmüş verileri kullanarak türetilmiş değerler (öznitelikler) oluşturur. Türetilen değerlerin bilgilendirici ve artıksız olması, öğrenme sürecini kolaylaştırıcı olması ve bazı durumlarda insan uzmanlar tarafından daha iyi anlaşılabilir (yorumlanabilir) olması amaçlanır. Öznitelik çıkarımı, boyut indirgeme konusuyla ilişkilidir.

<span class="mw-page-title-main">Yüksek performanslı sıvı kromatografisi</span>

Yüksek performanslı sıvı kromatografisi bir analitik kimya yöntemidir. Karışımlardaki bileşenlerin, ayrıştırılmasında, nitelik ve niceliklerinin belirlenmesinde kullanılan bir analiz tekniğidir. Bu teknikte pompalar ile pompalanan yüksek basincli sıvı faz aracılığıyla taşınan analitler, kromatografik kolona ulaşır. Kolona ulaşan analitler, kolon ile farklı şekillerde etkileşip, farklı zamanlarda detektöre ulaşırlar. Burada, kolon katı bir adsorbent maddeyle doludur ki bu maddenin özellikleri sayesinde kromatografik ayrışma gerçekleşir.

<span class="mw-page-title-main">Yapısal biyoloji</span>

Yapısal biyoloji, biyolojinin özellikle amino asitlerden yapılmış olan proteinler, nükleotitlerden yapılmış RNA ve DNA gibi nükleik asitler ve lipitlerden oluşmuş membranlar olmak üzere biyolojik makromoleküllerin yapılarını ve uzamsal dizilişlerini inceleyen bir dalıdır. Yapısal biyoloji asıl olarak biyofizik yöntemleri ile makromoleküllerin atom düzeyinde üç boyutlu yapılarının belirlenmesi, yapısal değişikliklerinin temel prensipleri, moleküler hareketlerin analizi ve bu yapıların dinamiği ile ilgilenir. Makromoleküller hücrelerin hemen hemen tüm işlevlerini yerine getirir ve bunu da yapabilmek için belirli üç boyutlu şekillere girerler. Moleküllerin "üçüncül yapı"sı olarak adlandırılan bu yapılar her molekülün temel bileşimi ya da "birincil yapı"ları ile karmaşık bir şekilde bağlantılıdır.

<span class="mw-page-title-main">Boyut indirgeme</span>

Veri biliminde, boyut indirgeme, bir verinin yüksek boyutlu bir uzaydan, düşük boyutlu bir uzaya, anlamını kaybetmeyecek şekilde dönüştürülmesidir. Yüksek boyutlu bir veriyi işlemek daha fazla işlem yükü gerektirir. Bu yüzden, yüksek sayıda gözlemin ve değişkenin incelendiği sinyal işleme, konuşma tanıma, nöroinformatik, biyoinformatik gibi alanlarda boyut indiremesi sıkça kullanılır.

<span class="mw-page-title-main">Doğrusal ayırma analizi</span>

İstatistikte, doğrusal ayırma analizi (DAA) ya da doğrusal diskriminant analizi, özniteliklerin bir doğrusal birleşimini bularak veriyi sınıflara ayırmaya yarayan yöntem. Elde edilen model bir doğrusal sınıflandırıcı halinde ya da daha yaygın olarak öncül boyut indirgeme analizinde kullanılır.

Lineer cebirde, özdeğer ayrışımı ya da eigen ayrışımı, bir matrisin özdeğerleri ve özvektörleri cinsinden ifade edilen daha basit matrislere ayrıştırılmasıdır. Sadece kare matrisler özdeğerlerine ayrıştırılabilir.

<span class="mw-page-title-main">Analiz</span> belirli bir türdeki mevcut verilere analitik yöntemler uygulama, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma süreci

Analiz, karmaşık bir konuyu veya maddeyi daha iyi anlamak için daha küçük parçalara ayırma sürecidir. Teknik, matematik ve mantık çalışmalarında Aristoteles'ten önce uygulanmıştır.

İstatistikte, keşifsel veri analizi, genellikle istatistiksel grafikler ve diğer veri görselleştirme yöntemlerini kullanarak temel özelliklerini özetlemek için veri kümelerini analiz etme yaklaşımıdır. İstatistiksel bir model kullanılabilir veya kullanılamaz. Ancak öncelikle EDA, verilerin bize resmi modelleme veya hipotez testi görevinin ötesinde neler söyleyebileceğini görmek için vardır. Keşifsel veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için John Tukey tarafından desteklenmiştir. EDA, model uydurma ve hipotez testi için gereken varsayımları daha dar bir şekilde kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya odaklanan ilk veri analizinden farklıdır. EDA, IDA'yı kapsamaktadır.

Fizikte, özellikle çokludoğrusal cebir ve tensör analizinde, kovaryans ve kontravaryans belirli geometrik veya fiziksel varlıkların nicel tanımının temelin değişmesiyle nasıl değiştiğini açıklar. Modern matematiksel gösterimde bu roller bazen yer değiştirir.