İçeriğe atla

Pekiştirmeli öğrenme

Pekiştirmeli öğrenme, davranışçılıktan esinlenen, öznelerin bir ortamda en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapması gerektiğiyle ilgilenen bir makine öğrenmesi yaklaşımıdır. Bu problem, genelliğinden ötürü oyun kuramı, kontrol kuramı, yöneylem araştırması, bilgi kuramı, benzetim tabanlı eniyileme ve istatistik gibi birçok diğer dalda da çalışılmaktadır.

Makine öğrenmesinde, ortam genellikle bir Markov karar süreci (MKS) olarak modellenir, bu bağlamda birçok pekiştirmeli öğrenme algoritması dinamik programlama tekniklerini kullanır.[1] Pekiştirmeli öğrenme algoritmalarının klasik tekniklerden farkı, MKS hakkında ön bilgiye ihtiyaç duymamaları ve kesin yöntemlerin verimsiz kaldığı büyük MKS'ler için kullanılmalarıdır.

Pekiştirmeli öğrenme, doğru girdi/çıktı eşleşmelerinin verilmemesi ve optimal olmayan eylemlerin dışarıdan düzeltilmemesi yönleriyle gözetimli öğrenmeden ayrışır. Dahası, pekiştirmeli öğrenmede bilinmeyen uzayda keşif (İngilizceexploration) ile mevcut bilgiden istifade (İngilizceexploitation) arasında bir denge kurma söz konusudur.[2]

Giriş

Pekiştirmeli öğrenmenin işleyişi. Özne bir eylemde bulunarak çevre ile etkileşir. Çevreyi gözlemleyerek yeni durumu ve elde ettiği ödülleri değerlendirir. Eylemler ve gözlemler bir döngü içinde birbirini takip eder.

Temel pekiştirmeli öğrenme modeli şunlardan oluşur:

  1. öznenin ve ortamın durumlarını (İngilizcestate) içeren bir kümesi;
  2. öznenin yapabileceği eylemleri (İngilizceaction) içeren bir kümesi;
  3. her durumda hangi eyleme geçileceğini belirleyen prensipler (İngilizcepolicy);
  4. bir durum geçişinin kazandıracağı skaler anlık ödülü hesaplamak için kurallar;
  5. öznenin gözlemlerini betimlemek için kurallar.

Kurallar sıklıkla stokastiktir. Gözlemler genellikle son yapılan durum geçişinin kazandırdığı ödülü içerir. Birçok çalışmada öznenin mevcut ortam durumunu gözlemleyebildiği kabul edilir, yani tam gözlenebilirlik. Ancak bunun karşıtı durumlar da söz konusudur ve kısmi gözlenebilirlik olarak adlandırılır. Bazı durumlarda öznenin yapabileceği eylemler kısıtlanmıştır (örn. harcanabilecek para miktarı).

Bir pekiştirmeli öğrenme öznesi ortamla ayrık zaman adımlarında etkileşir. Her zaman adımında, özne ödülüne sahip bir gözlemi alır. Bunun üzerine müsait eylemler kümesinden bir eylemi seçer ve bu yolla ortamla etkileşir. Ortam yeni bir durumuna evrilir. Yeni durumla ilişkili ödülü de belirlenir. Bu ödül geçişine aittir. Pekiştirmeli öğrenme öznesinin amacı mümkün olduğunca fazla ödül toplamaktır. Özne eylemlerini geçmiş durumların bir fonksiyonu olarak seçebilir, hatta eylem seçimini rassal olarak yapabilir.

Bir öznenin performansı mükemmel davranışa sahip özneninki ile karşılaştırıldığında, aralarında oluşan performans kaybı pişmanlık terimi ile ifade edilir. Mükemmel davranışa ulaşmak için, bir özne eylemlerinin uzun vadeli sonuçlarını dikkate almalıdır (gelecekteki çıkarlarını yükseltmek amacıyla). Özne bunun için kısa vadeli ödüllerden vazgeçebilmelidir.

Bu yüzden, pekiştirmeli öğrenme uzun ve kısa vadeli ödüller arasında tercih yapmayı gerektiren problemler için iyi bir yaklaşımdır. Robot kontrolü, telekomünikasyon, tavla, dama ve go (AlphaGo) gibi birçok konuda başarıyla uygulanmıştır.

Keşif

Pekiştirmeli öğrenme akıllı bir keşif mekanizmasına ihtiyaç duyar. Eylemlerin, herhangi bir olasılıksal dağılımına bağlı kalmadan, rastgele seçilmesi kötü bir performansa neden olabilir. Küçük (sonlu) Markov karar süreçleri (MKS) için keşif problemi iyi anlaşılmıştır. Ancak, büyük uzaylı Markov karar süreçleri için başarısı kanıtlanmış algoritmalar olmadığından ötürü daha basit keşif yöntemleri tercih edilmektedir.

Bu yöntemlerden biri aç gözlü hareket belirlemedir (-greedy). Bu yönteme göre ihtimalle rastgele bir eylem yapılır, ihtimalle ise uzun vadede en iyi sonucu getireceği hesaplanan eylem yapılır.[3] Burada, ayar parametresi olarak kullanılır; arttıkça keşif eğilimi artar, azaldıkça sömürü (İngilizceexploitation) eğilimi artar. Bu ayar parametresi belirli bir zamanlamaya göre değişebileceği gibi (keşfi yavaşça ve sürekli azaltmak), sezgisel bir şekilde de uyarlanabilir.[4]

Derin pekiştirmeli öğrenme

Derin öğrenme ile pekiştirmeli öğrenmeyi birleştiren yaklaşımlara denir. Öğrenme sistemi diğer pekiştirmeli öğrenme yöntemleriyle aynıdır (durum, eylem, ödül vb.), ancak sistemin bazı kısımları derin yapay zeka ağları ile modellenir.[5] Örneğin verilen bir durum-eylem ikilisine karşılık gelen ödül miktarını öğrenmek için derin öğrenme kullanılabilir. Google DeepMind tarafından geliştirilen, ATARI oyunlarını oynayan yapay zeka uygulaması[6] derin pekiştirmeli öğrenmeye olan ilgiyi artırmıştır.

Ters pekiştirmeli öğrenme

Ters pekiştirmeli öğrenmede öntanımlı bir ödül fonksiyonu yoktur. Onun yerine, bir uzmanın davranışları gözlemlenerek bir ödül fonksiyonu öğrenilir. Ana fikir mükemmel ya da mükemmele yakın olan davranışı gözlemlemek ve taklit etmektir.[7]

Kaynakça

  1. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement learning and markov decision processes". Reinforcement Learning. Springer Berlin Heidelberg. ss. 3-42. 26 Nisan 2017 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Ocak 2017. 
  2. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. Cilt 4. ss. 237-285. 20 Kasım 2001 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Şubat 2017. 
  3. ^ Alpaydın, Ethem (2011). Yapay öğrenme (1.basım bas.). İstanbul: Boğaziçi Üniversitesi Yayınevi. ISBN 9786054238491. 
  4. ^ Tokic, Michel; Palm, Günther (2011). Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax"KI 2011: Advances in Artificial Intelligence" (PDF). Lecture Notes in Computer Science. Cilt 7006. Springer. ss. 335-346. ISBN 978-3-642-24455-1. 23 Kasım 2018 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 20 Aralık 2017. 
  5. ^ Francois-Lavet, Vincent (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4). ss. 219-354. doi:10.1561/2200000071. 11 Temmuz 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 11 Temmuz 2019. 
  6. ^ Mnih, Volodymyr (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540). ss. 529-533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. 
  7. ^ Ng, A. Y.; Russell, S. J. (2000). Algorithms for inverse reinforcement learning. Icml. ss. 663-670. 

İlgili Araştırma Makaleleri

Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Eğer tek bir değişken kullanılarak analiz yapılıyorsa buna tek değişkenli regresyon, birden çok değişken kullanılıyorsa çok değişkenli regresyon analizi olarak isimlendirilir. Regresyon analizi ile değişkenler arasındaki ilişkinin varlığı, eğer ilişki var ise bunun gücü hakkında bilgi edinilebilir. Regresyon terimi için öz Türkçe olarak bağlanım sözcüğü kullanılması teklif edilmiş ise de Türk ekonometriciler arasında bu kullanım yaygın değildir.

Otoregresif hareketli ortalamalar modelleri, istatistik biliminde George Box ve Gwilym Jenkins'e ithafen Box-Jenkins modelleri olarak da bilinen zaman serisi kestirimi ve öngörme yöntemi olup eşit zaman aralıklarında gözlenen zaman serisi verilerinde uygulanır.

Matematikte, Markov Zinciri, Markov özelliğine sahip bir stokastik süreçtir. Markov özelliğine sahip olmak, mevcut durum verildiğinde, gelecek durumların geçmiş durumlardan bağımsız olması anlamına gelir. Bir başka deyişle, mevcut durumun açıklaması, sürecin gelecekteki evrimini etkileyebilecek tüm bilgiyi kapsar. Gelecek durumlara belirli bir şekilde değil, olasılıksal bir süreçle ulaşılacaktır.

<span class="mw-page-title-main">Büyük sayılar yasası</span>

Büyük Sayılar Kanunu ya da Büyük Sayılar Yasası, bir rassal değişkenin uzun vadeli kararlılığını tanımlayan bir olasılık teoremidir. Sonlu bir beklenen değere sahip birbirinden bağımsız ve eşit dağılıma sahip bir rassal değişkenler örneklemi verildiğinde, bu gözlemlerin ortalaması sonuçta bu beklenen değere yakınsayacak ve bu değere yakın bir seyir izleyecektir.

Boşluğun empedansı elektromanyetikte başta anten hesapları olmak üzere çeşitli hesaplarda kullanılan bir sabittir. MKS sisteminde birimi ohm dur. (Ω).Tanımı;

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

<span class="mw-page-title-main">Klasik elektromanyetizma</span>

Klasik elektromanyetizm, klasik elektromıknatıslık ya da klasik elektrodinamik teorik fiziğin elektrik akımı ve elektriksel yükler arasındaki kuvvetlerin sonuçlarını inceleyen dalıdır. kuantum mekaniksel etkilerin ihmal edilebilir derecede küçük olmasını sağlayacak kadar büyük ölçütlü sistemler için elektromanyetik fenomenlerin mükemmel bir açıklamasını sunar.

Fermi-Dirac istatistikleri, fizik biliminin bir parçası olarak Pauli dışlama prensibine uyan eş parçacıkları içeren sistemdeki bir parçacığın enerjisini tanımlar. Birbirlerinden bağımsız olarak bunu keşfeden Enrico Fermi ve Paul Dirac'tan sonra adlandırılmıştır.

Vektör otoregresyon (VAR), tek değişkenli AR modellerini genelleştiren, çoklu zaman serileri arasındaki gelişimi ve karşılıklı bağımlılığı veren ekonometrik bir modeldir. Bir VAR'daki tüm değişkenler, modeldeki değişkenin kendi gecikmeleri ve diğer tüm değişkenlerin gecikmelerine bağlı olarak değişkenin gelişimini açıklayarak her bir değişken için bir denklem ile simetrik olarak ele alır. Bu özellik sebebiyle Christopher Sims, ekonomik ilişkilerin tahmininde teoriden bağımsız bir metot olarak VAR modelleri kullanımını, böylelikle yapısal modellerin "inanılmaz tanımlama kısıtlamalarına" bir alternatif olarak destekler.

Perdeleme, hareketli yük taşıyıcılarının varlığından ortaya çıkan elektrik alanının sönümünü ifade eder. Metaller ve yarıiletkenlerdeki iletim elektronları ve iyonize olmuş gazlar(klasik plazma) gibi yük taşıyıcı akışkanlarda gözlemlenir. Elektriksel olarak yüklenmiş parçacıklardan oluşan bir akışkanda, her çift parçacık Coulomb kuvveti ile etkileşir,

.
<span class="mw-page-title-main">Yer değiştirme akımı</span>

Elektromanyetizmada yer değiştirme akımı elektrik yer değiştirme alanının değişim oranıyla tanımlanan bir niceliktir. Yer değiştirme akımının birimi akım yoğunluğu cinsinden ifade edilir. Yer değiştirme akımı gerçek akımlar gibi manyetik alan üretir. Yer değiştirme akımı hareketli yüklerin yarattığı bir elektrik akımı değil; zamana bağlı olarak değişim gösteren elektrik alanıdır. Maddelerde, atomun içerisinde bulunan yüklerin küçük hareketlerinin de buna bir katkısı vardır ki buna dielektrik polarizasyon denir.

Fermi enerjisi, elektronların toplam kimyasal potansiyeli ya da elektrokimyasal potansiyeli olarak tanımlanır ve µ veya şeklinde gösterilir. Bir cismin Fermi seviyesi, bir termodinamik miktardır ve termodinamik iş, cisme bir elektron eklemeye ihtiyaç duyduğundan ötürü, Fermi seviyesi önemlidir. Fermi seviyesinin açık bir şekilde anlaşılması-elektronik özelliklerin belirlenmesinde Fermi seviyesinin elektronik bağ yapısı ile olan ilişkisi ve bir elektronik devrede Fermi seviyesinin voltaj ve yük akışı ile olan ilişkisi- katı hal fiziğinin anlaşılması için gereklidir.

Lamb kayması, adını Willis Lamb'den alan, hidrojen atomunun kuantum elektrodinamiğindeki 2S1/2 ve 2P1/2 enerji düzeyleri arasındaki küçük farklılıktır. Dirac denklemine göre, 2S1/2 ve 2P1/2 orbitalleri (yörüngeleri) aynı enerjiye sahip olmalıdır. Ancak, boşluktaki elektronlar arasındaki etkileşim, 2S1/2 ve 2P1/2 enerji düzeylerinde küçük bir enerji değişimine sebep olur. Lamb ve Robert Retherford bu değişimi 1947'de ölçmüşlerdir ve bu ölçüm, ıraksamayı açıklamak için tekrar normalleştirme teorisine teşvik edici bir unsur olmuştur. Bu, Julian Schwinger, Richard Feynman, Ernst Stueckelberg ve Sin-Itiro Tomonaga tarafından geliştirilmiş modern kuantum elektrodinamiğinin müjdecisiydi. Lamb, 1955 yılında Lamb kayması ile ilgili keşiflerinden ötürü Nobel Fizik Ödülü'nü kazandı.

Isıl ışınım maddedeki yüklü parçacıkların ısıl hareketiyle meydana gelmiş elektromanyetik ışınımdır. Isısı mutlak sıfırdan büyük olan her madde ısıl ışınım yayar. Isısı mutlak sıfırdan büyük olan maddelerde atomlar arası çarpışmalar, atomların ya da moleküllerin kinetik enerjisinde değişime neden olur.

Termodinamikte, Kirchoff'un termal radyasyon kanunu, ışınımsal değişim dengesini de içeren, termodinamik dengede kendine özgü salınım ve emilim yapan herhangi bir maddenin dalga boyuna denktir.

<span class="mw-page-title-main">Planck yasası</span> belirli bir sıcaklıkta termal denge durumunda bulunan bir kara cisim ışımasının yaydığı elektromanyetik radyasyonu ifade eden terim

Planck yasası belirli bir sıcaklıkta termal denge durumunda bulunan bir kara cisim ışımasının yaydığı elektromanyetik radyasyonu ifade eder. Yasa 1900 yılında Max Planck bu ismi önerdikten sonra isimlendirilmiştir. Planck yasası modern fiziğin ve kuantum teorisinin öncül bir sonucudur.

Differansiyal geometri içerisinde,. gerçek olmayan Riemannia çok katlılarını ifade etmek için kullanılan eğriliktir. Genel Görelikte içerisinde, Einstein Tensör’ünün ortaya çıkardığı Einstein’nın alan denklemlerinin kütleçekimi için tanımladığı uzay-zaman eğriliğini tutarlı bir şekilde enerji ile açıklamasıdır.

<span class="mw-page-title-main">Yörünge mekaniği</span>

Yörünge mekaniği veya astrodinamik, roketler ve diğer uzay araçlarının hareketini ilgilendiren pratik problemlere, balistik ve gök mekaniğinin uygulamasıdır. Bu nesnelerin hareketi genellikle Newton'un hareket kanunları ve Newton'un evrensel çekim yasası ile hesaplanır. Bu, uzay görevi tasarımı ve denetimi altında olan bir çekirdek disiplindir. Gök mekaniği; daha genel olarak yıldız sistemleri, gezegenler, uydular ve kuyruklu yıldızlar gibi kütle çekimi etkisinde bulunan yörünge sistemleri için geçerlidir. Yörünge mekaniği; uzay araçlarının yörüngelerine ait yörünge manevraları, yörünge düzlemi değişiklikleri ve gezegenler arası transferler gibi kavramlara odaklanır ve itici manevralar sonuçlarını tahmin etmek için görev planlamacıları tarafından kullanılır. Genel görelilik teorisi, yörüngeleri hesaplamak için Newton yasalarından daha kesin bir teoridir ve doğru hesaplar yapmak ya da yüksek yerçekimini ihtiva eden durumlar söz konusu olduğunda bazen gereklidir.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">Hesaplanabilir sayı</span>

Matematikte, hesaplanabilir sayılar, belirlenen herhangi bir doğruluk seviyesine ulaşacak şekilde sonlu ve sona eren bir algoritma ile hesaplanabilen reel sayıları ifade eder. Bu sayılar, yinelemeli sayılar, etkili sayılar ya da hesaplanabilir reel sayılarolarak da adlandırılır. Hesaplanabilir reel sayılar kavramı, o dönemde mevcut olan sezgisel hesaplanabilirlik kavramı üzerinden Emile Borel tarafından 1912'de ortaya konmuştur.