İçeriğe atla

DeepDream

DeepDream, Alexander Mordvintsev adlı Google mühendisi tarafından oluşturulmuştur. DeepDream, algoritmik pareidolia yoluyla görüntülerdeki desenleri tespit etmek ve görüntüleri geliştirmek için evrişimli sinir ağı kullanmaktadır. Böylece aşırı işlenmiş görüntüler vasıtasıyla rüya tarzında halüsinojenik görüntüler oluşturan bilgisayar programıdır.[1][2][3]

Google'ın programı, (derin) "rüya görme" terimini, eğitimli derin bir ağda istenen etkinleştirmeleri üreten görüntülerin üretimine atıfta bulunacak şekilde popüler hale getirmiştir. Ayrıca bu terim, ilgili biçimlerin bir koleksiyonunu ifade etmektedir.

Tarih

DeepDream yazılımı, "Inception" isimli filmden esinlenilerek evrişimli sinir ağı formatında oluşturulmuştur.[1][2][3] Ayrıca, 2014 yılında ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi (Large-Scale Visual Recognition Challenge) için geliştirilmiş ve Temmuz 2015'te piyasaya sürülmüştür.

Birden çok katmana sahip bir sinir ağı.

Google'ın DeepDream programı sayesinde hayal kurma (dreaming) fikri ve ismi 2015 yılında internette popüler olmuştur. DeepDream fikri, sinir ağları tarihinin ilk dönemlerine dayanmaktadır. Aynı zamanda görsel doku oluşturmak için benzer yöntemler kullanılmıştır.[4] Benzer görselleştirme fikirleri, çeşitli araştırma grupları tarafından (Google'ın çalışmasından önce) geliştirilmiştir.

Google tekniklerini yayınlamıştır ve kodlarını açık kaynaklı hale getirmiştir.[5] Bundan sonra kullanıcıların kendi fotoğraflarını dönüştürmelerini sağlamak için mobil uygulamalar, web hizmetleri ve masaüstü yazılımları formatında çeşitli araçlar piyasaya çıkmıştır.[6]

İşlem

An image of jellyfish on a blue background
An image of jellyfish processed with DeepDream after ten iterations
An image of jellyfish processed with DeepDream after fifty iterations
Orijinal fotoğraf (üstteki), DeepDream'in 10 yineleme ile eğitilmiş hali ile köpekleri algılaması (ortadaki), DeepDream'in 50 yineleme ile eğitilmiş hali ile köpekleri algılaması (alttaki).

Program, görüntüleri otonom olarak sınıflandırmak amacıyla görüntülerdeki desenleri ve yüzleri algılamak için tasarlanmıştır.[7] Bununla birlikte, program bir kez eğitildikten sonra, ağ ters yönde de çalıştırılabilmektedir. Ardından orijinal görüntüyü biraz ayarlaması istenmektedir, böylece belirli bir çıktı nöronu (örneğin, yüzler veya belirli hayvanlar için) daha yüksek bir güven puanı vermektedir. Bu, sinir ağının ortaya çıkan yapısını daha iyi anlamak için kullanılan görselleştirmeler ile kullanılabilmektedir. Bu durum DeepDream konseptinin temelini oluşturmaktadır. Bu tersine çevirme prosedürü hiçbir zaman tam olarak anlaşılır değildir, çünkü birden çoğa haritalama sürecini kullanmaktadır.[8] Bununla birlikte, yeterince eğitimden sonra, başlangıçta aranan özelliklerden yoksun görüntüler bile, psikedelik ve gerçeküstü görüntülerin algoritmik olarak üretildiği bir pareidolia formunun ortaya çıkmasına neden olacaktır. Optimizasyon geri yayılımı andırmaktadır, ağırlıklar sabit tutulmaktadır ve giriş ayarlanmaktadır. Yalnızca ağ ağırlıklarını ayarlanmaktadır.

Örneğin, mevcut bir görüntü "kediye daha fazla benzer" olacak şekilde değiştirilebilmektedir ve elde edilen geliştirilmiş görüntü tekrar işleme girilebilmektedir.[2] Bu kullanım, bulutlardaki desenleri hayvan veya diğer desenlere benzetme durumuna benzemektedir.

Girdinin her pikseline bağımsız olarak gradyan inişinin uygulanması, bitişik piksellerin çok az ilişkiye sahip olduğu ve bu nedenle görüntünün çok fazla yüksek frekans bilgisine sahip olduğu görüntüler üretmektedir. Oluşturulan görüntüler, doğal görüntü istatistiklerine sahip (herhangi bir belirli görüntü için bir tercih olmaksızın) veya basitçe pürüzsüz olan girdileri tercih ederek ve düzenleyici eklenerek büyük ölçüde geliştirilebilir. Örneğin, Mahendran. Bu örnekte parçalı sabit görüntüleri tercih eden toplam varyasyon düzenleyicisini kullanılmıştır. Çeşitli düzenleyiciler daha ayrıntılı olarak tartışılmaktadır. Özellikle görselleştirme ve düzenleme tekniklerinin, görsel bir keşfi yakın zamanda yayınlanmıştır.[9]

Görüntülerin LSD'ye ve psilosibinin neden olduğu halüsinasyonlara atıfta bulunulan benzerliği, yapay sinir ağları ile görsel korteksin belirli katmanları arasında işlevsel bir benzerlik olduğunu düşündürmektedir.[10]

Bir bilgisayar bilimi programı olan Computerphile, Google Dream tarafından kullanılan makine öğrenimi süreçlerini ayrıntılı olarak anlatmaktadır.[11]

Kullanımı

Havuzdaki üç adamın yoğun şekilde DeepDream ile işlenmiş fotoğrafı
ImageNet üzerinde eğitilmiş VGG16 ağını kullanan DeepDream efektli "Mona Lisa"

Rüya görme (dreaming) fikri, çıktıdakiler dışındaki gizli (iç) nöronlara uygulanabilmektedir. Bu durum ağın çeşitli bölümlerinin rollerinin ve temsillerinin keşfedilmesine izin vermektedir. Girdiyi tek bir nöronu (bu kullanıma bazen Aktivite Maksimizasyonu olarak adlandırılır) veya tüm nöron katmanını tatmin edecek şekilde optimize etmek de mümkündür.

Rüya görme (dreaming) en çok ağları görselleştirmek veya bilgisayar sanatı üretmek için kullanılmaktadır. Ancak son zamanlarda eğitim setine "hayal edilen" girdilerin eklenmesinin Bilgisayar Bilimi'ndeki soyutlamalar için eğitim sürelerini iyileştirebileceği önerilmiştir.

DeepDream modelinin sanat tarihi alanında da uygulamaya sahip olduğu gösterilmiştir.[12]

DeepDream, Foster the People'ın "Doing It for the Money" şarkısının klibinde kullanılmıştır.[13]

2017'de Sussex Üniversitesi'nden bir araştırma grubu, DeepDream algoritmasını önceden kaydedilmiş bir panoramik videoya uygulamıştır. Bu uygulama ile kullanıcıların psikoaktif maddeler ve / veya psikopatolojik durumların deneyimini taklit etmek için sanal gerçeklik ortamlarını keşfetmelerine olanak tanıyan bir Halüsinasyon Makinesi oluşturulmuştur.[14] Halüsinasyon Makinesi tarafından tetiklenen öznel deneyimlerin, psikedelik duruma fenomenolojik benzerlikler taşırken (psilosibinin uygulanmasını takiben) kontrol (halüsinojenik olmayan) videolardan önemli ölçüde farklı olduğunu göstermişlerdir.

Ayrıca bakınız

Kaynakça

  1. ^ a b "DeepDream - a code example for visualizing Neural Networks". Google Research. 2015. 8 Temmuz 2015 tarihinde kaynağından arşivlendi. 
  2. ^ a b c "Inceptionism: Going Deeper into Neural Networks". Google Research. 2015. 3 Temmuz 2015 tarihinde kaynağından arşivlendi.  Kaynak hatası: Geçersiz <ref> etiketi: "goingdeeper" adı farklı içerikte birden fazla tanımlanmış (Bkz: )
  3. ^ a b Szegedy (2014). "Going Deeper with Convolutions". Computing Research Repository. 
  4. ^ Portilla (2000). "A parametric texture model based on joint statistics of complex wavelet coefficients". International Journal of Computer Vision. 40: 49-70. doi:10.1023/A:1026553619983. 
  5. ^ GitHub'da DeepDream
  6. ^ Daniel Culpan (3 Temmuz 2015). "These Google "Deep Dream" Images Are Weirdly Mesmerising". Wired. 8 Mayıs 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Temmuz 2015. 
  7. ^ "Fear and Loathing in Las Vegas is terrifying through the eyes of a computer". The Verge. 7 Temmuz 2015. 8 Temmuz 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Temmuz 2015. 
  8. ^ Hayes (2015). "Computer Vision and Computer Hallucinations". American Scientist. 103 (6): 380. doi:10.1511/2015.117.380. ISSN 0003-0996. 
  9. ^ Olah (7 Kasım 2017). "Feature Visualization". Distill (İngilizce). 2 (11). doi:10.23915/distill.00007. ISSN 2476-0757. 
  10. ^ "When Robots Hallucinate". The Atlantic. 3 Eylül 2015. 4 Eylül 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Eylül 2015. 
  11. ^ "Arşivlenmiş kopya". 2 Haziran 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 29 Mayıs 2021. 
  12. ^ Spratt (2017). "Dream Formulations and Deep Neural Networks: Humanistic Themes in the Iconology of the Machine-Learned Image" (PDF). Kunsttexte. Humboldt-Universität zu Berlin. 4. 27 Ekim 2020 tarihinde kaynağından arşivlendi (PDF). Erişim tarihi: 29 Mayıs 2021. 
  13. ^ Foster The People - Doing It for the Money, 11 Ağustos 2017, 16 Ağustos 2017 tarihinde kaynağından arşivlendi, erişim tarihi: 15 Ağustos 2017 
  14. ^ Suzuki (22 Kasım 2017). "A Deep-Dream Virtual Reality Platform for Studying Altered Perceptual Phenomenology". Sci Rep. 7 (1): 15982. doi:10.1038/s41598-017-16316-2. PMC 5700081 $2. PMID 29167538. 

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

<span class="mw-page-title-main">Yapay sinir ağları</span>

Yapay sinir ağları (YSA), insan beyninin bilgi işleme tekniğinden esinlenerek geliştirilmiş bir bilgi işlem teknolojisidir. YSA ile basit biyolojik sinir sisteminin çalışma şekli taklit edilir. Yani biyolojik nöron hücrelerinin ve bu hücrelerin birbirleri ile arasında kurduğu sinaptik bağın dijital olarak modellenmesidir. Nöronlar çeşitli şekillerde birbirlerine bağlanarak ağlar oluştururlar. Bu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler. Diğer bir ifadeyle, YSA'lar, normalde bir insanın düşünme ve gözlemlemeye yönelik doğal yeteneklerini gerektiren problemlere çözüm üretmektedir. Bir insanın, düşünme ve gözlemleme yeteneklerini gerektiren problemlere yönelik çözümler üretebilmesinin temel sebebi ise insan beyninin ve dolayısıyla insanın sahip olduğu yaşayarak veya deneyerek öğrenme yeteneğidir.

<span class="mw-page-title-main">Kişisel bilgisayar</span>

Kişisel bilgisayar veya PC, şahsi kullanımına yönelik özel olarak tasarlanmış, herhangi bir uzman veya operatörün yardımı olmadan kişilerin kendi başlarına kullanabileceği bilgisayar türü. Masaüstü bilgisayarlar, dizüstü (laptop) bilgisayarlar ve tablet bilgisayarlar, PC'lere örnek olarak verilebilir. Kişisel bilgisayarlar evde, büroda veya mobil olarak kullanılabilirler.

<span class="mw-page-title-main">Nörobilim</span> sinir sistemini inceleyen bilim dalı

Nörobilim, sinir sistemini inceleyen disiplinlerarası bir bilim dalıdır. Nöronların ve nöral devrelerin temel özelliklerini anlamayı hedefleyen bu bilim dalı, bu amaçla fizyoloji, anatomi, moleküler biyoloji, gelişim biyolojisi, sitoloji, matematiksel modelleme ve psikolojiyi birleştirir. Öğrenme, bellek, davranış, algı ve bilincin biyolojik temelinin anlaşılması Eric Kandel tarafından biyolojik bilimlerin "nihai zorluğu" olarak tanımlanmıştır.

Görsel algı çevredeki objelerin görülebilir spektruma yansıttığı ışığı kullanarak çevreyi yorumlayabilme yeteneğidir. Bu, etrafı ne kadar net görmeyi ifade eden görsel keskinlikten farklıdır. Bir kişi 20/20 vizyonu olsa bile görsel algısal işleme ile ilgili problemler yaşayabilir.

Beyin-bilgisayar arayüzü veya zihin-makine arayüzü veya beyin-makine arayüzü, beyin ile dış bir cihaz arasındaki doğrudan iletişim yoludur. Beyin-bilgisayar arayüzü genellikle insanoğlunun bilişsel veya duyusal motor fonksiyonlarına yardımcı olmak veya onları tamir etmek için kullanılır.

<span class="mw-page-title-main">Gözetimli öğrenme</span>

Gözetimli öğrenme ya da denetimli öğrenme, bilinen etiketler ve özellikler kullanarak bir fonksiyon öğrendiğimiz, makine öğreniminin önemli bir alt dalıdır. Bu yöntem, eğitim veri seti kullanılarak öğrenilen modelin, yeni ve bilinmeyen veri noktalarını doğru bir şekilde tahmin etmesini amaçlar.

<span class="mw-page-title-main">Google DeepMind</span>

DeepMind Technologies, Alphabet Inc.'in bir yan kuruluşu olup, 2010'da kurulmuş bir İngiliz yapay zekâ program geliştirme şirketidir. DeepMind, 2014'te Google tarafından satın alınmıştır. Şirketin merkezi Londra'dadır ve Kanada, Fransa ve Amerika Birleşik Devletleri'nde araştırma merkezleri bulunmaktadır. 2015'te, Google'ın ana şirketi olan Alphabet Inc.'in tamamına sahip olduğu bir yan kuruluş oldu.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">Geoffrey Hinton</span> İngiliz-Kanadalı bilgisayar uzmanı ve psikolog

Geoffrey Everest Hinton, İngiliz-Kanadalı bilişsel ruhbilimci ve bilgisayar bilimcisi. Yapay sinir ağları konusundaki çalışmalarıyla tanınan Hinton 2013'te Google Brain projesine katılmıştır. 2018 Turing Ödülü'nü Yoshua Bengio ve Yann LeCun'la birlikte almaya hak kazanmıştır.

Evrişimsel sinir ağları, derin öğrenmenin bir alt dalıdır ve genellikle görsel bilginin analiz edilmesinde kullanılır. Yaygın kullanım alanları resim ve video tanıma, önerici sistemler resim sınıflandırma, tıbbi görüntü analizi ve doğal dil işleme olarak sıralanabilir.

Nesne tespiti bilgisayarla görü ve görüntü işleme ile ilgili bilgisayar teknolojisi

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

<span class="mw-page-title-main">U-Net</span>

U-Net, Freiburg Üniversitesi Bilgisayar Bilimleri Bölümü'nde biyomedikal alanlardaki görüntü işleme çalışmalarında bölümleme yapmak için geliştirilmiş bir evrişimsel sinir ağıdır. Ağ mimarisi, tamamen evrişimli ağa dayanmaktadır ve daha az eğitim görüntüsü ile çalışmak ve daha hassas bölümlemeler sağlamak için değiştirilmiş ve genişletilmiştir. Arıca bu ağ o kadar hızlıdır ki, 512x512 piksellik bir görüntünün bölümlemesi GPU’da 1 saniyeden daha kısa sürer.

<span class="mw-page-title-main">Bilgisayarlı görü</span> görsellerden veri bilgisi çıkartmak

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

<span class="mw-page-title-main">Yinelemeli sinir ağı</span> bölümler arasındaki bağlantıların yönlendirilmiş bir döngü oluşturduğu yapay sinir ağı türü

Yinelemeli sinir ağı, düğümler arası bağların zamansal bir dizi doğrultusunda yönlü çizge oluşturduğu bir yapay sinir ağı çeşididir. Yaygın olarak İngilizce kısaltması olan RNN olarak anılır. İleri beslemeli sinir ağından türetilen RNN yöntemi, bir iç durum belleği kullanarak değişik uzunluktaki dizileri işleyebilir. Bu sayede yazı tanıma ve konuşma tanıma gibi problemlere uygulanabilir. Teorik olarak Turing makinesine denk (Turing-complete) olan yinelemeli sinir ağları, herhangi uzunluktaki bir girdiyi işleyebilen herhangi bir programı çalıştırabilir.

<span class="mw-page-title-main">Metinden resme model</span>

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı.

Nöral makine çevirisi (NMT), bir sözcük dizilim olasılığını tahmin etmek için yapay bir sinir ağı kullanan ve genellikle cümlenin tümünü tek bir entegre modelde modelleyen bir makine çevirisi yaklaşımıdır.

Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.

Yapay sinir ağındaki bir nöronun aktivasyon fonksiyonu, nöronun girdilerinden gelen değerlerin toplamını kullanarak nöronun çıktısını hesaplamaya yardımcı olan matematiksel fonksiyondur. Aktivasyon fonksiyonu doğrusal olmadığı sürece, sadece birkaç nöron kullanılarak bile karmaşık problemler çözülebilir.