İçeriğe atla

Metinden resme model

2022'de piyasaya sürülenStable Diffusion tarafından oluşturulan "Ata binen bir astronot, Hiroshige " girdisi ile oluşturulmuş bir görüntü.

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı.

Metinden görüntüye modeller genellikle girdi metnini gizli bir temsile dönüştüren bir dil modeli ile bu temsile bağlı bir görüntü üreten üretken bir görüntü modelini birleştirir. En etkili modeller genellikle web'den alınan büyük miktardaki resim ve metin verileriyle eğitilmiştir.[1]

Tarihi

Derin öğrenmenin ortaya çıkmasından önce, metinden görüntüye modeller oluşturma girişimleri, örneğin bir küçük resim veri tabanındaki mevcut bileşen görüntülerinin düzenlenmesiyle yapılan kolajlarla sınırlıydı.[2][3]

Ters görev olan görüntü altyazısı daha kolay takip edilebilirdi ve bir dizi görüntü altyazılı derin öğrenme modeli, ilk metinden görüntüye modellerden önce geldi.[4]

İlk modern metinden resme modeli olan alignDRAW, 2015 yılında Toronto Üniversitesi'nden araştırmacılar tarafından tanıtıldı. alignDRAW, daha önce tanıtılan DRAW mimarisini (bir dikkat mekanizmasına sahip tekrarlayan değişken bir otomatik kodlayıcı kullanan) metin dizilerine göre koşullandıracak şekilde genişletti.[4] alignDRAW tarafından oluşturulan görüntüler bulanıktı ve fotogerçekçi değildi, ancak model, eğitim verilerinde temsil edilmeyen nesnelere (kırmızı bir okul otobüsü gibi) genelleme yapabildi ve "mavi gökyüzünde bir dur işareti uçuyor" gibi yeni istemleri uygun şekilde ele aldı. ", bunun yalnızca eğitim setindeki verileri "ezberlemek" olmadığını gösteriyor.[5]

2016 yılında Reed, Akata, Yan ve ark. metinden resme görevi için üretken rakip ağları kullanan ilk kişi oldu.[5][6] Dar, alana özgü veri kümeleri üzerinde eğitilen modeller sayesinde, "belirgin, kalın, yuvarlak gagalı, tamamen siyah bir kuş" gibi metin başlıklarından kuşların ve çiçeklerin "görsel olarak makul" görüntülerini oluşturmayı başardılar. Daha çeşitli COCO veri seti üzerinde eğitilen bir model, "uzaktan... cesaret verici" görüntüler üretti, ancak ayrıntılarında tutarlılık yoktu.[5] Daha sonraki sistemler arasında VQGAN+CLIP,[7] XMC-GAN ve GauGAN2 bulunur.[8]

Kamuoyunun geniş ilgisini çeken ilk metinden görüntüye modellerden biri, Ocak 2021'de duyurulan bir transformatör sistemi olan OpenAI'nin DALL-E'siydi.[9] Daha karmaşık ve gerçekçi görüntüler oluşturabilen bir halef olan DALL-E 2, Nisan 2022'de tanıtıldı[10] ve ardından Ağustos 2022'de halka açık Stable Diffusion yayınlandı.[11]

Kaynakça

  1. ^ Vincent, James (24 Mayıs 2022). "All these images were generated by Google's latest text-to-image AI". The Verge (İngilizce). 15 Şubat 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  2. ^ Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (Temmuz 2020). "A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis". WIREs Data Mining and Knowledge Discovery (İngilizce). 10 (4). doi:10.1002/widm.1345. ISSN 1942-4787. 16 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  3. ^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "A text-to-picture synthesis system for augmenting communication 7 Eylül 2022 tarihinde Wayback Machine sitesinde arşivlendi." (PDF). AAAI. 7: 1590–1595.
  4. ^ a b Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy; Salakhutdinov, R. (9 Kasım 2015). "Generating Images from Captions with Attention". CoRR. 16 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  5. ^ a b c Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). "Generative Adversarial Text to Image Synthesis 16 Mart 2023 tarihinde Wayback Machine sitesinde arşivlendi." (PDF). International Conference on Machine Learning.
  6. ^ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (1 Aralık 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187-209. doi:10.1016/j.neunet.2021.07.019. ISSN 0893-6080. 5 Kasım 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  7. ^ Rodriguez, Jesus (27 Eylül 2022). "🌅 Edge#229: VQGAN + CLIP". TheSequence. 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  8. ^ Rodriguez, Jesus (4 Ekim 2022). "🎆🌆 Edge#231: Text-to-Image Synthesis with GANs". TheSequence. 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  9. ^ Coldewey, Devin (5 Ocak 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". TechCrunch (İngilizce). 5 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  10. ^ Coldewey, Devin (6 Nisan 2022). "New OpenAI tool draws anything, bigger and better than ever". TechCrunch (İngilizce). 6 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 
  11. ^ "Stable Diffusion Public Release". Stability AI (İngilizce). 16 Aralık 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2023. 

İlgili Araştırma Makaleleri

OpenAI, ABD merkezli yapay zekâ araştırma şirketi. Şirketin genel amacı insanlığa fayda sağlayabilecek yapay zekâ hakkında araştırma yapmaktır. 2015 yılının sonlarında San Francisco'da kurulan şirket, patentlerini ve araştırmalarını halka açık hale getirerek diğer kurum ve araştırmacılarla “serbest iş birliği yapmayı” amaçlamaktadır. Elon Musk ve Sam Altman, yapay genel zekâdan kaynaklanan varoluşsal risk endişelerinden dolayı bu şirketi kurduklarını açıklamıştır. Organizasyon 2015 yılında Sam Altman, Reid Hoffman, Jessica Livingston, Elon Musk, Ilya Sutskever, Peter Thiel ve diğerleri tarafından San Francisco’da kurulmuş ve toplamda 1 milyar dolar bağışta bulunulmuşlardır. Musk 2018 yılında yönetim kurulundan istifa etmiş ancak bağışçı olarak kalmıştır. Microsoft 2019 yılında OpenAI LP’ye 1 milyar dolarlık bir yatırım sağlamış ve Ocak 2023’te ikinci birçok yıllık yatırım sağlamıştır; bu ikinci yatırımın 10 milyar dolar olduğu bildirilmektedir. ChatGPT yazılı cevap veren botun yapımı da OpenAI’a aittir.

Derin öğrenme destekli süper-örnekleme (DLSS), derin öğrenmeyi kullanarak orijinal düşük çözünürlüklü görüntünün daha yüksek çözünürlüklü görüntüsüne benzeyen bir görüntü oluşturmak için Nvidia tarafından geliştirilen bir teknolojidir. Bunu uygulayabilmek için yapay sinir ağları, video oyunlarının ultra-yüksek çözünürlüklü "ideal" görüntüleri ve aynı oyunların düşük çözünürlüklü görüntüleri kullanılarak süper bilgisayarlarda Nvidia tarafından eğitilmektedir. Nvidia'ya göre bu teknoloji sayesinde, video kartları çok fazla çalışma gerektirmeden orijinal görüntüden çok daha yüksek çözünürlükte görüntüler üretebilmektedir.

<span class="mw-page-title-main">DALL-E</span> Yapay zeka programı

DALL-E, 5 Ocak 2021'de OpenAI tarafından piyasa sürülen, metinsel tanımlardan görüntü oluşturan bir yapay zeka programıdır.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

Bu, macOS bileşenlerinin bir listesidir. Bunlar mevcut Mac işletim sisteminde bulunan özelliklerdir.

<span class="mw-page-title-main">Midjourney</span>

Midjourney, metinsel açıklamalardan görüntüler oluşturan yapay zeka programının adıdır. Araç, günümüzde beta aşamasındadır. Program, İngiliz dergisi The Economist tarafından Haziran 2022'deki bir sayının ön kapağını oluşturmak için kullanıldı.

AV1 Image File Format (AVIF), görüntüleri veya AV1 ile sıkıştırılmış görüntü dizilerini HEIF kapsayıcı biçiminde depolamak için bir görüntü dosyası biçimi belirtimidir. ISOBMFF üzerine kurulu aynı kap biçimini kullanan HEIC ile rekabet eder, ancak sıkıştırma için HEVC ile rekabet eder. AVIF spesifikasyonunun 1.0.0 sürümü Şubat 2019'da tamamlandı.

<span class="mw-page-title-main">ChatGPT</span> OpenAI tarafından geliştirilen yapay zekâ sohbet robotu

ChatGPT, OpenAI tarafından geliştirilen ve diyalog konusunda uzmanlaşmış bir yapay zeka sohbet botudur. Bu chatbot, denetimli ve takviyeli öğrenme teknikleriyle ince ayar yapılmış büyük bir dil modeline dayanır. ChatGPT'nin ilk versiyonu, GPT-3 temelli idi ve daha sonra gelişmiş sürümleri olan GPT-3.5 ve 14 Mart 2023'te GPT-4 ile güncellenmiştir ve ChatGPT Plus kullanıcıları için kullanılabilir durumdadır.

<span class="mw-page-title-main">Stable Diffusion</span>

Stable Diffusion, 2022'de piyasaya sürülen bir derin öğrenme altyapılı bir metinden görüntüye (text-to-image) modelidir. Öncelikle metin açıklamalarına bağlı olarak ayrıntılı görüntüler oluşturmak için kullanılır, ancak görüntünün içeriğini değiştirmek ya da dışına genişletmek gibi diğer görevlerde de uygulanabilir.

<span class="mw-page-title-main">Üretken yapay zekâ</span>

Üretken yapay zekâ, bilgisayar sistemlerinin metin, görüntü, ses gibi farklı veri türlerini işleyerek orijinal içerik oluşturmasına yarayan bir yapay zekâ teknolojisi dalıdır.

<span class="mw-page-title-main">Yapay zeka patlaması</span>

Yapay Zeka Patlaması, veya Yapay Zeka Baharı, yapay zeka alanında çok hızlı bir şekilde devam eden ilerleme dönemidir. Öne çıkan örnekler arasında Google DeepMind ve OpenAI gibi laboratuvarlar tarafından yürütülen üretken yapay zekalar yer almaktadır.

<span class="mw-page-title-main">Yapay zekâ güvenliği</span>

Yapay zekâ güvenliği, yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.

Görüntü alma sistemi, geniş bir dijital görüntü veritabanından görüntülere göz atmak, aramak ve almak için kullanılan bir bilgisayar sistemidir. Görüntü almanın en geleneksel ve yaygın yöntemleri, görüntülere resim yazısı, anahtar sözcükler, başlık veya açıklamalar gibi meta veriler eklemeye yönelik bazı yöntemleri kullanır, böylece erişim açıklama sözcükleri üzerinden gerçekleştirilebilir. Görüntüye manuel açıklama eklemek zaman alıcı, zahmetli ve pahalıdır; Bu sorunu çözmek için otomatik görüntü açıklaması üzerine çok sayıda araştırma yapılmıştır. Ek olarak, sosyal web uygulamalarının ve anlamsal webin artması, birçok web tabanlı görsel açıklama aracının geliştirilmesine ilham kaynağı olmuştur.

<span class="mw-page-title-main">Önceden eğitilmiş üretken dönüştürücü</span> büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli ve Üretken yapay zekâ için öne çıkan bir çerçevedir. Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur. GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir. 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir ve bazen genel olarak GPT'ler olarak anılırlar.

Microsoft Copilot, Microsoft tarafından geliştirilen ve 7 Şubat 2023'te piyasaya sürülen bir sohbet robotudur. Geniş bir dil yelpazesini esas alarak kaynak gösterme, şiir ve şarkı yazma işlemlerini yapabilir.

Ermira "Mira" Murati, Arnavut mühendis, araştırmacı ve teknoloji yöneticisidir. 2018 yılından bu yana OpenAI'ın Baş Teknoloji Yöneticisi (CTO) olarak görev yapmaktadır.

Anthropic PBC, 2021 yılında kurulmuş ABD merkezli bir yapay zeka startup şirketi. Şirket, yapay zeka güvenliği ve güvenilirliği üzerine araştırmalar yapmakta ve bu araştırmaları genel kullanım için güvenli ve sağlam modeller geliştirmek için kullanmaktadır. Anthropic, OpenAI'ın ChatGPT ve Google'ın Gemini modellerine rakip olarak Claude adlı bir dizi geniş dil modelleri (LLM) geliştirmiştir.

Ideogram, 2022 yılında kurulmuş freemium üretken yapay zekâ web sitesi. Ideogram, kullanıcının verdiği talimata dayalı olarak bir metinden resme model yazılımı kullanmaktadır. Ideogram, benzer bir yapay zekâ aracı olan Midjourney ile büyük bir rakip olarak görülmektedir.

<span class="mw-page-title-main">Adobe Firefly</span>

Adobe Firefly, Adobe Creative Cloud'un bir parçası olarak sunulan üretken bir makine öğrenimi modeli. Şu anda açık beta aşamasında test edilmektedir.

Runway AI, Inc., New York City merkezli bir Amerikan şirketi. Üretken yapay zekâ alanında araştırma ve geliştirme üzerine kurulmuştur. Şirket, esas olarak video, görüntü ve çeşitli multimedya içerikleri üretmeye yönelik ürünler ve modeller geliştirmektedir. En dikkat çekici projeleri arasında metinden videoya üretken yapay zekâ modelleri olan Gen-1, Gen-2 ve Gen-3 Alpha yer almaktadır.