İçeriğe atla

DALL-E

Kontrol Edilmiş
DALL-E
"Zürafadan yapılmış ejderha" metni yazıldığında DALL-E'nin ürettiği görseller.
Orijinal yazar(lar)OpenAI
İlk yayınlanma5 Ocak 2021 (3 yıl önce) (2021-01-05)
TürDönüştürücü dil modeli
Resmî sitesiopenai.com/blog/dall-e/

DALL-E (ya da DALL·E), 5 Ocak 2021'de OpenAI tarafından piyasa sürülen, metinsel tanımlardan görüntü oluşturan bir yapay zeka programıdır.

Adını ünlü ressam Salvador Dali ve WALL-E adlı animasyon robottan almıştır.[1] Program, doğal dil girdilerini (örneğin "beşgen şekilli yeşil deri çanta" veya "üzgün bir kapibaranın izometrik görünümü") tanımlamak için GPT-3 modelinin 12 milyar parametreden oluşan[2] sürümünü kullanır ve dil girdisine karşılık gelen görüntüyü oluşturur. Gerçekçi nesnelerin ("mavi çilek resimli vitray bir pencere") ve gerçekte var olmayan nesnelerin ("kirpi dokusuna sahip bir küp") görüntülerini oluşturabilir.

Tarihçe

DALL-E OpenAI tarafından 5 Ocak 2021'de piyasaya sürüldü.[3][4] Nisan 2022'de OpenAI, çıktıdaki görselde basit değişiklikler yapılmasına olanak sağlayan düzenleyiciyle birlikte metin açıklamalarından daha gerçekçi görüntüler üretebileceğini iddia ederek DALL-E 2'yi duyurdu. Duyuru itibarıyla, yazılımın hala yapım aşamasında olduğu ve erişimin önceden seçilmiş beta kullanıcıları ile sınırlı olduğu açıklandı. Modelin, hiçbir insanın yapmayacağı hatalar da dahil olmak üzere hala ciddi hatalar yapabildiği belirtildi.[5] DALL-E 2, "metin açıklamasından orijinal, gerçekçi görüntüler ve sanat oluşturabilen, kavramları, nitelikleri ve stilleri birleştirebilen" bir model olarak tanımlandı.[6]

CLIP

DALL-E, CLIP (Contrastive Language-Image Pre-training) ile birlikte geliştirilmiş ve duyurulmuştur.[4] Amacı, çıktıyı "anlamak ve sıralamak" olan ayrı bir modeldir.[3] DALL-E'nin oluşturduğu görseller, herhangi bir girdi için en yüksek kaliteli görüntüleri sunan CLIP tarafından küratörlüğünü yapar.[4]

Ayrıca bakınız

Kaynakça

  1. ^ "DALL-E Dijital Ressam". Bilim ve Teknik Dergisi. Şubat 2021. 26 Şubat 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Şubat 2021. 
  2. ^ "OpenAI debuts DALL-E for generating images from text". VentureBeat. 5 Ocak 2021. 6 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Ocak 2021. 
  3. ^ a b "OpenAI's DALL-E creates plausible images of literally anything you ask it to". 5 Ocak 2021. 5 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Ocak 2021. 
  4. ^ a b c "This avocado armchair could be the future of AI". MIT Technology Review. 5 Ocak 2021. 5 Ocak 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Ocak 2021. 
  5. ^ KAHN, JEREMY (6 Nisan 2022). "Move over Photoshop: OpenAI has just revolutionized digital image making". Fortune (İngilizce). 10 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Nisan 2022. 
  6. ^ "DALL·E 2". OpenAI (İngilizce). 6 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 6 Nisan 2022. 

Kitaplar

  • Jens Knappe: Genesis. A Creation Story in Cooperation with an Artificial Intelligence, Berlin 2022, ISBN 978-3-940948-45-8.

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

OpenAI, ABD merkezli yapay zekâ araştırma şirketi. Şirketin genel amacı insanlığa fayda sağlayabilecek yapay zekâ hakkında araştırma yapmaktır. 2015 yılının sonlarında San Francisco'da kurulan şirket, patentlerini ve araştırmalarını halka açık hale getirerek diğer kurum ve araştırmacılarla “serbest iş birliği yapmayı” amaçlamaktadır. Elon Musk ve Sam Altman, yapay genel zekâdan kaynaklanan varoluşsal risk endişelerinden dolayı bu şirketi kurduklarını açıklamıştır. Organizasyon 2015 yılında Sam Altman, Reid Hoffman, Jessica Livingston, Elon Musk, Ilya Sutskever, Peter Thiel ve diğerleri tarafından San Francisco’da kurulmuş ve toplamda 1 milyar dolar bağışta bulunulmuşlardır. Musk 2018 yılında yönetim kurulundan istifa etmiş ancak bağışçı olarak kalmıştır. Microsoft 2019 yılında OpenAI LP’ye 1 milyar dolarlık bir yatırım sağlamış ve Ocak 2023’te ikinci birçok yıllık yatırım sağlamıştır; bu ikinci yatırımın 10 milyar dolar olduğu bildirilmektedir. ChatGPT yazılı cevap veren botun yapımı da OpenAI’a aittir.

<span class="mw-page-title-main">Google DeepMind</span>

DeepMind Technologies, Alphabet Inc.'in bir yan kuruluşu olup, 2010'da kurulmuş bir İngiliz yapay zekâ program geliştirme şirketidir. DeepMind, 2014'te Google tarafından satın alınmıştır. Şirketin merkezi Londra'dadır ve Kanada, Fransa ve Amerika Birleşik Devletleri'nde araştırma merkezleri bulunmaktadır. 2015'te, Google'ın ana şirketi olan Alphabet Inc.'in tamamına sahip olduğu bir yan kuruluş oldu.

<span class="mw-page-title-main">Geoffrey Hinton</span> İngiliz-Kanadalı bilgisayar uzmanı ve psikolog

Geoffrey Everest Hinton, İngiliz-Kanadalı bilişsel ruhbilimci ve bilgisayar bilimcisi. Yapay sinir ağları konusundaki çalışmalarıyla tanınan Hinton 2013'te Google Brain projesine katılmıştır. 2018 Turing Ödülü'nü Yoshua Bengio ve Yann LeCun'la birlikte almaya hak kazanmıştır.

<span class="mw-page-title-main">Bilgisayarlı görü</span> görsellerden veri bilgisi çıkartmak

Bilgisayarlı görü, bilgisayarların dijital görüntülerden veya videolardan nasıl bir anlam kazanabileceğiyle ilgilenen disiplinler arası bilimsel bir alandır. Mühendislik yöntemleriyle, insan görsel sisteminin yapabileceği görevleri anlamaya ve otomatikleştirmeye çalışmaktadır.

<span class="mw-page-title-main">Midjourney</span>

Midjourney, metinsel açıklamalardan görüntüler oluşturan yapay zeka programının adıdır. Araç, günümüzde beta aşamasındadır. Program, İngiliz dergisi The Economist tarafından Haziran 2022'deki bir sayının ön kapağını oluşturmak için kullanıldı.

<span class="mw-page-title-main">ChatGPT</span> OpenAI tarafından geliştirilen yapay zekâ sohbet robotu

ChatGPT, OpenAI tarafından geliştirilen ve diyalog konusunda uzmanlaşmış bir yapay zeka sohbet botudur. Bu chatbot, denetimli ve takviyeli öğrenme teknikleriyle ince ayar yapılmış büyük bir dil modeline dayanır. ChatGPT'nin ilk versiyonu, GPT-3 temelli idi ve daha sonra gelişmiş sürümleri olan GPT-3.5 ve 14 Mart 2023'te GPT-4 ile güncellenmiştir ve ChatGPT Plus kullanıcıları için kullanılabilir durumdadır.

<span class="mw-page-title-main">Metinden resme model</span>

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı.

<span class="mw-page-title-main">Gemini</span> yapay zeka sohbet botu

Gemini ya da eski adıyla Bard, Google AI tarafından geliştirilen ve 21 Mart 2023'te yayınlanan bir sohbet robotudur. Google'ın LaMDA dil ailesini kullanan Gemini; şu anda 200'den fazla ülkede yayın yapmakta, 40'tan fazla dilde kullanılabilmektedir.

<span class="mw-page-title-main">Üretken yapay zekâ</span>

Üretken yapay zekâ, bilgisayar sistemlerinin metin, görüntü, ses gibi farklı veri türlerini işleyerek orijinal içerik oluşturmasına yarayan bir yapay zekâ teknolojisi dalıdır.

<span class="mw-page-title-main">XAI (şirket)</span>

X.AI Corp., xAI, isimleriyle yapay zeka endüstrisinde faaliyet gösteren Amerikan şirketidir. Elon Musk tarafından Mart 2023'te kurulmuştur. Belirtilen hedefi, "evrenin gerçek doğasını anlamak"tır. Çalışmaları Arasında "Grok", "PromptIDE" gibi yapay zeka ve SDK kuruluşları vardır.

<span class="mw-page-title-main">Yapay zeka patlaması</span>

Yapay Zeka Patlaması, veya Yapay Zeka Baharı, yapay zeka alanında çok hızlı bir şekilde devam eden ilerleme dönemidir. Öne çıkan örnekler arasında Google DeepMind ve OpenAI gibi laboratuvarlar tarafından yürütülen üretken yapay zekalar yer almaktadır.

<span class="mw-page-title-main">Yapay zekâ güvenliği</span>

Yapay zekâ güvenliği, yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.

Açık kaynaklı yapay zeka, açık kaynak yaklaşımının yapay zeka geliştirme alanında uygulanmasıdır.

Gemini dil modeli, Google DeepMind tarafından geliştirilmiş olan ve LaMDA ve PaLM 2'nin ardılı olarak hizmet veren çok modlu büyük dil modelleri ailesinin adıdır. Gemini Ultra, Gemini Pro ve Gemini Nano'dan oluşan bu ürün, OpenAI'nin GPT-4'üne rakip olarak konumlandırılarak 6 Aralık 2023'te duyurulmuştur. Aynı adı taşıyan üretken yapay zeka sohbet robotunun ardındaki esas gücü oluşturmaktadır.

<span class="mw-page-title-main">Önceden eğitilmiş üretken dönüştürücü</span> büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli ve Üretken yapay zekâ için öne çıkan bir çerçevedir. Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur. GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir. 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir ve bazen genel olarak GPT'ler olarak anılırlar.

Microsoft Copilot, Microsoft tarafından geliştirilen ve 7 Şubat 2023'te piyasaya sürülen bir sohbet robotudur. Geniş bir dil yelpazesini esas alarak kaynak gösterme, şiir ve şarkı yazma işlemlerini yapabilir.

Anthropic PBC, 2021 yılında kurulmuş ABD merkezli bir yapay zeka startup şirketi. Şirket, yapay zeka güvenliği ve güvenilirliği üzerine araştırmalar yapmakta ve bu araştırmaları genel kullanım için güvenli ve sağlam modeller geliştirmek için kullanmaktadır. Anthropic, OpenAI'ın ChatGPT ve Google'ın Gemini modellerine rakip olarak Claude adlı bir dizi geniş dil modelleri (LLM) geliştirmiştir.

Figure AI, Inc., ABD merkezli bir robotik şirketi. Şirket, yapay zeka destekli insansı robotların geliştirilmesi konusunda çalışmalar yapmaktadır. Şirket, 2022 yılında, Archer Aviation ve Vettery'nin kurucusu Brett Adcock tarafından kurulmuştur. Figure AI'ın ekibi, robotik, yapay zeka, algılama, algı ve navigasyon gibi alanlarda uzmanlardan oluşmaktadır ve Boston Dynamics ve Tesla gibi önde gelen şirketlerden deneyimli kişileri bir arada tutmaktadır.

o1, OpenAI tarafından geliştirilen ve çok adımlı problemleri analiz edebilme yeteneğine sahip önceden eğitilmiş üretken dönüştürücü yapay zekâ modeli. 12 Eylül 2024 tarihinde duyurulmuştur.