İçeriğe atla

Sufle mühendisliği

Sufle mühendisliği; yapay zekada, özellikle de doğal dil işlemede kullanılan bir kavramdır. Sufle mühendisliğinde görevin tanımı, girdiye gömülüdür. Sufle mühendisliği tipik olarak bir veya daha çok görevi sufle tabanlı bir veri kümesine dönüştürerek ve "sufle tabanlı öğrenme" veya sadece "sufle öğrenme" olarak adlandırılan yöntemle bir dil modelini eğiterek çalışır.[1][2] Sufle mühendisliği, "önek-ayarlama" veya "sufle ayarlama" olarak adlandırılan yöntemle yalnızca sufle temsilinin öğrenildiği büyük bir "dondurulmuş" ön eğitimli dil modelinden çalışabilir.[3][4]

GPT-2 ve GPT-3 dil modelleri,[5] sufle mühendisliğinde önemli adımlar olmuştur. 2021'de, birden çok DDİ veri kümesi kullanan çok görevli sufle mühendisliği, yeni görevlerde iyi performans göstermiştir.[6] Düşünce dizisi içeren sufleler, dil modellerinde akıl yürütmenin göstergesidir.[7] Sufleye "adım adım düşünelim" ifadesini eklemek çok adımlı akıl yürütme problemleriyle ilgili bir dil modelinin performansını artırabilir.[8]

2022 yılında, hem DALL-E hem de Stable Diffusion makine öğrenimi modelleri son kullanıcılara metinsel sufleleri kullanarak görüntü oluşturma olanağı sağlamıştır.[9]

Ayrıca bakınız

Kaynaklar

 

  1. ^ Alec Radford; Jeffrey Wu; Rewon Child; David Luan; Dario Amodei; Ilya Sutskever (2019), Language Models are Unsupervised Multitask Learners , Wikidata Q95726769
  2. ^ Pengfei Liu; Weizhe Yuan; Jinlan Fu; Zhengbao Jiang; Hiroaki Hayashi; Graham Neubig (28 Temmuz 2021), Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing, arXiv:2107.13586 $2 , Wikidata Q109286554
  3. ^ Xiang Lisa Li; Percy Liang (Ağustos 2021), "Prefix-Tuning: Optimizing Continuous Prompts for Generation", Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), doi:10.18653/V1/2021.ACL-LONG.353 , Wikidata Q110887424
  4. ^ Brian Lester; Rami Al-Rfou; Noah Constant (Kasım 2021), "The Power of Scale for Parameter-Efficient Prompt Tuning", Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, arXiv:2104.08691 $2, doi:10.18653/V1/2021.EMNLP-MAIN.243 , Wikidata Q110887400
  5. ^ Tom B. Brown; Benjamin Mann; Nick Ryder; Melanie Subbiah; Jared D Kaplan; Prafulla Dhariwal; Arvind Neelakantan; Pranav Shyam; Girish Sastry; Amanda Askell; Sandhini Agarwal; Ari Herbert-Voss; Gretchen Krueger; Tom Henighan; Rewon Child; Aditya Ramesh; Daniel Ziegler; Jeffrey Wu; Clemens Winter; Chris Hesse; Mark Chen; Eric Sigler; Mateusz Litwin; Scott Gray; Benjamin Chess; Jack Clark; Christopher Berner; Sam McCandlish; Alec Radford; Ilya Sutskever; Dario Amodei (28 Mayıs 2020), "Language Models are Few-Shot Learners", arXiv, Advances in Neural Information Processing Systems 33, arXiv:2005.14165 $2, doi:10.48550/ARXIV.2005.14165 , Wikidata Q95727440
  6. ^ Victor Sanh; Albert Webson; Colin Raffel; Stephen H. Bach; Lintang Sutawika; Zaid Alyafeai; Antoine Chaffin; Arnaud Stiegler; Teven Le Scao; Arun Raja; Manan Dey; M Saiful Bari; Canwen Xu; Urmish Thakker; Shanya Sharma Sharma; Eliza Szczechla; Taewoon Kim; Gunjan Chhablani; Nihal Nayak; Debajyoti Datta; Jonathan Chang; Mike Tian-Jian Jiang; Han Wang; Matteo Manica; Sheng Shen; Zheng Xin Yong; Harshit Pandey; Rachel Bawden; Thomas Wang; Trishala Neeraj; Jos Rozen; Abheesht Sharma; Andrea Santilli; Thibault Fevry; Jason Alan Fries; Ryan Teehan; Stella Biderman; Leo Gao; Tali Bers; Thomas Wolf; Alexander M. Rush (15 Ekim 2021), Multitask Prompted Training Enables Zero-Shot Task Generalization, arXiv:2110.08207 $2 , Wikidata Q108941092
  7. ^ Jason Wei; Xuezhi Wang; Dale Schuurmans; Maarten Bosma; Ed H. Chi; Quoc Viet Le; Dengyong Zhou (28 Ocak 2022), Chain of Thought Prompting Elicits Reasoning in Large Language Models, arXiv:2201.11903 $2, doi:10.48550/ARXIV.2201.11903 , Wikidata Q111971110
  8. ^ Takeshi Kojima; Shixiang Shane Gu; Machel Reid; Yutaka Matsuo; Yusuke Iwasawa (24 Mayıs 2022), Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916 $2, doi:10.48550/ARXIV.2205.11916 , Wikidata Q112124882
  9. ^ "Dall-E2 VS Stable Diffusion: Same Prompt, Different Results". MLearning.ai (İngilizce). 25 Ağustos 2022. 26 Ağustos 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Ağustos 2022.  Yazar |ad1= eksik |soyadı1= (yardım)

İlgili Araştırma Makaleleri

Programlama paradigmaları, programlama dillerini özelliklerine göre sınıflandırmanın bir yoludur. Diller birden fazla paradigma içinde sınıflandırılabilir.

Psikodilbilim veya ruhdilbilim, psikolojik süreçlerle dilsel etkenler arasındaki iletişimi çalışan disiplindir. Bu disiplin başat olarak dilin nasıl işlendiği, zihin ve beyinde nasıl temsillendiği ile ilgilenir; yani, insanların dili edinmesini, kullanmasını, anlamasını ve üretmesini sağlayan psikolojik ve nörobiyolojik faktörlerle...

<span class="mw-page-title-main">OpenAI</span> yapay zekâ araştırma şirketi

OpenAI, ABD merkezli yapay zekâ araştırma şirketi. Şirketin genel amacı insanlığa fayda sağlayabilecek yapay zekâ hakkında araştırma yapmaktır. 2015 yılının sonlarında San Francisco'da kurulan şirket, patentlerini ve araştırmalarını halka açık hale getirerek diğer kurum ve araştırmacılarla “serbest iş birliği yapmayı” amaçlamaktadır. Elon Musk ve Sam Altman, yapay genel zekâdan kaynaklanan varoluşsal risk endişelerinden dolayı bu şirketi kurduklarını açıklamıştır. Organizasyon 2015 yılında Sam Altman, Reid Hoffman, Jessica Livingston, Elon Musk, Ilya Sutskever, Peter Thiel ve diğerleri tarafından San Francisco’da kurulmuş ve toplamda 1 milyar dolar bağışta bulunulmuşlardır. Musk 2018 yılında yönetim kurulundan istifa etmiş ancak bağışçı olarak kalmıştır. Microsoft 2019 yılında OpenAI LP’ye 1 milyar dolarlık bir yatırım sağlamış ve Ocak 2023’te ikinci birçok yıllık yatırım sağlamıştır; bu ikinci yatırımın 10 milyar dolar olduğu bildirilmektedir. ChatGPT yazılı cevap veren botun yapımı da OpenAI’a aittir.

<span class="mw-page-title-main">Google DeepMind</span>

DeepMind Technologies, Alphabet Inc.'in bir yan kuruluşu olup, 2010'da kurulmuş bir İngiliz yapay zekâ program geliştirme şirketidir. DeepMind, 2014'te Google tarafından satın alınmıştır. Şirketin merkezi Londra'dadır ve Kanada, Fransa ve Amerika Birleşik Devletleri'nde araştırma merkezleri bulunmaktadır. 2015'te, Google'ın ana şirketi olan Alphabet Inc.'in tamamına sahip olduğu bir yan kuruluş oldu.

<span class="mw-page-title-main">Makine çevirisi</span>

MT kısaltmasıyla da anılan makine çevirisi, metin veya konuşmayı bir dilden diğerine çevirmek için yazılım kullanımını araştıran bilgisayarlı dilbilimin bir alt alanıdır.

Chatbot, kullanıcı ile genellikle metin, bazı durumlarda ise konuşma yoluyla diyalog kurarak bilgi veren veya bir işlemi gerçekleştiren bir yazılımdır.

Generative Pre-trained Transformer 3 kısaca GPT-3, insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan özbağlanımlı dil modelidir. GPT-n serisindeki üçüncü nesil dil tahmin modeli olan GPT-3, San Francisco merkezli yapay zeka araştırma laboratuvarı OpenAI tarafından geliştirilmiştir. GPT-3'ün tam sürümü, veri işleyecek 175 milyar parametreye sahiptir. Bu rakam GPT-2'nin öğrenme kapasitesinin 2 katıdır. 14 Mayıs 2020'de tanıtılan ve Temmuz 2020 itibarıyla beta aşamasında olan GPT-3, önceden öğretilmiş dil örnekleriyle doğal dil işleme (NLP) sistemini kullanmaktadır. GPT-3'ün piyasaya sürülmesinden önce, en büyük dil modeli Microsoft'un Şubat 2020'de tanıttığı ve GPT-3'ün %10'undan daha az kapasiteye sahip olan Turing NLG idi.

<span class="mw-page-title-main">DALL-E</span> Yapay zeka programı

DALL-E, 5 Ocak 2021'de OpenAI tarafından piyasa sürülen, metinsel tanımlardan görüntü oluşturan bir yapay zeka programıdır.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

<span class="mw-page-title-main">Vikişlev</span>

Vikişlev, kaynak kodunun oluşturulmasına, değiştirilmesine ve yeniden kullanılmasına izin vermeyi amaçlayan, ortaklaşa düzenlenmiş bir bilgisayar işlevleri kataloğudur. Yapılandırılmış verilerini kullanarak Vikipedi'nin dilden bağımsız bir sürümünü oluşturmayı amaçlayan Vikiveri'nin bir uzantısı olan Abstract Wikipedia ile yakından ilgilidir. Geçici olarak Wikilambda olarak adlandırılan Vikişlev'in kesin adı, 22 Aralık 2020'de bir adlandırma yarışmasının ardından açıklandı.

<span class="mw-page-title-main">ChatGPT</span> OpenAI tarafından geliştirilen yapay zekâ sohbet robotu

ChatGPT, OpenAI tarafından geliştirilen ve diyalog konusunda uzmanlaşmış bir yapay zeka sohbet botudur. Bu chatbot, denetimli ve takviyeli öğrenme teknikleriyle ince ayar yapılmış büyük bir dil modeline dayanır. ChatGPT'nin ilk versiyonu, GPT-3 temelli idi ve daha sonra gelişmiş sürümleri olan GPT-3.5 ve 14 Mart 2023'te GPT-4 ile güncellenmiştir ve ChatGPT Plus kullanıcıları için kullanılabilir durumdadır.

Dil modeli, kelimelerin dizileri üzerinde bir olasılık dağılımıdır. Herhangi bir uzunluktaki m kelimeler dizisi verildiğinde, bir dil modeli, tüm dizinin olasılığına bir olasılık atar .

<span class="mw-page-title-main">PaLM</span>

PaLM, Google AI tarafından geliştirilen 540 milyar parametreli dönüştürücü tabanlı büyük bir dil modelidir. Araştırmacılar ayrıca model ölçeğinin etkilerini test etmek için PaLM'ın daha küçük sürümlerini, 8 ve 62 milyar parametreli modellerini de yaptılar.

Nöral makine çevirisi (NMT), bir sözcük dizilim olasılığını tahmin etmek için yapay bir sinir ağı kullanan ve genellikle cümlenin tümünü tek bir entegre modelde modelleyen bir makine çevirisi yaklaşımıdır.

<span class="mw-page-title-main">Geniş dil modeli</span>

Geniş dil modeli - GDM, genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir dil modeli türüdür. GDM'ler bu yetenekleri, eğitilmeleri sırasında milyarlarca parametreyi öğrenebilmek amacıyla niceliksel olarak çok fazla veri kullanarak kazanırlar. Bu sırada da, aşırı büyük boyutta hesaplama kaynakları tüketirler. GDM'ler, gelişmiş olarak yapay sinir ağlarıdır ve özgözetimli öğrenme ya da yarı gözetimli öğrenme yöntemleri kullanılarak (önceden) eğitilirler.

<span class="mw-page-title-main">Yapay zekâ güvenliği</span>

Yapay zekâ güvenliği, yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.

<span class="mw-page-title-main">Önceden eğitilmiş üretken dönüştürücü</span> büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli ve Üretken yapay zekâ için öne çıkan bir çerçevedir. Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur. GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir. 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir ve bazen genel olarak GPT'ler olarak anılırlar.

Microsoft Copilot, Microsoft tarafından geliştirilen ve 7 Şubat 2023'te piyasaya sürülen bir sohbet robotudur. Geniş bir dil yelpazesini esas alarak kaynak gösterme, şiir ve şarkı yazma işlemlerini yapabilir.

Ilya Sutskever, Kanadalı makine öğrenimi araştırmacısı ve bilgisayar bilimci.

Wojciech Zaremba, Polonyalı bilgisayar bilimci ve OpenAI'ın kurucu ortağı. OpenAI'da Codex araştırma ve dil takımlarını yönetmektedir. Bu takım, bilgisayar kodu yazabilen yapay zeka üzerinde aktif olarak çalışmaktadır. Ayrıca, GPT serisi dil modelleri üzerinde de çalışmaktadır.