İçeriğe atla

Dil modeli

Dil modeli, kelimelerin dizileri üzerinde bir olasılık dağılımıdır. Herhangi bir uzunluktaki m kelimeler dizisi verildiğinde, bir dil modeli, tüm dizinin olasılığına bir olasılık atar .

Bu, doğal dil işleme, makine çevirisi, text-to-speech sistemleri ve diğer pek çok yapay zeka uygulamasında kullanılır. Dil modelleri, hem parametrik hem de non-parametrik olabilir. Parametrik dil modelleri, önceden belirlenmiş bir sayıda parametreye sahip bir yapay sinir ağı kullanırken, non-parametrik dil modelleri, önceden belirlenmemiş sayıda parametreye sahiptir.[1]

Bir dil modeli, bir kelimenin bir sonraki kelime olarak ne olacağına dair tahminler yapmak için kullanılabilir. Örneğin, bir dil modeli, "Bugün hava çok ____" gibi bir cümlede boşluğun ne olacağına dair bir tahminde bulunabilir. Dil modelleri, ayrıca metin üretimi için de kullanılabilir. Örneğin, bir dil modeli, belirli bir konuda yeni bir makale yazmak için kullanılabilir.

Dil modelleri, büyük ölçekli doğal dil verileri kullanılarak eğitilir. Bu veriler, metin belgeleri, makaleler, kitaplar ve web sayfaları gibi kaynaklardan toplanabilir. Bu verilerin kullanılması, dil modellerinin doğruluğunu artırır ve daha geniş bir kelime dağarcığına sahip olmalarını sağlar.

Dil modelleri, günümüzde birçok endüstride yaygın olarak kullanılmaktadır. Örneğin, bir dil modeli, bir metni otomatik olarak çevirmek veya bir metnin konusunu anlamak için kullanılabilir. Dil modelleri ayrıca, kişisel asistanlar gibi sesli kullanıcı arayüzleri için de kullanılabilir.[2]

Önde gelen dil modelleri

Önde gelen dil modelleri arasında PaLM, GLaM, LaMDA, Megatron-Turing NLG, DreamFusion/Imagen, Get3D, MineClip, BLOOM, GPT, GPT-2, GPT-3, GPT-3.5/ChatGPT/InstructGPT, GPT-NeoX-20B, BERT, OPT-175B, Point-E, RT-1, ERNIE-Code ve VALL-E dahil olmak üzere birçok önemli dil modeli sayılabilir. Bu modeller boyut, parametre ve amaçlanan uygulamalar açısından görüntü üretiminden metinden konuşmaya sentezine ve robot işletimine kadar çeşitlilik göstermektedir. BLOOM, birden fazla dilde ve programlama dilinde çalışan açık kaynaklı bir LM'dir.

Kaynakça

  1. ^ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing. 3rd. 22 Mayıs 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Mayıs 2022. 
  2. ^ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" 14 Ağustos 2022 tarihinde Wayback Machine sitesinde arşivlendi.. arXiv:1808.10000.

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

<span class="mw-page-title-main">Doğal dil işleme</span> bilgisayar bilimi ve dil bilimi alanı

Doğal Dil İşleme, yaygın olarak NLP olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır.

Psikodilbilim veya ruhdilbilim, psikolojik süreçlerle dilsel etkenler arasındaki iletişimi çalışan disiplindir. Bu disiplin başat olarak dilin nasıl işlendiği, zihin ve beyinde nasıl temsillendiği ile ilgilenir; yani, insanların dili edinmesini, kullanmasını, anlamasını ve üretmesini sağlayan psikolojik ve nörobiyolojik faktörlerle...

İstatistiksel makine çevirisi, iki dilli metin derlemlerinin incelenmesinden elde edilen parametrelerin kullanıldığı istatistiksel modelleri içeren bir makine çevirisi yaklaşımıdır. İstatiksel çeviri yöntemi, makine çevirisi disiplini içerisinde kural tabanlı makine çevirisi ve örnek tabanlı makine çevirisi yaklaşımlarına göre farklılık gösterir.

Parametrik istatistik, verilerin rastgele dağılım esasına uyduğunu kabul eden ve olasılık dağılımı parametrelerine göre çıkarımlar yapan istatistik dalıdır.

<span class="mw-page-title-main">Kelime çantası modeli</span>

Kelime çantası modeli doğal dil işleme ve enformasyon getiriminde kullanılan basitleştirici bir temsildir. Bu modelde bir metin kelimelerinin çantası (çoklukümesi) halinde temsil edilir, çoksallık tutulurken gramer ve hatta kelime sırası göz ardı edilir. Kelime çantası modeli bilgisayarla görmede de kullanılmıştır.

<span class="mw-page-title-main">Parametre</span> belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik

Parametre belirli bir sistemi tanımlamak veya sınıflandırmak için yardımcı olabilecek herhangi bir özellik. Parametre, sistemi tanımlarken veya performansını, durumunu değerlendirirken yararlı veya kritik olan bir sistem unsurudur.

<span class="mw-page-title-main">Hesaplamalı dilbilim</span>

Bilgisayarlı dilbilim veya hesaplamalı dilbilim, doğal dilin istatistiksel veya kural tabanlı modelleme yöntemleriyle ve hesaplamalı bir perspektif ile inceleyen disiplinler arası bir bilgisayar bilimi alanıdır.

Chatbot, kullanıcı ile genellikle metin, bazı durumlarda ise konuşma yoluyla diyalog kurarak bilgi veren veya bir işlemi gerçekleştiren bir yazılımdır.

<span class="mw-page-title-main">Konu modelleme</span> Toplanan belgelerin içindeki soyut konuları araştıran, metinlerin içerisindeki saklı anlamsal bağları araştıran bir çeşit istatistiksel model

Konu modelleme, makine öğrenimi ve doğal dil işlemede toplanan belgelerin içindeki soyut konuları araştıran bir çeşit istatistiksel modeldir. Konu modelleme, bir anlamda metinlerin içerisindeki saklı anlamsal bağları araştıran bir metin madenciliğidir.

Generative Pre-trained Transformer 3 kısaca GPT-3, insanların yazdığı metinlere benzer içerik üretmek için derin öğrenmeyi kullanan özbağlanımlı dil modelidir. GPT-n serisindeki üçüncü nesil dil tahmin modeli olan GPT-3, San Francisco merkezli yapay zeka araştırma laboratuvarı OpenAI tarafından geliştirilmiştir. GPT-3'ün tam sürümü, veri işleyecek 175 milyar parametreye sahiptir. Bu rakam GPT-2'nin öğrenme kapasitesinin 2 katıdır. 14 Mayıs 2020'de tanıtılan ve Temmuz 2020 itibarıyla beta aşamasında olan GPT-3, önceden öğretilmiş dil örnekleriyle doğal dil işleme (NLP) sistemini kullanmaktadır. GPT-3'ün piyasaya sürülmesinden önce, en büyük dil modeli Microsoft'un Şubat 2020'de tanıttığı ve GPT-3'ün %10'undan daha az kapasiteye sahip olan Turing NLG idi.

<span class="mw-page-title-main">Matematiksel istatistik</span> matematiksel yöntemlerin kullanıldığı olası istatistikler

Matematiksel istatistik, istatistiksel veri toplama tekniklerinin aksine, matematiğin bir dalı olan olasılık teorisinin istatistiğe uygulanmasıdır. Bunun için kullanılan özel matematiksel teknikler arasında matematiksel analiz, doğrusal cebir, stokastik analiz, diferansiyel denklemler ve ölçü teorisi bulunur.

<span class="mw-page-title-main">N-gram</span>

Hesaplamalı dilbilim ve olasılık alanlarında, bir n-gram, belirli bir metin veya konuşma örneğinden n öğenin bitişik bir dizisidir. Öğeler uygulamaya göre fonemler, heceler, harfler, kelimeler veya baz çiftleri olabilir. n-gramlar tipik olarak bir metinden veya konuşma korpusundan toplanır. Öğeler kelimeler olduğunda, n-gramlar zona olarak da adlandırılabilir.

İkidillilikte sözcük erişimi, ikidilli insanlar için zihinsel sözlüğün etkinleştirilmesi veya geri alınması sürecini inceleyen bir psikodilbilim alanıdır.

Sufle mühendisliği; yapay zekada, özellikle de doğal dil işlemede kullanılan bir kavramdır. Sufle mühendisliğinde görevin tanımı, girdiye gömülüdür. Sufle mühendisliği tipik olarak bir veya daha çok görevi sufle tabanlı bir veri kümesine dönüştürerek ve "sufle tabanlı öğrenme" veya sadece "sufle öğrenme" olarak adlandırılan yöntemle bir dil modelini eğiterek çalışır. Sufle mühendisliği, "önek-ayarlama" veya "sufle ayarlama" olarak adlandırılan yöntemle yalnızca sufle temsilinin öğrenildiği büyük bir "dondurulmuş" ön eğitimli dil modelinden çalışabilir.

<span class="mw-page-title-main">ChatGPT</span> OpenAI tarafından geliştirilen yapay zekâ sohbet robotu

ChatGPT, OpenAI tarafından geliştirilen ve diyalog konusunda uzmanlaşmış bir yapay zeka sohbet botudur. Bu chatbot, denetimli ve takviyeli öğrenme teknikleriyle ince ayar yapılmış büyük bir dil modeline dayanır. ChatGPT'nin ilk versiyonu, GPT-3 temelli idi ve daha sonra gelişmiş sürümleri olan GPT-3.5 ve 14 Mart 2023'te GPT-4 ile güncellenmiştir ve ChatGPT Plus kullanıcıları için kullanılabilir durumdadır.

<span class="mw-page-title-main">PaLM</span>

PaLM, Google AI tarafından geliştirilen 540 milyar parametreli dönüştürücü tabanlı büyük bir dil modelidir. Araştırmacılar ayrıca model ölçeğinin etkilerini test etmek için PaLM'ın daha küçük sürümlerini, 8 ve 62 milyar parametreli modellerini de yaptılar.

<span class="mw-page-title-main">Geniş dil modeli</span>

Geniş dil modeli - GDM, genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir dil modeli türüdür. GDM'ler bu yetenekleri, eğitilmeleri sırasında milyarlarca parametreyi öğrenebilmek amacıyla niceliksel olarak çok fazla veri kullanarak kazanırlar. Bu sırada da, aşırı büyük boyutta hesaplama kaynakları tüketirler. GDM'ler, gelişmiş olarak yapay sinir ağlarıdır ve özgözetimli öğrenme ya da yarı gözetimli öğrenme yöntemleri kullanılarak (önceden) eğitilirler.

<span class="mw-page-title-main">Önceden eğitilmiş üretken dönüştürücü</span> büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli ve Üretken yapay zekâ için öne çıkan bir çerçevedir. Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur. GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir. 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir ve bazen genel olarak GPT'ler olarak anılırlar.

Otomatik özetleme, yapay zekâ ve doğal dil işleme tekniklerini kullanarak metinlerin ana fikirlerini ve önemli bilgilerini otomatik olarak çıkarma ve kısaltma işlemidir. Bu işlem, insan müdahalesi olmadan metnin özünü yakalayan kısa ve öz bir özet oluşturmayı amaçlar.