İçeriğe atla

PaLM

PaLM
Geliştirici(ler)Google AI
Erişilebilirlikİngilizce
TürGeniş dil modeli
Resmî sitesiai.google/discover/palm2/ Bunu Vikiveri'de düzenleyin

PaLM (Pathways Language Model), Google AI tarafından geliştirilen 540 milyar parametreli dönüştürücü tabanlı büyük bir dil modelidir.[1] Araştırmacılar ayrıca model ölçeğinin etkilerini test etmek için PaLM'ın daha küçük sürümlerini, 8 ve 62 milyar parametreli modellerini de yaptılar.

PaLM, sağduyulu akıl yürütme, aritmetik akıl yürütme, şaka açıklaması, kod oluşturma ve çeviri dahil olmak üzere çeşitli görevleri yerine getirebilir.[2][3][4][5] Düşünce zinciri yönlendirmesiyle birleştirildiğinde PaLM, kelime problemleri ve mantığa dayalı sorular gibi birden çok adımın akıl yürütmesini gerektiren veri kümelerinde önemli oranda iyi performans elde etti.[1][2]

Model ilk olarak Nisan 2022'de duyuruldu ve Google'ın PaLM ve diğer bazı teknolojiler için bir API başlattığı Mart 2023'e kadar gizli kaldı.[6] API halka açılmadan önce bekleme listesine katılan sınırlı sayıda geliştirici tarafından kullanılabilecek.[7]

Google ve DeepMind, PaLM 540B'nin Med-PaLM adlı tıbbi veriler üzerinde ince ayarı yapılmış ve tıbbi soru yanıtlama kapasitesinde önceki modellerden daha iyi performans gösteren bir sürüm geliştirdi.[8][9] Med-PaLM, ABD tıbbi ruhsatlandırma sorularından geçer puan alan ilk programdır ve hem çoktan seçmeli hem de açık uçlu soruları doğru yanıtlamanın yanı sıra muhakeme sağlar ve kendi yanıtlarını değerlendirebilir.[10]

Google ayrıca görüntü dönüştürücü kullanarak robotik manipülasyon için kullanılabilecek son teknoloji bir görüntü dili modeli olan PaLM-E'yi oluşturdu.[11][12] Model yeniden eğitime veya ince ayara ihtiyaç duymadan robotikteki görevleri rekabetçi bir şekilde gerçekleştirebilir.[13]

Mayıs 2023'te Google, yıllık Google I/O açılış konuşmasında PaLM 2'yi duyurdu.[14] PaLM 2'nin 3,6 trilyon token üzerinde eğitilmiş 340 milyar parametreli bir model olduğu bildirildi.[15]

Eğitim

PaLM, çeşitli doğal dil görevlerini ve kullanım durumlarını içeren 780 milyar belirteçlik yüksek kaliteli bir külliyat üzerinde önceden eğitilmiştir. Bu veri kümesi, filtrelenmiş web sayfalarını, kitapları, Wikipedia makalelerini, haber makalelerini, GitHub'daki açık kaynak havuzlarından elde edilen kaynak kodlarını ve sosyal medya konuşmalarını içerir.[1][2] Google'ın LaMDA modelini eğitmek için kullanılan veri kümesini temel alır.[2]

PaLM 540B, bugüne kadar açıklanan en büyük TPU yapılandırması olan bir model ve veri paralelliği kombinasyonu kullanılarak bağlanan, 768 ana bilgisayara bağlı her bölmede 3.072 TPU v4 yongası bulunan iki TPU v4 Bölmesi üzerinde eğitildi.[2][16] Toplam 6.144 çip kullanarak ve %57,8'lik bir donanım FLOP kullanımı sağlayarak bu ölçekte LLM'ler için elde edilen en yüksek eğitim verimliliği rekorunu kırdı: .[3]

Kaynakça

  1. ^ a b c Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com (İngilizce). 4 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  2. ^ a b c d e Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; ve diğerleri. (2022). "PaLM: Scaling Language Modeling with Pathways". arXiv:2204.02311 $2. 
  3. ^ a b "Google sets the bar for AI language models with PaLM". VentureBeat. 12 Nisan 2022. 21 Eylül 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  4. ^ "Google PaLM: Giant language AI can explain jokes". THE DECODER. 5 Nisan 2022. 19 Ekim 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  5. ^ "Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha". seekingalpha.com (İngilizce). 12 Aralık 2022. 12 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  6. ^ "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. 14 Mart 2023. 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  7. ^ "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications" (İngilizce). 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  8. ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; ve diğerleri. (2022). "Large Language Models Encode Clinical Knowledge". arXiv:2212.13138 $2. 
  9. ^ "MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor". The Medical Futurist. 17 Ocak 2023. 17 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  10. ^ "Our latest health AI research updates". Google (İngilizce). 14 Mart 2023. 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  11. ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; ve diğerleri. (2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 $2. 
  12. ^ Driess, Danny; Florence, Pete. "PaLM-E: An embodied multimodal language model". ai.googleblog.com (İngilizce). 10 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  13. ^ "Google's PaLM-E is a generalist robot brain that takes commands". Ars Technica (İngilizce). 7 Mart 2023. 7 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 
  14. ^ Lardinois, Frederic (10 Mayıs 2023). "Google launches PaLM 2, its next-gen large language model". TechCrunch. 10 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Mayıs 2023. 
  15. ^ Elias, Jennifer (16 Mayıs 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. 16 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mayıs 2023. 
  16. ^ "An empirical analysis of compute-optimal large language model training". www.deepmind.com (İngilizce). 13 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023. 

İlgili Araştırma Makaleleri

OpenAI, ABD merkezli yapay zekâ araştırma şirketi. Şirketin genel amacı insanlığa fayda sağlayabilecek yapay zekâ hakkında araştırma yapmaktır. 2015 yılının sonlarında San Francisco'da kurulan şirket, patentlerini ve araştırmalarını halka açık hale getirerek diğer kurum ve araştırmacılarla “serbest iş birliği yapmayı” amaçlamaktadır. Elon Musk ve Sam Altman, yapay genel zekâdan kaynaklanan varoluşsal risk endişelerinden dolayı bu şirketi kurduklarını açıklamıştır. Organizasyon 2015 yılında Sam Altman, Reid Hoffman, Jessica Livingston, Elon Musk, Ilya Sutskever, Peter Thiel ve diğerleri tarafından San Francisco’da kurulmuş ve toplamda 1 milyar dolar bağışta bulunulmuşlardır. Musk 2018 yılında yönetim kurulundan istifa etmiş ancak bağışçı olarak kalmıştır. Microsoft 2019 yılında OpenAI LP’ye 1 milyar dolarlık bir yatırım sağlamış ve Ocak 2023’te ikinci birçok yıllık yatırım sağlamıştır; bu ikinci yatırımın 10 milyar dolar olduğu bildirilmektedir. ChatGPT yazılı cevap veren botun yapımı da OpenAI’a aittir.

<span class="mw-page-title-main">Google DeepMind</span>

DeepMind Technologies, Alphabet Inc.'in bir yan kuruluşu olup, 2010'da kurulmuş bir İngiliz yapay zekâ program geliştirme şirketidir. DeepMind, 2014'te Google tarafından satın alınmıştır. Şirketin merkezi Londra'dadır ve Kanada, Fransa ve Amerika Birleşik Devletleri'nde araştırma merkezleri bulunmaktadır. 2015'te, Google'ın ana şirketi olan Alphabet Inc.'in tamamına sahip olduğu bir yan kuruluş oldu.

Med dili veya Medce, Medler tarafından konuşulmuş bir dildir. Ölü bir dil olan İran dillerinin Kuzeybatı İran dilleri kolu içinde sınıflandırılmıştır. Aynı kol içinde sınıflandırılan diğer diller Kürt dilleri, Goranice, Eski Azerice, Zazaca, Tatça, Mazenderanca, Gilanca ve Beluçça gibi dillerdir. Med dili İskit dilleri, Saka dili, Avestaca ve Eski Farsça ile birlikte Antik dönemde konuşulmuş İran dilleri arasında yer almaktadır.

<span class="mw-page-title-main">TensorFlow</span>

TensorFlow, makine öğrenimi için ücretsiz ve açık kaynaklı bir yazılım kütüphanesidir. Bir dizi görevde kullanılabilir, ancak derin sinir ağlarının eğitimi ve çıkarımına özel olarak odaklanmaktadır.

Sufle mühendisliği; yapay zekada, özellikle de doğal dil işlemede kullanılan bir kavramdır. Sufle mühendisliğinde görevin tanımı, girdiye gömülüdür. Sufle mühendisliği tipik olarak bir veya daha çok görevi sufle tabanlı bir veri kümesine dönüştürerek ve "sufle tabanlı öğrenme" veya sadece "sufle öğrenme" olarak adlandırılan yöntemle bir dil modelini eğiterek çalışır. Sufle mühendisliği, "önek-ayarlama" veya "sufle ayarlama" olarak adlandırılan yöntemle yalnızca sufle temsilinin öğrenildiği büyük bir "dondurulmuş" ön eğitimli dil modelinden çalışabilir.

<span class="mw-page-title-main">ChatGPT</span> OpenAI tarafından geliştirilen yapay zekâ sohbet robotu

ChatGPT, OpenAI tarafından geliştirilen ve diyalog konusunda uzmanlaşmış bir yapay zeka sohbet botudur. Bu chatbot, denetimli ve takviyeli öğrenme teknikleriyle ince ayar yapılmış büyük bir dil modeline dayanır. ChatGPT'nin ilk versiyonu, GPT-3 temelli idi ve daha sonra gelişmiş sürümleri olan GPT-3.5 ve 14 Mart 2023'te GPT-4 ile güncellenmiştir ve ChatGPT Plus kullanıcıları için kullanılabilir durumdadır.

<span class="mw-page-title-main">Metinden resme model</span>

Metinden görüntüye model, girdi olarak bir metin açıklamasını alan ve bu tanıma uyan bir görüntü üreten bir makine öğrenim modelidir. Bu tür modeller, derin sinir ağlarındaki geliştirmelerin bir sonucu olarak 2010'ların ortalarında geliştirilmeye başlandı. 2022'de OpenAI'dan DALL-E 2, Google Brain'den Imagen ve StabilityAI'den Stable Diffusion gibi metinden resme modellerin çıktıları, gerçek fotoğrafların ve insan çizimlerinin kalitesine yaklaşmaya başladı.

Dil modeli, kelimelerin dizileri üzerinde bir olasılık dağılımıdır. Herhangi bir uzunluktaki m kelimeler dizisi verildiğinde, bir dil modeli, tüm dizinin olasılığına bir olasılık atar .

GitHub Copilot, kullanıcıların kod yazma sürecinde yardımcı olan bulut tabanlı bir yapay zeka aracıdır. GitHub ve OpenAI tarafından geliştirilen araç, Visual Studio Code, Visual Studio, Neovim ve diğer entegre geliştirme ortamlarının (IDE'ler) kullanıcılarına destek vermek için tasarlanmıştır. GitHub Copilot, teknik önizleme için 29 Haziran 2021'de duyurulmuş ve daha sonra JetBrains pazarında bir eklenti olarak yayınlanmıştır. GitHub, Copilot'un kullanıcıların belgeleri okumak için harcadıkları süreyi azaltarak programcıların bilmedikleri kodlama çerçevelerinde ve dillerinde gezinmelerine olanak tanıdığını belirtmektedir.

Google AI, Google'ın yapay zeka ve makine öğrenimi alanındaki çalışmalarını yürüten ve geliştiren 2017 tarihinde kurulmuş bir teknoloji bölümüdür.

<span class="mw-page-title-main">Geniş dil modeli</span>

Geniş dil modeli - GDM, genel amaçlı olarak dili anlama ve üretme becerisiyle öne çıkan bir dil modeli türüdür. GDM'ler bu yetenekleri, eğitilmeleri sırasında milyarlarca parametreyi öğrenebilmek amacıyla niceliksel olarak çok fazla veri kullanarak kazanırlar. Bu sırada da, aşırı büyük boyutta hesaplama kaynakları tüketirler. GDM'ler, gelişmiş olarak yapay sinir ağlarıdır ve özgözetimli öğrenme ya da yarı gözetimli öğrenme yöntemleri kullanılarak (önceden) eğitilirler.

<span class="mw-page-title-main">XAI (şirket)</span>

X.AI Corp., xAI, isimleriyle yapay zeka endüstrisinde faaliyet gösteren Amerikan şirketidir. Elon Musk tarafından Mart 2023'te kurulmuştur. Belirtilen hedefi, "evrenin gerçek doğasını anlamak"tır. Çalışmaları Arasında "Grok", "PromptIDE" gibi yapay zeka ve SDK kuruluşları vardır.

<span class="mw-page-title-main">Yapay zekâ güvenliği</span>

Yapay zekâ güvenliği, yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.

Açık kaynaklı yapay zeka, açık kaynak yaklaşımının yapay zeka geliştirme alanında uygulanmasıdır.

Gemini dil modeli, Google DeepMind tarafından geliştirilmiş olan ve LaMDA ve PaLM 2'nin ardılı olarak hizmet veren çok modlu büyük dil modelleri ailesinin adıdır. Gemini Ultra, Gemini Pro ve Gemini Nano'dan oluşan bu ürün, OpenAI'nin GPT-4'üne rakip olarak konumlandırılarak 6 Aralık 2023'te duyurulmuştur. Aynı adı taşıyan üretken yapay zeka sohbet robotunun ardındaki esas gücü oluşturmaktadır.

<span class="mw-page-title-main">Önceden eğitilmiş üretken dönüştürücü</span> büyük dil modeli çeşidi

Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli ve Üretken yapay zekâ için öne çıkan bir çerçevedir. Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur. GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir. 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir ve bazen genel olarak GPT'ler olarak anılırlar.

Claude, Anthropic tarafından geliştirilen geniş kapsamlı dil modelleri ailesidir. İlk model Mart 2023'te piyasaya sürüldü. Mart 2024'te çıkan Claude 3 ise görselleri de analiz edebiliyor.

GPT-4o, OpenAI tarafından oluşturulan çok dilli, çok modlu, önceden eğitilmiş üretken dönüştürücüdür. OpenAI CTO'su Mira Murati önderliğinde 13 Mayıs 2024 tarihinde gerçekleştirilen canlı yayında duyurulmuş ve aynı gün yayınlanmıştır. GPT-4o ücretsiz olmakla birlikte, ChatGPT Plus aboneleri için 5 kat daha fazla kullanım limitine sahiptir. Metin, görüntü ve ses işleyebilmekte ve üretebilmektedir. API'si önceki GPT-4 Turbo'ya kıyasla iki kat daha hızlı ve yarı fiyatınadır.

Hugging Face, Inc., bir Fransız-Amerikan şirketi.. New York City merkezli olan şirket, makine öğrenimi kullanarak uygulamalar geliştirmek için hesaplama araçları sağlayan bir platform geliştirmektedir. Şirket, özellikle doğal dil işleme uygulamaları için geliştirilen transformer kütüphaneleri ile ve kullanıcıların makine öğrenimi modellerini, veri setlerini paylaşabildikleri ve çalışmalarını sergileyebildikleri platformuyla bilinmektedir.

<span class="mw-page-title-main">Adobe Firefly</span>

Adobe Firefly, Adobe Creative Cloud'un bir parçası olarak sunulan üretken bir makine öğrenimi modeli. Şu anda açık beta aşamasında test edilmektedir.