PaLM
Geliştirici(ler) | Google AI |
---|---|
Erişilebilirlik | İngilizce |
Tür | Geniş dil modeli |
Resmî sitesi | ai |
PaLM (Pathways Language Model), Google AI tarafından geliştirilen 540 milyar parametreli dönüştürücü tabanlı büyük bir dil modelidir.[1] Araştırmacılar ayrıca model ölçeğinin etkilerini test etmek için PaLM'ın daha küçük sürümlerini, 8 ve 62 milyar parametreli modellerini de yaptılar.
PaLM, sağduyulu akıl yürütme, aritmetik akıl yürütme, şaka açıklaması, kod oluşturma ve çeviri dahil olmak üzere çeşitli görevleri yerine getirebilir.[2][3][4][5] Düşünce zinciri yönlendirmesiyle birleştirildiğinde PaLM, kelime problemleri ve mantığa dayalı sorular gibi birden çok adımın akıl yürütmesini gerektiren veri kümelerinde önemli oranda iyi performans elde etti.[1][2]
Model ilk olarak Nisan 2022'de duyuruldu ve Google'ın PaLM ve diğer bazı teknolojiler için bir API başlattığı Mart 2023'e kadar gizli kaldı.[6] API halka açılmadan önce bekleme listesine katılan sınırlı sayıda geliştirici tarafından kullanılabilecek.[7]
Google ve DeepMind, PaLM 540B'nin Med-PaLM adlı tıbbi veriler üzerinde ince ayarı yapılmış ve tıbbi soru yanıtlama kapasitesinde önceki modellerden daha iyi performans gösteren bir sürüm geliştirdi.[8][9] Med-PaLM, ABD tıbbi ruhsatlandırma sorularından geçer puan alan ilk programdır ve hem çoktan seçmeli hem de açık uçlu soruları doğru yanıtlamanın yanı sıra muhakeme sağlar ve kendi yanıtlarını değerlendirebilir.[10]
Google ayrıca görüntü dönüştürücü kullanarak robotik manipülasyon için kullanılabilecek son teknoloji bir görüntü dili modeli olan PaLM-E'yi oluşturdu.[11][12] Model yeniden eğitime veya ince ayara ihtiyaç duymadan robotikteki görevleri rekabetçi bir şekilde gerçekleştirebilir.[13]
Mayıs 2023'te Google, yıllık Google I/O açılış konuşmasında PaLM 2'yi duyurdu.[14] PaLM 2'nin 3,6 trilyon token üzerinde eğitilmiş 340 milyar parametreli bir model olduğu bildirildi.[15]
Eğitim
PaLM, çeşitli doğal dil görevlerini ve kullanım durumlarını içeren 780 milyar belirteçlik yüksek kaliteli bir külliyat üzerinde önceden eğitilmiştir. Bu veri kümesi, filtrelenmiş web sayfalarını, kitapları, Wikipedia makalelerini, haber makalelerini, GitHub'daki açık kaynak havuzlarından elde edilen kaynak kodlarını ve sosyal medya konuşmalarını içerir.[1][2] Google'ın LaMDA modelini eğitmek için kullanılan veri kümesini temel alır.[2]
PaLM 540B, bugüne kadar açıklanan en büyük TPU yapılandırması olan bir model ve veri paralelliği kombinasyonu kullanılarak bağlanan, 768 ana bilgisayara bağlı her bölmede 3.072 TPU v4 yongası bulunan iki TPU v4 Bölmesi üzerinde eğitildi.[2][16] Toplam 6.144 çip kullanarak ve %57,8'lik bir donanım FLOP kullanımı sağlayarak bu ölçekte LLM'ler için elde edilen en yüksek eğitim verimliliği rekorunu kırdı: .[3]
Kaynakça
- ^ a b c Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com (İngilizce). 4 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ a b c d e Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; ve diğerleri. (2022). "PaLM: Scaling Language Modeling with Pathways". arXiv:2204.02311 $2.
- ^ a b "Google sets the bar for AI language models with PaLM". VentureBeat. 12 Nisan 2022. 21 Eylül 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "Google PaLM: Giant language AI can explain jokes". THE DECODER. 5 Nisan 2022. 19 Ekim 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "Google: Why Is No One Talking About PaLM (NASDAQ:GOOG) | Seeking Alpha". seekingalpha.com (İngilizce). 12 Aralık 2022. 12 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. 14 Mart 2023. 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications" (İngilizce). 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; ve diğerleri. (2022). "Large Language Models Encode Clinical Knowledge". arXiv:2212.13138 $2.
- ^ "MedPaLM: New Chatbots Will Soon Be Better Than Waiting For A Doctor". The Medical Futurist. 17 Ocak 2023. 17 Ocak 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "Our latest health AI research updates". Google (İngilizce). 14 Mart 2023. 14 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; ve diğerleri. (2023). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 $2.
- ^ Driess, Danny; Florence, Pete. "PaLM-E: An embodied multimodal language model". ai.googleblog.com (İngilizce). 10 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ "Google's PaLM-E is a generalist robot brain that takes commands". Ars Technica (İngilizce). 7 Mart 2023. 7 Mart 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.
- ^ Lardinois, Frederic (10 Mayıs 2023). "Google launches PaLM 2, its next-gen large language model". TechCrunch. 10 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 10 Mayıs 2023.
- ^ Elias, Jennifer (16 Mayıs 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. 16 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 18 Mayıs 2023.
- ^ "An empirical analysis of compute-optimal large language model training". www.deepmind.com (İngilizce). 13 Nisan 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 17 Mart 2023.