İçeriğe atla

Nöral makine çevirisi

Nöral makine çevirisi (NMT), bir sözcük dizilim olasılığını tahmin etmek için yapay bir sinir ağı kullanan ve genellikle cümlenin tümünü tek bir entegre modelde modelleyen bir makine çevirisi yaklaşımıdır.

Özellikler

Geleneksel istatistiksel makine çevirisi (SMT) modellerinin ihtiyaç duyduğu belleğin yalnızca bir kısmını gerektirirler. Ayrıca, geleneksel çeviri sistemlerinden farklı olarak, sinirsel çeviri modelinin tüm parçaları, çeviri performansını en üst düzeye çıkarmak için birlikte (uçtan uca) eğitilirler.

Tarih

Derin öğrenme uygulamaları ilk olarak konuşma tanımada 1990'larda ortaya çıktı. Makine çevirisinde sinir ağlarının kullanımına ilişkin ilk bilimsel makale, Bahdanau vd ile Sutskever ve diğerlerinin uçtan uca sinir ağı çeviri modelleri önerdiği ve "sinirsel makine çevirisi" terimini kullandığı 2014 yılında ortaya çıkmıştır.[R 1][R 2] İlk büyük ölçekli NMT sistemi, 2015 yılında Baidu tarafından piyasaya sürüldü. Ertesi yıl Google da bir NMT sistemi başlattı.[1] Bunu takip eden birkaç yılda birçok gelişme izledi. (Geniş kelime dağarcığı olan NMT, Resim yazısı uygulaması, Alt Kelime-NMT, Çok Dilli NMT, Çok Kaynaklı NMT....) 2015 yılında halka açık bir makine çevirisi yarışmasında (OpenMT'15) ilk kez bir NMT sistemi ortaya çıktı. WMT'15 ayrıca ilk kez bir NMT yarışmacısına sahipti; zaten ertesi yıl kazananların % 90'ı NMT sistemlerine sahipti.

Avrupa Patent Ofisi, 2017'den beri küresel patent sistemindeki bilgileri anında erişilebilir kılmak için nöral makine çevirisi kullanmaktadır. Google ile ortaklaşa geliştirilen sistem 31 dil ile eşleştirilmiş ve 2018 yılı itibarıyla dokuz milyonun üzerinde dokümanı çevirmiştir.

Çalışmalar

NMT, ayrı tasarlanmış alt bileşenler kullanan "ifade tabanlı" istatistiksel yaklaşımlardan ayrılır. Nöral makine çevirisi, geleneksel olarak yapılan (SMT) ötesinde ciddi bir adım değildir. Ana çıkış noktası, kelimeler ve iç durumlar için vektör temsillerinin ("gömmeler", "sürekli uzay temsilleri") kullanılmasıdır. Modellerin yapısı cümle tabanlı modellere göre daha basittir. Ayrı bir dil modeli, çeviri modeli ve yeniden sıralama modeli yoktur, yalnızca her seferinde bir kelimeyi tahmin eden tek bir dizilim modeli vardır. Bununla birlikte, dizilim tahmini, kaynak cümle ve üretilmiş hedef dizinin tamamına bağlıdır. NMT modelleri derin ve temsili öğrenmeyi kullanır.

Başta, dizilim modellemesi tipik olarak tekrarlayan bir sinir ağı (RNN) kullanılarak yapıldı. Kodlayıcı olarak bilinen çift yönlü yinelenen sinir ağı, sinir ağı tarafından hedef dildeki kelimeleri tahmin etmek için kullanılan kod çözücü olarak bilinen ikinci bir RNN için, kaynak cümleyi kodlamak üzere kullanılır. Tekrarlayan sinir ağları, uzun girdileri tek bir vektöre kodlamada zorluklarla karşılaşır. Bu, dekoderin çıktının her kelimesini üretirken girdinin farklı bölümlerine odaklanmasını sağlayan bir dikkat mekanizması ile telafi edilebilir. Aşırı veya eksik çeviriye yol açan geçmiş hizalama bilgilerinin göz ardı edilmesi gibi, bu tür dikkat mekanizmalarındaki sorunları ele alan başka Kapsama Modelleri de vardır.[2]

Konvolüsyonel Sinir Ağları (Convnet's) prensipte uzun dizilimler için biraz daha iyiydi, ancak birkaç zayıflık nedeniyle başta kullanılmamıştır. Bu zayıflıklar 2017 yılında "dikkat mekanizmaları" kullanılarak başarıyla telafi edildi.

"Dikkat tabanlı" bir model olan Transformer, birkaç dil çifti için baskın mimari olmaya devam ediyor.[3] Transformer modelinin öz-dikkat katmanları, eşleştirilmiş dizilerdeki sözcükler arasındaki tüm bağlantıları inceleyerek ve bu ilişkileri doğrudan modelleyerek bir dizideki sözcükler arasındaki bağımlılıkları öğrenir. RNN'lerin kullandığı geçiş mekanizmasından daha basit bir yaklaşım. Sadeliği, araştırmacıların düşük kaynak ayarlarında bile Transformer modeliyle yüksek kaliteli çeviri modelleri geliştirmelerini sağladı.

Uygulamalar

NMT için bir uygulama, eğitim için yalnızca az miktarda veri ve örnek bulunan Akadca, onun lehçeleri, Babilce ve Asurca gibi eski dillerdir.[4]

Notlar

  1. ^ Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
  2. ^ Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

Kaynakça

  1. ^ Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
  2. ^ Tu. "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 $2. 
  3. ^ Barrault (Ağustos 2019). "Findings of the 2019 Conference on Machine Translation (WMT19)". Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics: 1-61. doi:10.18653/v1/W19-5301. Erişim tarihi: 2 Ağustos 2023. 
  4. ^ Gutherz, Gai; Gordin, Shai (2 Mayıs 2023). "Translating Akkadian to English with neural machine translation". PNAS Nexus (İngilizce). 2 (5). doi:10.1093/pnasnexus/pgad096. ISSN 2752-6542. PMC 10153418 $2. PMID 37143863. 27 Mayıs 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2023. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

Çeviri ya da tercüme, bir dildeki bir metnin başka bir dile aktarılması işlemini ve bu süreç sonucunda elde edilen ürünü anlatmak amacıyla kullanılır.

<span class="mw-page-title-main">Google Çeviri</span> Çeviri aracı

Google Çeviri, İnternet sayfalarını, metinleri veya yüklemiş olduğunuz belgeleri ücretsiz çeviren bir araçtır. Google tarafından sağlanır. İlk olarak 28 Nisan 2006 tarihinde, Arapça ile İngilizce arası çeviri yaparak hizmete girmiştir. Bir web arayüzü, Android ve iOS için mobil uygulamalar, geliştiricilere tarayıcı eklentisi ve yazılım uygulamaları oluşturmada yardımcı olan bir API sunar. Google Translate, çeşitli seviyelerde 100'den fazla dili destekliyor ve Mayıs 2013 itibarıyla günlük 200 milyondan fazla kişiye hizmet veriyor.

<span class="mw-page-title-main">Makine öğrenimi</span> algoritmaların ve istatistiksel modellerin kullanımıyla bilgisayarların yapacakları işleri kendileri çözebilmeleri

Makine öğrenimi (ML), veriden öğrenebilen ve görünmeyen verilere genelleştirebilen ve dolayısıyla açık talimatlar olmadan görevleri yerine getirebilen istatistiksel algoritmaların geliştirilmesi ve incelenmesiyle ilgilenen, yapay zekâda akademik bir disiplindir. Makine öğrenimi, bilgisayarların deneyimlerinden öğrenerek karmaşık görevleri otomatikleştirmeyi sağlayan bir yapay zeka alanıdır. Bu, veri analizi yaparak örüntüler tespit etme ve tahminlerde bulunma yeteneğine dayanır. Son zamanlarda yapay sinir ağları, performans açısından önceki birçok yaklaşımı geride bırakmayı başardı.

İstatistiksel makine çevirisi, iki dilli metin derlemlerinin incelenmesinden elde edilen parametrelerin kullanıldığı istatistiksel modelleri içeren bir makine çevirisi yaklaşımıdır. İstatiksel çeviri yöntemi, makine çevirisi disiplini içerisinde kural tabanlı makine çevirisi ve örnek tabanlı makine çevirisi yaklaşımlarına göre farklılık gösterir.

<span class="mw-page-title-main">Apertium</span>

Apertium, kurallara dayanan bir makine çeviri platformudur. Bu bir özgür yazılımdır ve GNU General Public License şartları altında yayımlanmıştır.

<span class="mw-page-title-main">Gözetimli öğrenme</span>

Gözetimli öğrenme ya da denetimli öğrenme, bilinen etiketler ve özellikler kullanarak bir fonksiyon öğrendiğimiz, makine öğreniminin önemli bir alt dalıdır. Bu yöntem, eğitim veri seti kullanılarak öğrenilen modelin, yeni ve bilinmeyen veri noktalarını doğru bir şekilde tahmin etmesini amaçlar.

Uyarlamalı ağ tabanlı bulanık çıkarım sistemi, Takagi-Sugeno bulanık çıkarım sistemine dayalı bir tür yapay sinir ağı yöntemi. Jang tarafından 1990’ların başlarında geliştirilmiş olup doğrusal olmayan fonksiyonların modellenmesinde ve kaotik zaman serilerinin tahmininde kullanılmıştır.

<span class="mw-page-title-main">Makine çevirisi</span>

MT kısaltmasıyla da anılan makine çevirisi, metin veya konuşmayı bir dilden diğerine çevirmek için yazılım kullanımını araştıran bilgisayarlı dilbilimin bir alt alanıdır.

<span class="mw-page-title-main">Microsoft Tercüman</span> çok dilli bir makine çeviri bulut hizmeti

Microsoft Tercüman, Microsoft tarafından sağlanan çok dilli bir makine çeviri bulut hizmetidir. Microsoft Translator API-si, birden fazla tüketici, geliştirici ve kurumsal ürüne entegre edilmiştir; Bing, Microsoft Office, SharePoint, Skype for Business, Yammer, Skype Translator, Visual Studio, Internet Explorer, Windows Phone, iPhone ve Apple Watch ve Android telefonu ve Android Wear için Microsoft Tercüman uygulamaları.

<span class="mw-page-title-main">Derin öğrenme</span> Makine öğreniminin bir branşı

Derin öğrenme bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

<span class="mw-page-title-main">Google Nöral Makine Çevirisi</span> Google tarafından Google Çevirinin akıcılığını ve duyarlılığını artırmak için geliştirilen sistem

Google Nöral Makine Çevirisi (GNMT), Google tarafından geliştirilen ve Google Çeviri’nin akıcılığını ve doğruluğunu artırmak için yapay bir sinir ağı kullanan, Kasım 2016’da tanıtılan bir yapay sinir ağları (NMT) sistemidir.

Evrişimsel sinir ağları, derin öğrenmenin bir alt dalıdır ve genellikle görsel bilginin analiz edilmesinde kullanılır. Yaygın kullanım alanları resim ve video tanıma, önerici sistemler resim sınıflandırma, tıbbi görüntü analizi ve doğal dil işleme olarak sıralanabilir.

Nesne tespiti bilgisayarla görü ve görüntü işleme ile ilgili bilgisayar teknolojisi

Nesne tespiti, dijital görüntülerde ve videolarda belirli bir sınıftaki anlamsal nesnelerin örneklerini algılamakla ilgilenen, bilgisayarla görme ve görüntü işleme ile ilgili bir bilgisayar teknolojisidir. Nesne tespiti, bilgisayarla görme ve görüntü işlemeden farklı olarak algılanan nesnenin görüntü üzerinde koordinatlarının bulunmasını içerir. Bulunan koordinatlar ile nesnenin bir çerçeve ile içine alınacağı alan da tespit edilmiş olur. Nesne tespiti, gerçek zamanlı (anlık) ve gerçek zamanlı olmayan olarak ikiye ayrılır. Üzerinde iyi araştırma yapılmış alanlar yüz tespiti, yaya tespiti ve araç tespitidir. Nesne tespiti, görüntü alma ve video gözetimi dahil olmak üzere bilgisayarla görmenin birçok alanında uygulamaya sahiptir.

Çekişmeli üretici ağ, Ian Goodfellow ve meslektaşları tarafından 2014 yılında tasarlanan bir makine öğrenimi framework sınıfıdır. Bir oyunda iki sinir ağı birbiriyle yarışmaktadır.

Adaptif rezonans teorisi (ART), Stephen Grossberg ve Gail Carpenter tarafından beynin bilgiyi nasıl işlediğini anlamak üzere geliştirilen bir teoridir. Denetimli ve denetimsiz öğrenme yöntemlerini kullanan ve örüntü tanıma ve tahmin gibi sorunları ele alan bir dizi sinir ağı modelini açıklamaktadır.

Sufle mühendisliği; yapay zekada, özellikle de doğal dil işlemede kullanılan bir kavramdır. Sufle mühendisliğinde görevin tanımı, girdiye gömülüdür. Sufle mühendisliği tipik olarak bir veya daha çok görevi sufle tabanlı bir veri kümesine dönüştürerek ve "sufle tabanlı öğrenme" veya sadece "sufle öğrenme" olarak adlandırılan yöntemle bir dil modelini eğiterek çalışır. Sufle mühendisliği, "önek-ayarlama" veya "sufle ayarlama" olarak adlandırılan yöntemle yalnızca sufle temsilinin öğrenildiği büyük bir "dondurulmuş" ön eğitimli dil modelinden çalışabilir.

Dil modeli, kelimelerin dizileri üzerinde bir olasılık dağılımıdır. Herhangi bir uzunluktaki m kelimeler dizisi verildiğinde, bir dil modeli, tüm dizinin olasılığına bir olasılık atar .

<span class="mw-page-title-main">Otomatik makine öğrenimi</span>

Otomatik makine öğrenimi (AutoML), makine öğrenimini gerçek dünya sorunlarına uygulanmasını otomatikleştirme sürecidir.

Ilya Sutskever, Kanadalı makine öğrenimi araştırmacısı ve bilgisayar bilimci.