Doğal dil işleme
Makale serisidir |
Yapay zekâ |
---|
Doğal Dil İşleme, yaygın olarak NLP (Natural Language Processing) olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır.
Uzman Sistemler ve Doğal Dil İşleme
NLP yani Doğal Dil İşleme, doğal dillerin kurallı yapısının çözümlenerek anlaşılması veya yeniden üretilmesi amacını taşır.Bu çözümlemenin insana getireceği kolaylıklar, yazılı dokümanların otomatik çevrilmesi, soru-cevap makineleri, otomatik konuşma ve komut anlama, konuşma sentezi, konuşma üretme, otomatik metin özetleme, bilgi sağlama gibi birçok başlıkla özetlenebilir. Bilgisayar teknolojisinin yaygın kullanımı, bu başlıklardan üretilen uzman yazılımların gündelik hayatımızın her alanına girmesini sağlamıştır. Örneğin, tüm kelime işlem yazılımları birer imlâ düzeltme aracı taşır. Bu araçlar aslında yazılan metni çözümleyerek dil kurallarını denetleyen doğal dil işleme yazılımlarıdır.
Batı dillerinde SAPI (Microsoft şirketinin konuşma sentezleyici üretmek amacı ile satışa sunduğu geliştirici program) tabanlı Konuşma sentezleyici bileşenleri, yazılımcıların multimedia (çoklu ortam) sunuları hazırlamaları için hizmete sunulmuştur.
Konuşma ve komut anlama yazılımları ise gelecekte insan ve bilgisayar arasındaki klavye, fare gibi veri girişi aygıtlarını ortadan kaldıracak yazılımlardır. Bu gelişmeler makine-insan iletişiminde yeni ve devrimci değişimlere yol açacak ve bilgisayarların daha çok insan tarafından kabul görmesine yol açacaktır.
Yapay Zekâ ve Doğal Dil İşleme
Gelecekte, konuşma sentezleyiciler ve konuşma anlama alanındaki gelişmeler ve makine-insan iletişiminin gelişmesi, insanın makineden beklentilerini yükseltecektir. İnsanlar makinelerin kendisini anlamalarını isteyecek, karmaşık kullanımı olan makineler pazar bulamayacaktır. Giderek gelişen ve insanı anlayan makinelerin daha zeki olması insanın yaşam kalitesini yükselteceğinden, vazgeçilmez olması kaçınılmazdır. Zeki makine kavramı, yapay zekâ çalışmalarının hızlanmasına yol açmıştır. Geleceğin en önemli sektörlerinden biri olan yapay zekâ ile insanın iletişim kuracağı tek araç dildir.
Dil, insanoğlunun uygarlaşmasını sağlamakla kalmamış, onun zekâsının doğada daha önce görülmemiş şekilde parlamasını sağlamıştır. Kültür dediğimiz insanlık birikimi, dil kullanan ve iletişim kuran insanın sosyalleşme sürecinin ürünüdür.
Dilin Matematik Modeli
Dilin işlenmek üzere çözümlenebilmesi için, matematik modelinin oluşturulması gerekmekteydi.
Genişletilmiş Geçiş Ağları
ATN Genişletilmiş Geçiş Ağları (Augmented Transition Network),Woods tarafından 1970 ve 1973 yılları arasında geliştirilmiş bir yaklaşımdır.
Genişletilmiş geçiş ağları (GGA) üç bileşenden oluşur:
- En az başlangıç ve son (/s) durumları olan sonlu sayıdaki durumlar kümesi,
- Belli bir metindeki mümkün olan harflerden oluşan alfabe (e),
- Sonlu sayıdaki bir durumdan diğer bir duruma geçişi sağlayacak geçişler kümesi.
Genişletilmiş geçiş ağlarında, bir durumdan diğer bir duruma geçmek için gerekli harf okunur ve bu harf geçilecek olan duruma geçmek için gereken harfle karşılaştırılır; uygun ise diğer duruma geçilir. Geçiş ağlarında doğru bir yol, bir başlangıç durumundan başlayıp, son duruma ulaşan geçişler sağlandığında tamamlanır. Harflerin birbirine eklenmesiyle oluşan metin, ağın kabul etmesi için verilen metin ise, bu metin ağ tarafından kabul edilmiş demektir.
Yanda: "Bal" metnini kabul eden Genişletilmiş Geçiş Ağı.
Fonetik ve fonoloji
Fonetik, konuşulurken, dil, gırtlak, ses telleri, damak, dişler ve dudaklar ile çıkarılan sesleri ve bu seslerin dil ile olan ilişkilerini tanımlamak için kullanılan bir terimdir.Doğal dillerde anlam ayırıcı olarak kullanılan en küçük ses fondur (phon) dur. Fonetik terimi bu kökten gelmektedir.
Fon kavramı evrensel değildir ve her dilde farklı seslere kaşılık gelir. Farklı dillerdeki fonların tek ortak özelliği ayırıcı temel sesler olmalarıdır.Sesle ifade edilen dili, yani konuşmayı kaydetmek için yazı icad edilmişti.Konuşmayı yazı ile ifade etmek için ses birim veya fonları harflerle eşleştirmek gerekmekteydi. Bazı dillerde, örneğin Türkçe, Fince ve Japoncada, sesbirimler doğrudan harflere karşılık gelmektedir. Bu tip dillere fonetik diller denir.İngilizce, Almanca, Fransızca gibi dillerde ise Fonlar harflere kaşılık gelmezler.Bu yaklaşımın yerine uluslararası olarak geçerliliği olan fonetik bir alfabe ses birimleri ifade etmek için kullanılır. Ses birimlerin simgesel olarak ifade edilmesi sonucu olusan simgeler fonem (phoneme) olarak adlandırılır. Bir başka deyişle aslında fonemlerin seslendirilmesiyle ses birimler (phon) oluşur.
Dildeki ses birimler belirlenirken iki yaklaşım kullanılır.Bunlar,
- Parçalı sesbirimler (segmental) ve,
- Parçalarüstü ses birimler (supra-segmental, prosodic) dir.
Dilin morfolojisi
Dil bilime terim olarak 1859 yılında August Schleicher tarafından kazandırılan morfoloji, dilde biçimi oluşturan ögelerin türlerini tanımlamak ve özetle dil bilgisi kuralları denen biçimsel ögelerin sınıflandırmasını yapmaktır.
Morfolojik çözümlemede analitik yaklaşımlar
Doğal dil işleme çalışmalarında anlam bütünsel çözümleme yapabilmek için, bazı yaklaşımlar belirmiştir. Bu yaklaşımlar aşağıdaki süreçlerden oluşur.
Sözdizimsel (sentaktik) analiz
Sözdizimsel analiz, sözdizimini (syntax) veya cümleyi oluşturan morfolojik ögelerin hiyerarşik kurallara uyumunu karşılaştırarak ölçümlemektir. Böylece söz dizimin anlamlı olup olmadığının ölçülebilmesi için düzenleyici bir süreç gerçekleşmiş olur.
Türkçede cümleler en genel şekliyle özne, nesne ve yüklem bileşenlerinden oluşur. Cümleye eklenmek istenen anlamlar arttıkça cümleler, özne, yer tamlayıcısı, zarf tamlayıcısı, nesne ve yüklem gibi bileşenleri içerir.Ayrıca cümlenin anlamını kuvvetlendiren cümle dışı bileşenler de (bağlaç, edat, vb) cümlede bulunabilir.Bunlara örnek olarak "ile, için, ama, çünkü" kelimeleri verilebilir. Türkçede özne ile yüklem cümlenin temel bileşenleridir ve genelde tüm cümlelerde yer alırlar. Yer tamlayıcısı, zarf tamlayıcısı, nesne gibi bileşenler bazı cümlelerde yer almayabilirler veya bazı cümlelerde sadece biri, bazılarında sadece ikisi bulunabilir. Bu bileşenlerin cümle içindeki sıralanışları da değişebilir.
Bilgisayarla doğal dilin modellenmesinde anlamsal analizden önce kelimelerden oluşturulan yapının cümle olup olmadığının test edilmesi faydalıdır.Bu işlem sentaktik eşleştirme işleminde anlamsız eşleşmelerin önlenmesine faydalı olur.
Yandaki Şekil : Sözdizimsel Analiz.
Simgeler: Ö: özne, D: dolaylı tümleç, Z: zarf tümleci, N: nesne, Y: yüklem, İG: isim grubu, SG: sıfat grubu, İN: isim nesnesi, SN: sıfat nesnesi, DZ: diğer zarflar, S: sıfat, İ: isim, ZB: zaman belirteçleri, T: tamlayan, TN: tamlanan, ZM: zamir, NE: nesne eki, TE: tamlayan eki, TNE: tamlanan eki, KE: kip eki, ZE: zaman eki, DE: dolaylı tümleç eki, EF: ek fiil
Anlambilimsel (semantik) analiz
Anlambilimsel analiz, sözdizimini oluşturan morfolojik ögelerin ayrılması, yani sözdizimsel analiz ile anlam taşıyan kelimelerin sınıflandırılması işleminden sonra gelen anlamlandırma veya anlama sürecidir.Bu süreçte anlam taşıyan kelimelerin, ekler ve cümle hiyerarşisi içindeki konumlarının saptanması sayesinde birbirleri ile ilişkileri kurulabilir. Bu ilişkiler anlam çıkarma, fikir yürütme gibi ileri seviye bilişsel fonksiyonların oluşturulmasında ham bilgi olarak kullanılacaktır.
Yapay konuşma
Morfolojik çözümleme aşamalarından sonra sözdizimsel kurgu veya yapay konuşma süreci ile yapay zekâ ya veya uzman sistemlere iletişim becerisi kazandırılacaktır. Sözdizimsel çözümlemenin tersi süreçlerden oluşan birleştirme sürecinde, önceki süreçlerde ele geçen bilgi yine morfolojik kurallar dahilinde birleştirilir.
Ayrıca bakınız
Kaynakça
- Vasif Nabiyev - Yapay Zekâ: Problemler, Yöntemler, Algoritmalar, 764 say., Seçkin, Ankara, 2005
- Devrim Çamoğlu - D.U.Y.G.U. Projesi araştırma tezleri.
- Ünal Çakıroğlu - (KTU) Şekiller, Sözdizimsel Analiz ve matematik model bölümü
Dış bağlantılar
- İTÜ Doğal Dil İşleme Takımı 23 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi.
- Stanford Üniversitesi Doğal Dil İşleme Öbeği 29 Kasım 2005 tarihinde Wayback Machine sitesinde arşivlendi.
- Survey of the State of the Art in Human Language Technology
- Natural Language Processing Group at the Johns-Hopkins University
- DNLP - Dalhousie Natural Language Processing Group
- 2004 International Workshop on Natural Language Understanding and Cognitive Science
- CLAC: Computational Linguistics At Concordia 4 Aralık 2005 tarihinde Wayback Machine sitesinde arşivlendi.
- TCC: Cognitive and Communication Technologies (TCC) at ITC-Irst
- YTÜ Doğal Dil İşleme Araştırma Grubu
- Fatih Ü. Doğal Dil İşleme Grubu
- Cognitive Science Society of Trakya (CSST) 10 Mart 2012 tarihinde Wayback Machine sitesinde arşivlendi.