İçeriğe atla

Doğal dil işleme

Bir web sayfasında müşteri hizmetleri sağlayan otomatik sanal asistan, doğal dil işlemenin bir örneğidir.

Doğal Dil İşleme, yaygın olarak NLP (Natural Language Processing) olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır.

Uzman Sistemler ve Doğal Dil İşleme

NLP yani Doğal Dil İşleme, doğal dillerin kurallı yapısının çözümlenerek anlaşılması veya yeniden üretilmesi amacını taşır.Bu çözümlemenin insana getireceği kolaylıklar, yazılı dokümanların otomatik çevrilmesi, soru-cevap makineleri, otomatik konuşma ve komut anlama, konuşma sentezi, konuşma üretme, otomatik metin özetleme, bilgi sağlama gibi birçok başlıkla özetlenebilir. Bilgisayar teknolojisinin yaygın kullanımı, bu başlıklardan üretilen uzman yazılımların gündelik hayatımızın her alanına girmesini sağlamıştır. Örneğin, tüm kelime işlem yazılımları birer imlâ düzeltme aracı taşır. Bu araçlar aslında yazılan metni çözümleyerek dil kurallarını denetleyen doğal dil işleme yazılımlarıdır.

Batı dillerinde SAPI (Microsoft şirketinin konuşma sentezleyici üretmek amacı ile satışa sunduğu geliştirici program) tabanlı Konuşma sentezleyici bileşenleri, yazılımcıların multimedia (çoklu ortam) sunuları hazırlamaları için hizmete sunulmuştur.

Konuşma ve komut anlama yazılımları ise gelecekte insan ve bilgisayar arasındaki klavye, fare gibi veri girişi aygıtlarını ortadan kaldıracak yazılımlardır. Bu gelişmeler makine-insan iletişiminde yeni ve devrimci değişimlere yol açacak ve bilgisayarların daha çok insan tarafından kabul görmesine yol açacaktır.

Yapay Zekâ ve Doğal Dil İşleme

Gelecekte, konuşma sentezleyiciler ve konuşma anlama alanındaki gelişmeler ve makine-insan iletişiminin gelişmesi, insanın makineden beklentilerini yükseltecektir. İnsanlar makinelerin kendisini anlamalarını isteyecek, karmaşık kullanımı olan makineler pazar bulamayacaktır. Giderek gelişen ve insanı anlayan makinelerin daha zeki olması insanın yaşam kalitesini yükselteceğinden, vazgeçilmez olması kaçınılmazdır. Zeki makine kavramı, yapay zekâ çalışmalarının hızlanmasına yol açmıştır. Geleceğin en önemli sektörlerinden biri olan yapay zekâ ile insanın iletişim kuracağı tek araç dildir.

Dil, insanoğlunun uygarlaşmasını sağlamakla kalmamış, onun zekâsının doğada daha önce görülmemiş şekilde parlamasını sağlamıştır. Kültür dediğimiz insanlık birikimi, dil kullanan ve iletişim kuran insanın sosyalleşme sürecinin ürünüdür.

Dilin Matematik Modeli

Dilin işlenmek üzere çözümlenebilmesi için, matematik modelinin oluşturulması gerekmekteydi.

Genişletilmiş Geçiş Ağları

ATN Genişletilmiş Geçiş Ağları (Augmented Transition Network),Woods tarafından 1970 ve 1973 yılları arasında geliştirilmiş bir yaklaşımdır.

Genişletilmiş geçiş ağları (GGA) üç bileşenden oluşur:

  1. En az başlangıç ve son (/s) durumları olan sonlu sayıdaki durumlar kümesi,
  2. Belli bir metindeki mümkün olan harflerden oluşan alfabe (e),
  3. Sonlu sayıdaki bir durumdan diğer bir duruma geçişi sağlayacak geçişler kümesi.

Genişletilmiş geçiş ağlarında, bir durumdan diğer bir duruma geçmek için gerekli harf okunur ve bu harf geçilecek olan duruma geçmek için gereken harfle karşılaştırılır; uygun ise diğer duruma geçilir. Geçiş ağlarında doğru bir yol, bir başlangıç durumundan başlayıp, son duruma ulaşan geçişler sağlandığında tamamlanır. Harflerin birbirine eklenmesiyle oluşan metin, ağın kabul etmesi için verilen metin ise, bu metin ağ tarafından kabul edilmiş demektir.

Yanda: "Bal" metnini kabul eden Genişletilmiş Geçiş Ağı.

Fonetik ve fonoloji

Fonetik, konuşulurken, dil, gırtlak, ses telleri, damak, dişler ve dudaklar ile çıkarılan sesleri ve bu seslerin dil ile olan ilişkilerini tanımlamak için kullanılan bir terimdir.Doğal dillerde anlam ayırıcı olarak kullanılan en küçük ses fondur (phon) dur. Fonetik terimi bu kökten gelmektedir.

Fon kavramı evrensel değildir ve her dilde farklı seslere kaşılık gelir. Farklı dillerdeki fonların tek ortak özelliği ayırıcı temel sesler olmalarıdır.Sesle ifade edilen dili, yani konuşmayı kaydetmek için yazı icad edilmişti.Konuşmayı yazı ile ifade etmek için ses birim veya fonları harflerle eşleştirmek gerekmekteydi. Bazı dillerde, örneğin Türkçe, Fince ve Japoncada, sesbirimler doğrudan harflere karşılık gelmektedir. Bu tip dillere fonetik diller denir.İngilizce, Almanca, Fransızca gibi dillerde ise Fonlar harflere kaşılık gelmezler.Bu yaklaşımın yerine uluslararası olarak geçerliliği olan fonetik bir alfabe ses birimleri ifade etmek için kullanılır. Ses birimlerin simgesel olarak ifade edilmesi sonucu olusan simgeler fonem (phoneme) olarak adlandırılır. Bir başka deyişle aslında fonemlerin seslendirilmesiyle ses birimler (phon) oluşur.

Dildeki ses birimler belirlenirken iki yaklaşım kullanılır.Bunlar,

  • Parçalı sesbirimler (segmental) ve,
  • Parçalarüstü ses birimler (supra-segmental, prosodic) dir.

Dilin morfolojisi

Dil bilime terim olarak 1859 yılında August Schleicher tarafından kazandırılan morfoloji, dilde biçimi oluşturan ögelerin türlerini tanımlamak ve özetle dil bilgisi kuralları denen biçimsel ögelerin sınıflandırmasını yapmaktır.

Morfolojik çözümlemede analitik yaklaşımlar

Doğal dil işleme çalışmalarında anlam bütünsel çözümleme yapabilmek için, bazı yaklaşımlar belirmiştir. Bu yaklaşımlar aşağıdaki süreçlerden oluşur.

Sözdizimsel (sentaktik) analiz

Sözdizimsel analiz, sözdizimini (syntax) veya cümleyi oluşturan morfolojik ögelerin hiyerarşik kurallara uyumunu karşılaştırarak ölçümlemektir. Böylece söz dizimin anlamlı olup olmadığının ölçülebilmesi için düzenleyici bir süreç gerçekleşmiş olur.

Türkçede cümleler en genel şekliyle özne, nesne ve yüklem bileşenlerinden oluşur. Cümleye eklenmek istenen anlamlar arttıkça cümleler, özne, yer tamlayıcısı, zarf tamlayıcısı, nesne ve yüklem gibi bileşenleri içerir.Ayrıca cümlenin anlamını kuvvetlendiren cümle dışı bileşenler de (bağlaç, edat, vb) cümlede bulunabilir.Bunlara örnek olarak "ile, için, ama, çünkü" kelimeleri verilebilir. Türkçede özne ile yüklem cümlenin temel bileşenleridir ve genelde tüm cümlelerde yer alırlar. Yer tamlayıcısı, zarf tamlayıcısı, nesne gibi bileşenler bazı cümlelerde yer almayabilirler veya bazı cümlelerde sadece biri, bazılarında sadece ikisi bulunabilir. Bu bileşenlerin cümle içindeki sıralanışları da değişebilir.

Bilgisayarla doğal dilin modellenmesinde anlamsal analizden önce kelimelerden oluşturulan yapının cümle olup olmadığının test edilmesi faydalıdır.Bu işlem sentaktik eşleştirme işleminde anlamsız eşleşmelerin önlenmesine faydalı olur.

Yandaki Şekil : Sözdizimsel Analiz.

Simgeler: Ö: özne, D: dolaylı tümleç, Z: zarf tümleci, N: nesne, Y: yüklem, İG: isim grubu, SG: sıfat grubu, İN: isim nesnesi, SN: sıfat nesnesi, DZ: diğer zarflar, S: sıfat, İ: isim, ZB: zaman belirteçleri, T: tamlayan, TN: tamlanan, ZM: zamir, NE: nesne eki, TE: tamlayan eki, TNE: tamlanan eki, KE: kip eki, ZE: zaman eki, DE: dolaylı tümleç eki, EF: ek fiil

Anlambilimsel (semantik) analiz

Anlambilimsel analiz, sözdizimini oluşturan morfolojik ögelerin ayrılması, yani sözdizimsel analiz ile anlam taşıyan kelimelerin sınıflandırılması işleminden sonra gelen anlamlandırma veya anlama sürecidir.Bu süreçte anlam taşıyan kelimelerin, ekler ve cümle hiyerarşisi içindeki konumlarının saptanması sayesinde birbirleri ile ilişkileri kurulabilir. Bu ilişkiler anlam çıkarma, fikir yürütme gibi ileri seviye bilişsel fonksiyonların oluşturulmasında ham bilgi olarak kullanılacaktır.

Yapay konuşma

Morfolojik çözümleme aşamalarından sonra sözdizimsel kurgu veya yapay konuşma süreci ile yapay zekâ ya veya uzman sistemlere iletişim becerisi kazandırılacaktır. Sözdizimsel çözümlemenin tersi süreçlerden oluşan birleştirme sürecinde, önceki süreçlerde ele geçen bilgi yine morfolojik kurallar dahilinde birleştirilir.

Ayrıca bakınız

Kaynakça

  • Vasif Nabiyev - Yapay Zekâ: Problemler, Yöntemler, Algoritmalar, 764 say., Seçkin, Ankara, 2005
  • Devrim Çamoğlu - D.U.Y.G.U. Projesi araştırma tezleri.
  • Ünal Çakıroğlu - (KTU) Şekiller, Sözdizimsel Analiz ve matematik model bölümü

Dış bağlantılar

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Dil</span> insanlar arasında iletişim kurmayı sağlayan doğal bir iletişim aracı

Dil, insanlar arasında anlaşmayı ve iletişimi sağlayan doğal bir araç, kendisine özgü kuralları olan ve ancak bu kurallar içerisinde gelişen canlı bir varlık, çok boyutlu kavramlar bütünü; temeli tarihin bilinmeyen dönemlerinde atılmış bir gizli anlaşmalar düzeni, seslerden örülmüş toplumsal bir kurum ve yapıdır.

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

<span class="mw-page-title-main">Dilbilim</span> insan dilinin araştırılması

Dilbilim, dil bilimi, lengüistik ya da lisaniyat; dilleri dilbilgisi, söz dizimi (sentaks), ses bilgisi (fonetik), ses bilimi (fonoloji), biçimbilim (morfoloji) ve edimbilim (pragmatik) gibi çeşitli yönlerden yapısal, anlamsal ve bildirişimin çıkış bağlamını temel alarak sözlerin gönderimlerini ve iletişimde dilin yaptırım gücünü inceleyen bilim dalıdır.

Anlambilim, anlam bilimi, anlam bilgisi ya da semantik, anlamları inceleyen bilimdir. Anlam bilimi felsefî ya da mantıksal ve dilbilimsel olmak üzere iki farklı açıdan ele alınabilir. Felsefî ya da mantıksal yaklaşım, göstergeler ya da kelimeler ile bunların göndergeleri arasındaki bağlantıya ağırlık verir ve adlandırma, düz anlam, yan anlam, doğruluk gibi özellikleri inceler. Dilbilimsel yaklaşım ise zaman içinde anlam değişiklikleri ile dilin yapısı, düşünce ve anlam arasındaki karşılıklı bağlantı vb. konular üstünde durur.

Cümlenin ögeleri, cümlede yüklem ile görev ve anlam yönünden yükleme eşlik eden diğer parçalardan her biri. Cümlenin ögeleri tek bir sözcükten veya sözcük grubundan oluşabilir. Ögeler anlamlı ve doğru cümleler kurulabilmesini sağlar. Türkçede cümlenin ögeleri şunlardır:

  1. Yüklemler
  2. Yapım ekleri
  3. Çekim ekleri
  4. Nesneler
  5. Bağlaçlar
  6. Dolaylı tümleçler
  7. Zarf tümleçleri
  8. Edat tümleçleri
  9. Özneler
  10. Noktalama işaretleri

Devrik cümleler, öğeleri bir dilin yaygın kullanım kurallarına göre sıralanmamış cümlelerdir. Türkçede devrik cümleler, yüklemi cümle sonunda olmayan cümlelerdir. Devrik cümleler edebî sanat yapmak için, yüklemi vurgulamak için veya pratik amaçlarla kullanılırlar. Hatalı veya bozuk cümleler değillerdir. Devrik olmayan cümlelere kurallı cümle denir. Aşağıdaki devrik cümle örneklerinde yüklemlerin altı çizilidir:

Özne ya da fâil, bir cümlede yüklem ile bildirilen işi, eylemi ya da oluşu yerine getiren veya yüklem aracılığıyla hakkında bilgi verilen ögedir. Özne, yükleme sorulan "kim" ve "ne" sorularıyla bulunur.

<span class="mw-page-title-main">Dil felsefesi</span>

Dil felsefesi, analitik felsefede dilin doğası ve dili; dil kullanıcıları ve dünya arasındaki ilişkileri araştırır. Dil ile felsefe arasındaki ilişki temelde filozofların dili kullanarak felsefe yapmalarından kaynaklanmaktadır. Özelde ise bu araştırmalar anlamın doğası, kasıtlılık, referans, cümlelerin yapısı, kavramlar, öğrenme ve düşünce içerir; dil felsefesi başlığı altında dilin özü, anlamı, kökeni ve yapısı felsefî açıdan sorgulanmaktadır.

Yüklem; cümlede özne tarafından gerçekleştirilen eylemi, oluşu, hareketi veya bir olguyu ya da yargıyı bildiren sözcük veya sözcük grubu. Özne ile birlikte cümlenin ana öğelerinden biridir. Yüklemler fiil veya isim soylu olabilir:

Cümle veya tümce; bir ifade, soru, ünlem veya emiri dile getiren; kendi başına anlamlı sözcükler dizisi. Çoğunlukla özne, tümleç ve yüklemden meydana gelir. Bazen yan cümleciklerle anlamı pekiştirilir veya genişletilir.

Sözdizim, söz dizimi ya da Fransızcadan ödünçleme biçimiyle sentaks, doğal dillerdeki cümle kurma ilke ve kurallarını inceleyen ve bu dildeki cümlelerin esnekliğini inceleyen dilbilim dalıdır.
Eski Yunanca "birlikte düzenleme, dizme" anlamına gelen sentaks terimi dilbilimde, doğal dillerde nasıl cümle oluşturulacağına dair bir kurallar ve prensipler çalışmasıdır. Bir bilim dalına ait olmasına ek olarak “Modern İrlandacanın Sözdizimi"nde olduğu gibi, sözdizim terimi herhangi bireysel bir dilin cümle yapısına hâkim olan kurallara ve prensiplere de doğrudan ilgili olarak da kullanılır. Sözdizim, dilin yatay, yani satır şeklinde dizilen bir sistem olduğunu gösterir. Bu diziliş, sesten, morfemlere, morfemlerden daha büyük öbeklere dilin her seviyesinde mevcuttur. Sözdizimin yalnız cümle seviyesini gösteren bir terim olarak kullanılması doğru ama eksik bir kullanımdır.

Konuşma sentezleyici, İnsan seslerinin bilgisayar yapay zekası tarafından üretimidir. Genellikle Metin okuma sistemlerinde kullanılan Konuşma sentezleyicisi bu sistemlerde bir dilin tüm ses bilgisi ve benzeri kurallarına göre çevri yapacak şekilde programlanırlar. Bu sentezleyicinin metni doğru telaffuz etmesini sağlar.

Psikodilbilim veya ruhdilbilim, psikolojik süreçlerle dilsel etkenler arasındaki iletişimi çalışan disiplindir. Bu disiplin başat olarak dilin nasıl işlendiği, zihin ve beyinde nasıl temsillendiği ile ilgilenir; yani, insanların dili edinmesini, kullanmasını, anlamasını ve üretmesini sağlayan psikolojik ve nörobiyolojik faktörlerle...

Konuşma dili, bölgelere göre farklı sesletim özellikleri gösteren, günlük yaşayışta kullanılan ve yazı dilinden az farklarla ayrılmış bulunan doğal dil, günlük konuşmadır. Dünya üzerindeki hemen her dilde "konuşma dili - yazı dili" özellikleri bulunur. Bir dilde yazılış ile okunuş birbirinden az ya da çok farklı olabilir.

Bağlaşıklık bir cümledeki dilbilgisel unsurların tam, doğru ve birbirleri ile uyumlu şekilde kullanılması ilkesidir. Bu unsurlara örnek olarak cümlenin öğeleri, ekler, yardımcı fiiller, ek-fiiller vs. verilebilir. Bağlaşıklık bir dil bağıntısıdır.

Anlatım bozuklukları, yazılı veya sözlü anlatımda karşılaşılan hatalardır. Bu hatalar yapısal (dilbilgisel) veya anlam ve mantık bakımından olabilir. Öge eksikliği, ek eksikliği gibi yapısal bozukluklara "bağlaşıklık hataları"; gereksiz sözcük kullanımı, yanlış sözcük kullanımı gibi anlamsal bozukluklara ise "bağdaşıklık hataları" denir.

<span class="mw-page-title-main">Hesaplamalı dilbilim</span>

Bilgisayarlı dilbilim veya hesaplamalı dilbilim, doğal dilin istatistiksel veya kural tabanlı modelleme yöntemleriyle ve hesaplamalı bir perspektif ile inceleyen disiplinler arası bir bilgisayar bilimi alanıdır.

<span class="mw-page-title-main">Lingua Franca Nova</span>

Lingua Franca Nova, C. George Boeree tarafından Shippensburg Üniversitesi'nde geliştirilen yapay dildir. Kelimeleri Latin dilleri Fransızca, İtalyanca, Portekizce, İspanyolca ve Katalanca'dan türetilmiştir. Dil kuralları büyük miktarda basitleştirilmiştir ve Romen kreol dillerine benzer. Öğrenmesi ve anlaması kolaydır. Latin ve kiril harflerini kullanan fonetik bir alfabaye sahiptir.

Esperanto dilbilgisi, kuralları aşırı şekilde düzenli olması için tasarlanmıştır. Eklemeli bir dil olan Esperanto'nun kelime dağarcığı Hint-Avrupa dil ailesi, özellikle de Latin, Slav ve Germen dilleri esas alınarak hazırlanmıştır. Esperanto serbest cümle dizimine sahiptir, cümledeki ögelerin yerleri değiştirildiğinde cümlenin anlamı değişmez.

Üretici dilbilgisinde durum kuramı, yönetim ve bağlama kuramının bir bölümünü tanımlar.