İçeriğe atla

Konuşma sentezleyici

Konuşma sentezleyici (İngilizcespeech synthesizer), İnsan seslerinin bilgisayar yapay zekası tarafından üretimidir. Genellikle Metin okuma sistemlerinde kullanılan Konuşma sentezleyicisi bu sistemlerde bir dilin tüm ses bilgisi ve benzeri kurallarına göre çevri yapacak şekilde programlanırlar. Bu sentezleyicinin metni doğru telaffuz etmesini sağlar.

Ayrıca Konuşma Sentezleyici Ses konuşma tanımlayıcı yazılımlarda ve Fonetik transkripsiyon'larda da kullanılamaktadır. Konuşma Sentezleri yapılma sırasında veritabanında saklanan kayıtlı konuşma parçalarının birleştirilmesiyle oluşturulabilir. Ses sentezleyicinin daha doğal veya daha iyi performans vermesi için tüm kelimelerin veri tabanında kayıtlı olması gerekmektedir.[1]

Konuşma Sentezleyicilerin özellikle görme ve okuma güçlüğü çeken insanların metinlerini sesli olarak söyleyerek yazması ve yazılı sözcükleri dinlemesine olarak tanımaktadır

TTS System

Bir Metini konuşma yazılımı yani ses parçasına dönüştürmek için genel bakış açısı ile giriş ve çıkış bölümleri gerekmektedir. Giriş metindir çıkış ise sestir. Metin öncellikle içindeki sayı, sembol ve noktalama işaretlerini Sözcüksel analiz işlemi olarak algılamakta ve daha sonra metin normalleştirme denilen işleme geçirmektedir. Daha sonra metin Fonetik transkripsiyon işlemi ile parçalara ayrılmaktadır. En sonunda ise ses doğru ses parçaları seçilerek konuşma yani ses olarak çıkmaktadır.[2]

Tarihçe

Rus Bilimler Akademisinin 1779 yılında düzenlediği bir yarışma sırasında Alman ve Danimarka asıllı bilim adamı Christian Gottlieb Kratzenstein tarafından [aː], [eː], [iː], [oː] ve [uː] harflerini üretebilen modeller ile birincilik ödülünü kazanmıştır.[3] Daha sonrasında Macar bilim adamı Wolfgang von Kempelen tarafından 1791 makalesinde bahsedilen körükle çalışan ve ünlü harflerin yanı sıra ünsüz harfleride içeren Wolfgang von Kempelen'in konuşan makinesi'ni icat etti.

1837'de Charles Wheatstone, von Kempelen'in tasarımına dayanan bir "konuşan makine" üretti. 1846'da Joseph Faber, " Euphonia "yı sergiledi. 1923'te Paget, Wheatstone'un tasarımını yeniden canlandırdı.[4]

1930'larda Bell Labs, konuşmayı temel tonlarına ve rezonanslarına göre otomatik olarak analiz eden ses kodlayıcıyı geliştirdi bu özellikle günümüz metin analizlerinin temelidir. Homer Dudley ise ses kodlayıcı üzerindeki çalışmasından sonra, 1939 New York Dünya Fuarı'nda sergilediği The Voder (Voice Demonstrator) adlı klavyeyle çalışan bir ses sentezleyici geliştirdi.

Bilgisayar Tabanlı

İlk bilgisayar tabanlı ses sentezleyiciler 1950'lerin sonlarında ortaya çıktı. Noriko Umeda ilk genel İngilizce metin okuma sistemini 1968'de Japonya'daki Elektroteknik Laboratuvarında geliştirdi.[5] 1961'de fizikçi John Larry Kelly Jr ve meslektaşı Louis Gerstman konuşmayı sentezlemek için bir IBM 704 bilgisayarı kullandılar; bu, Bell Laboratuvarları tarihindeki en önemli olaylardan biridir.[6]

1975'te Fumitada Itakura, NTT'deyken yüksek sıkıştırmalı konuşma kodlaması için hat spektral çiftleri (LSP) yöntemini geliştirdi.[7][8][9] 1975'ten 1981'e kadar Itakura, LSP yöntemine dayalı konuşma analizi ve sentezindeki sorunları inceledi.[9] 1980'de ekibi, LSP tabanlı bir konuşma sentezleyici çipi geliştirdi. LSP, konuşma sentezi ve kodlaması için önemli bir teknolojidir ve 1990'larda neredeyse tüm uluslararası konuşma kodlama standartları tarafından temel bir bileşen olarak benimsenerek, mobil kanallar ve internet üzerinden dijital konuşma iletişiminin geliştirilmesine katkıda bulunmuştur.[8]

1975 yılında MUSA piyasaya sürüldü ve ilk Konuşma Sentez sistemlerinden biriydi. Bağımsız bir bilgisayar donanımından ve İtalyanca okumasını sağlayan özel bir yazılımdan oluşuyordu.

1980'ler ve 1990'lardaki baskın sistemler büyük ölçüde MIT'de Dennis Klatt'ın çalışmasına dayanan DECtalk sistemi ve Bell Labs sistemiydi;  ikincisi, doğal dil işleme yöntemlerini kapsamlı bir şekilde kullanan, dilden bağımsız ilk çok dilli sistemlerden biriydi.

DECtalk demo

DNC(Differentiable Neural Computer)

Fidelity Chess Challenger Voice
Fidelity Chess Challenger Voice speech output

Konuşma sentezleyici küçük cihazlara ilk olarak 1970li yıllarda hizmet vermeye başladı. İlklerden sayılabilecek olan 1976 yılında Telesensory Systems tarafından geliştirilen ve görme engelliler için taşınabilir hesap makinesini geliştirdiler.[10][11] Fidelity, 1979'da elektronik satranç bilgisayarının konuşan bir sürümünü piyasaya sürdü.[12]

Sentezlenmiş sesler, AT&T Bell Laboratories'de Ann Syrdal'ın bir kadın sesi yarattığı 1990 yılına kadar tipik olarak erkekti.[13]

Konuşma sentezi biçimlendirme dilleri

Gelişen teknoloji ile konuşma sentezlerinin XML dosyasına uygun şekilde olması için İşaretleme dili oluşturulmaktadır. En yeni hali olarak kabul edilen Konuşma Sentezi İşaretleme Dili (SSML) XML tabanlı bir biçimlendirme dili hizmeti vermektedir. Standart olarak önerilmiş olsa da, yaygın olarak benimsenmemiştir.

Konuşma sentezi biçimlendirme dilleri, diyalog biçimlendirme dillerinden farklıdır. Örneğin VoiceXML, metinden konuşmaya işaretlemeye ek olarak konuşma tanıma, diyalog yönetimi ve tuşlu arama ile ilgili etiketleri içerir.

Ayrıca bakınız

Kaynakça

  1. ^ Rubin, Philip; Baer, Thomas; Mermelstein, Paul (1 Ağustos 1981). "An articulatory synthesizer for perceptual research". The Journal of the Acoustical Society of America (İngilizce). 70 (2): 321-328. doi:10.1121/1.386780. ISSN 0001-4966. 
  2. ^ Santen, Jan P. H. van, (Ed.) (1997). Progress in speech synthesis. New York Heidelberg: Springer. ISBN 978-0-387-94701-3. 
  3. ^ "History and Development of Speech Synthesis". research.spa.aalto.fi. 14 Mayıs 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  4. ^ "Wayback Machine" (PDF). web.archive.org. 10 Mart 2021 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  5. ^ Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525. 
  6. ^ "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes (Published 1992)" (İngilizce). 21 Mart 1992. 2 Nisan 2019 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  7. ^ "work.caltech.edu/~ling/pub/icslp98lsp.pdf | Ghostarchive". ghostarchive.org. 1 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  8. ^ a b "Milestones:List of IEEE Milestones". ETHW. 9 Aralık 2020. 10 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  9. ^ a b "Oral-History:Fumitada Itakura". ETHW. 26 Ocak 2021. 3 Nisan 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  10. ^ Mordas, G.; Manninen, H. E.; Petäjä, T.; Aalto, P. P.; Hämeri, K.; Kulmala, M. (Ocak 2008). "On Operation of the Ultra-Fine Water-Based CPC TSI 3786 and Comparison with Other TSI Models (TSI 3776, TSI 3772, TSI 3025, TSI 3010, TSI 3007)". Aerosol Science and Technology. 42 (2): 152-158. doi:10.1080/02786820701846252. ISSN 0278-6826. 
  11. ^ Gevaryahu, Jonathan, [ "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide". 
  12. ^ "Ismenio's chess computer collection". www.ismenio.com. 21 Nisan 2005 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 
  13. ^ "Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74 (Published 2020)" (İngilizce). 20 Ağustos 2020. 16 Temmuz 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Ağustos 2023. 

İlgili Araştırma Makaleleri

<span class="mw-page-title-main">Unix</span>

UNIX türevi işletim sistemleri çok işlemcili çok pahalı makinelerden tek işlemcili, basit ve çok ucuz ev bilgisayarlarına kadar pek çok cihaz üzerinde çalışabilen esnek ve sağlamlığı çok değişik koşullarda test edilmiş sistemlerdir. Fakat özellikle kararlı yapısı ve çok kullanıcılı-çok görevli yapısıyla çok işlemcili sunucularda adeta standart haline gelmiştir ve özellikle akademik dünyada iş istasyonları üzerinde çok yaygın bir kullanım alanı bulmuştur. UNIX, Interdata 7/32, VAX ve Motorola 68000 arasında hızla yayıldı.

Kenneth Lane Thompson Amerikalı bir bilgisayar bilimcisi.Thompson, kariyerinin büyük bir bölümünde orijinal Unix işletim sistemini tasarlayıp uyguladığı Bell Labs'ta çalıştı. Ayrıca C programlama dilinin doğrudan selefi olan B programlama dilini de icat etti. Bununla beraber Plan 9 işletim sisteminin yaratıcılarından ve ilk geliştiricilerinden biriydi. Thompson, 2006'dan beri Go programlama dilini birlikte icat ettiği Google'da çalışmaktadır.

<span class="mw-page-title-main">Yapay zekâ</span> insani zekaya sahip makine ve yazılım geliştiren bilgisayar bilimleri dalı

Yapay zekâ ya da kısaca YZ,, insanlar da dahil olmak üzere hayvanlar tarafından, doğal zekânın aksine makineler tarafından görüntülenen zekâ çeşididir. İlk ve ikinci kategoriler arasındaki ayrım genellikle seçilen kısaltmayla ortaya çıkar. Güçlü yapay zeka genellikle Yapay genel zekâ olarak etiketlenirken, doğal zekayı taklit etme girişimleri yapay biyolojik zekâ olarak adlandırılır. Önde gelen yapay zeka ders kitapları, alanı zeki etmenlerin çalışması olarak tanımlar: Çevresini algılayan ve hedeflerine başarıyla ulaşma şansını en üst düzeye çıkaran eylemleri gerçekleştiren herhangi bir cihaz. Halk arasında, yapay zekâ kavramı genellikle insanların insan zihni ile ilişkilendirdiği öğrenme ve problem çözme gibi bilişsel eylemleri taklit eden makineleri tanımlamak için kullanılır.

<span class="mw-page-title-main">Dilbilim</span> insan dilinin araştırılması

Dilbilim, dil bilimi, lengüistik ya da lisaniyat; dilleri dilbilgisi, söz dizimi (sentaks), ses bilgisi (fonetik), ses bilimi (fonoloji), biçimbilim (morfoloji) ve edimbilim (pragmatik) gibi çeşitli yönlerden yapısal, anlamsal ve bildirişimin çıkış bağlamını temel alarak sözlerin gönderimlerini ve iletişimde dilin yaptırım gücünü inceleyen bilim dalıdır.

<span class="mw-page-title-main">Telefon</span> Birbirinden uzak yerlerde bulunan kişiler ve düzenekler arasında bilgi alışverişini sağlayan elektrikli ses alıp verme aygıtı

Telefon, birbirinden uzak yerlerde bulunan kişiler ve düzenekler arasında bilgi alışverişini sağlayan elektrikli ses alıp verme aygıtıdır. Telefonun çalışmasında ana ilke ağızdan çıkan ses dalgalarının önce elektrik sinyallerine çevrilmesi ve bu sinyallerin çeşitli gönderme yöntemleriyle uzağa iletilmesinden sonra, bu defa da elektrik sinyallerinin yeniden kulakla duyulabilecek ses dalgalarına çevrilmesidir.

<span class="mw-page-title-main">Doğal dil işleme</span> bilgisayar bilimi ve dil bilimi alanı

Doğal Dil İşleme, yaygın olarak NLP olarak bilinen yapay zekâ ve dilbilim alt kategorisidir. Türkçe, İngilizce, Almanca, Fransızca gibi doğal dillerin işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır.

<span class="mw-page-title-main">Casio</span> Japonya merkezli elektronik şirketi

Casio Computer Co., Ltd. Japonya merkezli, çok uluslu bir elektronik üretim şirketidir. Merkezi Shibuya, Tokyo, Japonya'dadır. Başlıca ürünleri arasındaki hesap makineleri, cep telefonları, cep bilgisayarları, dijital kameralar, elektronik müzik aletleri, analog ve dijital saatler yer alır. Şirket, 1946 yılında kurulmuş, 1957'de dünyanın ilk kompakt elektronik hesap makinesini piyasaya sürmüştür. Casio, dijital fotoğraf makinelerinin ilk döneminde bu alanda birçok yeniliğe imza atmıştır. Şirket, 1980'li 90'lı yıllarda müzisyenler için uygun fiyatlı elektronik klavyeler geliştirmiş, ayrıca dünyada seri üretime geçen ilk dijital kol saatlerini geliştirmiştir.

<span class="mw-page-title-main">Dennis Ritchie</span> Amerikalı bilgisayar bilimci

Dennis MacAlistair Ritchie, uzun süre birlikte çalıştığı arkadaşı Ken Thompson ile birlikte C programlama dilini ve Unix işletim sistemini yazan saygın Amerikalı bilgisayar bilimcisi. 1983'te Turing Ödülü'nü, 1999'de Ulusal Teknoloji Madalyası ödülünü aldı. 12 Ekim 2011'de ölmüştür.

<span class="mw-page-title-main">Google Çeviri</span> Çeviri aracı

Google Çeviri, İnternet sayfalarını, metinleri veya yüklemiş olduğunuz belgeleri ücretsiz çeviren bir araçtır. Google tarafından sağlanır. İlk olarak 28 Nisan 2006 tarihinde, Arapça ile İngilizce arası çeviri yaparak hizmete girmiştir. Bir web arayüzü, Android ve iOS için mobil uygulamalar, geliştiricilere tarayıcı eklentisi ve yazılım uygulamaları oluşturmada yardımcı olan bir API sunar. Google Translate, çeşitli seviyelerde 100'den fazla dili destekliyor ve Mayıs 2013 itibarıyla günlük 200 milyondan fazla kişiye hizmet veriyor.

<span class="mw-page-title-main">Ses konuşma tanımlayıcı yazılımlar</span>

Sesli konuşmayı yazıya çeviren bilgisayar yazılımları veya daha yaygın ve bilinen İngilizce adıyla "Speech recognition"

Bir açık dosya biçimi, sayısal verileri saklamak için genellikle standart organizasyonları tarafından yayımlanmış ve herkesçe kullanılıp uyarlanılabilicek belirtimlerdir. Örneğin açık biçimler hem sahipli hem de ücretsiz ve özgür yazılımlarda her birinde kullanılan tipik yazılım lisanslarıyla birlikte kullanılabilir. Açık biçimlerin aksine kapalı biçimlerde ticari sırlar olduğu kabul edilir. Açık biçimler eğer telif hakkı, patent, ticari marka ve benzeri diğer kısıtlamalar içermiyor ve herkes istediği amaçla maddi bir maliyet olmaksızın kullanabiliyorsa özgür dosya biçimleri olarak anılır.

Bilgi teknolojisi (IT), genellikle bir işletme veya başka bir girişim bağlamında veri veya bilgi depolamak, almak, iletmek, çalışmak ve işlemek için bilgisayarların kullanılmasıdır. Bilgi Teknolojisi, bilgi ve iletişim teknolojisinin (ICT) bir alt kümesi olarak düşünülür. 2012'de Zuppo, her hiyerarşi düzeyinin "bilgi aktarımını ve çeşitli elektronik ortamdaki iletişim türlerini kolaylaştıran teknolojilerle ilişkili olması nedeniyle bir derece ortaklık içerdiği" bir BİT hiyerarşisini önermişti.

<span class="mw-page-title-main">Android Donut</span>

Android Donut veya Android 1.6 Donut, Google tarafından geliştirilen dördüncü Android sürümüdür. 15 Eylül 2009'da kullanıcılara tanıtıldı. Sürüme Donut ismi verildi. Bu, Android Cupcake sürümün geliştirilmiş versiyonu idi. Bu sürüm Linux Kernel 2.6.29 bazında ve API 4.seviyesine kuruldu (üretildi). Daha hızlı fotoğraf çekmek mümkün olduğu gibi WVGA (780x480) çözünürlüklü ekranlara destek getirildi. Bu sürüme internet ve yerel aramalar için Hızlı Arama seçeneği, galeri entegrasyonlu kamera resim ve video çekim modları, batarya göstergesi, CDMA desteği, ek ekran boyutları için destek, text-to-speech motoru desteği, çoklu dil seçeneği gibi özellikler eklendi. Android Donut'ın esas özelliklerine bular dahil idi:

<span class="mw-page-title-main">Microsoft Agent</span>

Microsoft Agent Microsoft tarafından geliştirilen ve hareketli karakterler, konuşma motorları ve bilgisayar kullanıcılarıyla etkileşimi artırmak için konuşma tanıma yazılımı kullanılan bir teknolojidir. Windows Vista üzerinden Microsoft Windows 2000'in bir parçası olarak önceden kurulmuş olarak gelir. Microsoft Agent işlevselliği, web sayfaları tarafından kullanılabilen bir ActiveX denetimi olarak sunulmaktadır. Bu yazılımın arkasındaki teori, Stanford'un Dil ve Enformasyon Araştırmaları Merkezi'ndeki Clifford Nass ve Byron Reeves'in sosyal ara yüzler üzerindeki çalışmasından geldi.

<span class="mw-page-title-main">Hesaplamalı dilbilim</span>

Bilgisayarlı dilbilim veya hesaplamalı dilbilim, doğal dilin istatistiksel veya kural tabanlı modelleme yöntemleriyle ve hesaplamalı bir perspektif ile inceleyen disiplinler arası bir bilgisayar bilimi alanıdır.

<span class="mw-page-title-main">WordPad</span> Microsoftun ürettiği kelime işlemci

WordPad Windows 95'ten itibaren hemen hemen tüm Microsoft Windows sürümlerine dahil olan basit bir kelime işlemcidir. Microsoft Notepad'den daha gelişmiş, ancak Microsoft Works Kelime İşlemcisi ve Microsoft Word'den daha basittir. Microsoft Write'nın yerini aldı.

Ekran okuyucu bir kullanıcı arayüzünü ve bir web tarayıcısı gibi bir uygulamadan veya bir işletim sistemindeki içeriği analiz eden bir yazılım uygulamasıdır. Çıktısını metin konuşma sentezleyici veya yenilenebilir Braille ekranı üzerinden sağlar. Kullanıcı arabiriminin içeriği ve metinsel temsili, bir bilgisayar monitörü olsun veya olmasın standart çıktıya gönderilir. Yorumlar daha sonra metin okuma, ses simgeleri veya bir Braille çıkış cihazı ile kullanıcıya sentezlenir. Ekran okuyucuları görme engelliler, okuryazarlığı olmayan veya öğrenme güçlüğü çeken insanlar için yararlı olduğu kadar; kör olan insanlar için de önemli olan yardımcı bir teknolojinin bir şeklidir.

Sanal asistanlar, daha önce insanlar tarafından yapılan işleri veya hizmetleri, kullanıcılarından soru ve talepleri ile gerçekleştiren yazılımlardır. Genellikler chatbot kavramı ile aynı anlamda kullanılırlar ancak sanal asistanlar daha geniş bir alanda hizmet verirler. Sanal asistanlar kullanıcı ile yazı veya konuşma yoluyla etkileşim kurabilirler. Kullanıcılar sanal asistanlara soru sorabilirler, müziğin sesini açmak veya ısıtıcıyı kısmak gibi basit direktifler verebilirler, takvimlerini düzenlemesini veya uçak bileti almasını isteyebilirler.

<span class="mw-page-title-main">Ses analizi</span>

Ses analizi ya da Konuşma analizi, iletişimi ve gelecekteki etkileşimi iyileştirmek için müşteri bilgilerini toplamak üzere kaydedilen çağrıları analiz etme sürecidir. Süreç, öncelikle müşteri iletişim merkezleri tarafından bir işletmeyle müşteri etkileşimlerinde ihtiyaçları çıkarmak için kullanılır.

<span class="mw-page-title-main">Düz metin</span> yalnızca okunabilir materyalin biçimlendirilmemiş karakterlerinden oluşan bilgisayar verileri

Bilgi işlemde, düz metin yalnızca karakterlerden oluşan okunabilir materyali temsil eden ancak grafiksel gösterimini veya diğer nesneleri temsil etmeyen veriler için kullanılan geniş/serbest bir terimdir. Ayrıca metnin basit düzenini etkileyen boşluklar, satır sonları veya sekme karakterleri gibi sınırlı sayıda "boşluk" karakteri de içerebilir. Düz metin, stil bilgilerinin dahil edildiği biçimlendirilmiş metinden; paragraflar, bölümler ve benzerleri gibi belgenin yapısal kısımlarının tanımlandığı yapılandırılmış metinden; ve bazı kısımların ikili nesneler olarak yorumlanması gereken ikili dosyalardan farklıdır.