Doğal Dil İşleme Çalışmaları ve Türkçe

 

İnsanlar bir metinle ya da başka bir insanın konuşmasıyla karşılaştıklarında, hiç vakit kaybetmeden, ne dendiğini anlayıp, üzerinde fikir yürütebilirler. Aynı işlemi bilgisayarlar vasıtasıyla yapmak, insan dillerini anlamak ve ona cevap vermek, gerektiğinde farklı diller arasında tercüme yapmak insanların her zaman başarmayı istedikleri bir iş olagelmiştir. Kuşkusuz bu, göründüğü kadar basit bir iş değildir. 

İnsan dillerinin bilgisayarlar tarafından işlenmesi çok kabaca “insanların kullandığı bir dilde alınan girdinin çözümlenmesi, anlamlandırılması ve farklı alanlarda kullanılmak üzere ara forma çevrilmesi” şeklinde tarif edilebilir. Tabii aynı işlemlerin tersinin de mutlaka yapılması gereklidir.

İnsan düşünceleri başlıca iki şekilde ifade edilebilir: sözlü ve yazılı. Bu yazıda ses analizine girilmeyecek, temel olarak metin analizi üzerinde durulacaktır.

Bir dilin bilgisayarlar tarafından anlamlandırılması için gerekli basamaklar şunlardır :

- Biçimbirimsel çözümleme (Morfolojik analiz)

- Sözdizimi çözümlemesi (Sintaktik çözümleme)

- Anlam çözümlemesi (Semantik çözümlemesi)

- Anlam kargaşasının giderilmesi

Biçimbirimsel çözümleme, kelimedeki köklerin ve o köklere gelen eklerin görevlerinin ayrıştırılmasını sağlar. Mesela, Türkçe “geldim” kelimesinin çözümlemesi yapıldığında gel+di+m şeklinde bir açılım görürüz ve bunu bir ara forma çevirirsek “gel+fiil+geçmiş+1.tekilşahıs” şeklinde ifade edebiliriz. Aynı şekilde “evlerde” kelimesinin açılımı ev+ler+de olarak yapılabilir ve “ev+isim+3.çoğulşahıs +bulunma” şeklinde bir ara forma dönüştürülebilir.

Ancak, işler her zaman bu kadar kolay olmayabilir. Gerek Türkçe’de, gerekse diğer dillerde ses uyumu kuralları ve çeşitli durumlarda araya giren ya da düşen harfler, kurallarda oynamalar meydana getirebilir. Mesela, “yalıyla” kelimesi “yalı+yla” şeklinde açılırken, “sarayla” kelimesi “saray+la” şeklinde açılacaktır. Aynı çoğul eki “ev+ler” derken “e” harfi ile yazılırken, “araba+lar” derken “a” ile yazılacaktır. Tüm bu ses uyumu kuralları ve eklerin ayrılması morfolojik analiz çerçevesinde gerçekleşir. Bu durumun üstesinden gelebilmek için, ses uyumu kuralları ve ekler ayrı ayrı işleme tabi tutulur. Mesela, çoğul ekini göz önüne alırsak, tüm isimler için yalnızca tek çoğul eki varmış gibi işlem yapılır ve bu çoğul eki genel bir ifadeyle “lAr” olarak somutlaştırılır ve aradaki A harfinin hangi durumlarda a, hangi durumlarda e olarak çözümleneceği ses uyumu kurallarına göre belirlenir. Aynı şekilde, birliktelik eki “ylA” şeklinde ifade edilir ve y harfinin hangi durumda düşüp, hangi durumda kalacağı da gene ses uyumu kurallarına göre belirlenir.

Ses uyumu kuralları, hangi işaretin hangi durumda, ne şekle dönüşeceğini belirler. Mesela, yukarıda örneğini verdiğimiz A harfi için yazılacak bir kural şöyle olabilir: bu harften önceki sesli harfin “a, ı, o, u” harflerinden birisi olması halinde “a”, “e, i, ö, ü” harflerinden birisi olması halinde “e” şeklinde yazılır. Buna göre “ev+lAr” ifadesinde A’dan önceki sesli harf “e” olduğu için, A e’ye dönüşecek ve “ev+ler” şeklinde yazılacaktır. Aynı şekilde, “okul+lAr” ifadesindeki A da önceki sesli harf o olduğundan a’ya dönüşecektir. Yine, yukarıdaki birliktelik anlamı veren “ylA” ekinde A harfi bu kurala göre çözümlenirken, y harfi için yazılacak kural ise, bu harfin sessiz harften sonra gelmesi halinde düşeceği ve sesli harften sonra gelmesi halinde korunacağıdır. Bu durumda, “saray+ylA” ifadesinde A harfi, önceki sesli harf a olduğundan a’ya dönüşecek, saray kelimesi de sessiz harfle bittiğinden y harfi düşecektir. Fakat, “yalı+ylA” ifadesinde yalı kelimesi sesli harf ile bittiğinden y harfi korunacak ve yalıyla şelinde yazılacaktır.

Bazen köklerin ve o kökün arkasından gelebilecek eklerin sırasının belirlenmesi, bir kelime için tek bir sonuç elde etmekte yeterli olmaz. Mesela, “kalem” kelimesi “kalem+isim+3.tekilşahıs” şeklinde açılabilecekken, “bana ait olan kale” anlamında “kale+isim+3.tekilşahıs+iyelik1.tekil” şeklinde de açılabilir. Morfolojik çözümleme yalnızca kelimeler üzerinde işlem yaptığı, daha önce ve sonra gelen kelimelerin etkisini göz önüne almadığı için, iki açılımı da doğru kabul eder ve doğru açılımı bulmayı daha üst seviyelere bırakır.

Morfolojik çözümlemeden sonra sözdizimi çözümlemesi gelir. Burada, cümleyi oluşturan kelimeler arasındaki ilişkiler, kelime grupları, tamlamalar vs. belirlenir. Mesela, “benim kitabın” şeklindeki bir tamlama, biçimbirimsel çözümlemeden başarıyla geçtiği halde, sözdizimi yönünden hatalıdır. Çünkü, benim kelimesinden sonra gelen kelimenin -ım/-im 1. tekil şahıs iyelik ekini alması gerekir. Oysa, bu cümlede 2.tekil şahıs iyelik ekini (-ın) alarak hatalı bir yapıya sebep olmuştur. Benzer şekilde, “Öğrenci geldik.” cümlesi de söz dizimi açısından hatalıdır. Çünkü, cümlenin öznesi (öğrenci) 3. tekil şahıs olduğu halde, fiilin şahsı 1. çoğul şahıs olarak söylenmiştir.

Sözdizimini de kontrol ettikten sonra, anlamlandırmayı açıklamaya çalışalım şimdi: Aslında anlamlandırma ve anlam kargaşasını çözümleme oldukça zor bir iştir ve yalnızca kelime ya da kelimenin içinde geçtiği metnin çözümlenmesi yeterli olmaz. Buna ek olarak, önceden öğrenilmiş bilgilerin kullanılması da gerekir. Mesela, kalem kelimesinin “yazı yazmakta kullanılan araç” ve “bana ait olan kale” şeklinde iki çözümlemesinin olabileceğini daha önce söylemiştik. “Kalemle yazdım” cümlesini ele aldığımızda, kalem kelimesinin her iki anlama gelmesi, morfolojik ve sözdizim kuralları açısından mümkün olduğu halde, “bana ait olan kaleyi kullanarak yazı yazdım” anlamını ifade edemeyeceğini ve çok büyük ihtimalle “yazı yazmaya yarayan aracı kullanarak yazdım” anlamına geleceğini söyleyebiliriz. Ancak, bu bilgiyi bu cümleden çıkartamayız. Daha önceden “kalem” ve “yazı yazmak” arasında bir ilişki olduğu öğrenilmiş olmalıdır. Aynı şekilde, “Kalemi fethetti” cümlesindeki kelimenin de “yazı yazmaya yarayan alet” değil de, çok büyük ihtimalle “bana ait olan, kalın duvarlar vasıtasıyla korunmaya yarayan yapı” anlamına geleceği sonucuna yine “kale” ve “fethetmek” arasındaki önceden bilinen bilgiyi kullanarak ulaşabiliriz.

Buraya kadar yapılan analizlerden sonra elde edilen bilgi artık dilden bağımsız bir “ara dil”e (interlingua) çevrilebilir. Çünkü, dile ait tüm yapılar ve bilgiler gerçek dünyadan katkılar da yapılarak çözümlenmiştir. Artık, bu ara dilden istenilen herhangi bir anlamı ifade edecek cümleler, herhangi bir dilde üretilebilir.

Sonuç olarak diyebiliriz ki, dil işleme çalışmaları oldukça zahmetli ve emek isteyen çalışmalardır. Bilgisayarla dil işleme programları, yalnızca bilgisayarcıların çabasıyla değil, dilbilimcilerin, matematikçilerin, psikologların ve daha pekçok farklı disiplinden insanların katkılarıyla geliştirilebilir. Henüz tatmin edici boyuta ulaşamamış olsa da, pekçok dilden daha kurallı olan Türkçe için yapılan çalışmalar gün geçtikçe artmaktadır. Umut ediyoruz ki, Türkçe de hak ettiği ilgiyi görecek ve çok uzak olmayan bir gelecekte, sanal dünyada kendine sağlam bir yer edinecektir.

Kemal Altıntaş

Yazıyla ilgili görüş ve yorumlarınızı yorum@teknoTurk.org ve kalintas@hotmail.com adreslerine yollayabilirsiniz.