Doğal Dil İşlemeye Genel Bir Bakış ve Biçimbilimsel Çözümleyiciler - 2

 

Bu yazının birinci bölümüne ulaşmak için tıklayınız.

Biraz Derinlik: Biçimbilimsel çözümleyiciler ve pratik kullanım alanları...

Yazımızın baş taraflarında sonlu durum tekniklerinin (finite state technics) doğal dil işlemenin (DDİ) temel taşını oluşturduğuna işaret etmiştik. Şimdi bunun nedenleri üzerinde daha detaylı bir şeyler söyleyebiliriz. Yukarıda izah edilmeye çalışılan  basamaklandırmanın birinci öğesi olan biçimbilimsel analiz  sonlu durum teknikleriyle (finite state transducers, finite state /augmented /recursive transition networks... ) yapılmaktadır. Merdivenin ilk basamağının temel taşını tüm merdivenin temeli saymak çok yanlış olmasa gerek. Kaldı ki diğer bölümlerde de (özellikle sentaksta) sonlu durumların geniş kullanımı mevzu bahistir.

DDİ çalışma sürecinin ilk ve temel ürünü olan biçimbilimsel çözümleyicilerin tek başlarına da birçok pratik kullanımı mevcuttur. Şimdi bunlardan birkaçını sıralamaya çalışalım.

Sözcük işleme programlarında hatalı yazılan kelimelerin tespit edilerek düzeltilmesi bugün pek çoğumuzun günlük hayatımızda kullandığımız bir uygulama. Yazılan her kelimeden sonra otomatik olarak devreye giren çözümleyici bir hata tespit ettiğinde kullanıcıyı uyarmakta ve olası çözümleri sunmakta.

Sesten yazıya çevirim (speech-to-text) sistemlerinde de biçimbilimsel çözümleyicilerin yoğun kullanımı mevcuttur. Konuşmada geçen herhangi bir kelimenin  yazıya çevrilmesinde ortaya çıkan birkaç ihtimalin (ambiguity) teke indirilmesi için adaylar arasında dile uygunluk ve doğruluğun aranması yanında lehçe farklılıklarından doğan problemleri de çözmeye yönelik yaklaşımlar halen uygulamalar dahilindedir. Bir diğer nokta ise özellikle eklemeli dillerde daha yoğun olarak ortaya çıkan konuşmadaki kelimeleri doğru yerlerden kesebilmektir. Mesela Türkçe’de “kırmızı başlıklı kız” seslendirildiğinde “kır” ile “mızı” arasındaki duraklama “başlıklı” ile “kız” arasındaki duraklamadan daha uzun olabilmekte ve sonuçta sistem bu ses parçasını “kır mızı başlıklı kız” olarak yanlış dikte edebilmektedir. İşte biçimbilimsel çözümleyici burada devreye girerek çıktıyı düzeltmekte kullanılabilir.

Yazıdan sese çevrimlerde (text-to-speech) ise özellikle mekanik tonlu heyecansız konuşmaların  daha vurgulu yapılabilmesi için yine kelime çözümleyicilerden yararlanılabilir. Bir dilde iki tür vurgu söz konusudur: kelime içindeki vurgu ve cümle içindeki vurgu. Eklemeli dillerde kelime içindeki vurgunun nerede olduğunun tespiti için evvela eklerin belirlenmesi gerekir. Zira ekler vurgunun yerini değiştirebilmektedir. Mesela Türkçe de ‘-yor’ eki vurguyu üzerine alır. Cümle içindeki vurgunun belirlenmesi için dil teknolojilerinde bir üst basamakta yer alan sentaktik çözümlemenin de yapılması gerekir.

Biçimbilimsel çözümleyicilerin ağırlıklarını en çok hissettirdikleri nokta ise arama motorlarıdır. Elimizde milyonlarca dosya olduğunu ve bunları belirli anahtar kelimelere göre tasnif etmemiz gerektiğini düşünelim. Buradaki problem özellikle eklemeli dillerde (agglutinative languages) bir kelimenin bir çok çekimli halinin bulunması ve otomasyon dahilinde bunların her birinin ele alınması zorunluluğudur. İşte bu noktada çözümleyiciler devreye girerek bu işlemi üzerlerine alırlar.

Milyonlarca dosya denildiğinde tabiatıyla ilk akla gelen Internet dünyasıdır. Şimdi bu dünyada dil teknolojilerinin kullanımını daha detaylı olarak ele alalım. Dosyaların indekslenmesinde arama motoru şirketlerinin insan editörleri kendilerine gelen sayfaları belirli anahtar kelimelere göre tasnif etmektedirler. Bu iş tamamen insan tarafından yapıldığında uzun ve meşakkatli olabilmektedir. Bunun yerine öncü olarak otomatik kelime algılayıcılar kullanılabilir ki bunlar da esasen biçimbilimsel çözümleyici motorunun bir uç uygulamasıdır. Böylece tasnif işi daha kolaylaştığından insan yükü hafiflemektedir. Hatta dil algılayıcıları da devreye sokularak tamamen otomatik ajanlar (agents) ile tüm Internet sayfalarını dolaşıp, sayfanın hangi dilde olduğunun tespitinin ardından belirli indeks kelimelerinin o sayfada bulunup bulunmadığı araştırılarak ilişkilendirilmeler yapılması da olasıdır ve halen bazı arama motoru şirketlerce kullanılmaktadır.

Internet arama motorlarının uç kullanıcıyla buluştuğu noktada da yine biçimbilimsel çözümleyiciler devrededir. Bu tip kullanımın temel olarak dört ana öğesi mevcuttur.

Birincisi  kelime işlemci programlarda olduğu gibi hatalı yazılan kelimenin tespiti ve düzeltilmesi opsiyonudur (spelling). Örneğin ‘araba’ kelimesini aramak isteyen son kullanıcı yanlışlıkla ‘arba’ yazdığında arama motoru olası düzeltmeleri önermektedir.

İkinci uygulama ise belli sözcük öbeklerinin tanınmasıdır (phrase recognition). Yani sisteme “Türkiye Büyük Millet Meclisi” girildiğinde bunun belirli bir kalıp olduğunun anlaşılarak bir bütün halinde aranmasıdır. 

Üçüncü başlık, aranılan kelimenin eşanlamlılarınında  arama işlemine dahil edilmesidir (thesaurus).  Bir evvelki örneğimizde olduğu gibi kullanıcı ‘araba’ kelimesini araştırmak istediğinde bu kelime ile eşanlamlı olan ‘otomobil’ sözcüğü de aramaya dahil edilmelidir.

Dördüncü uygulama ise özellikle eklemeli dillerin arama motorları için pek ehemmiyetlidir. Girilen sözcüklerin eklerinden arındırılarak köklerinin bulunması (stemming) gerektiğinde yine biçimbilimsel çözümleyiciler devreye girer. Son kullanıcı ‘hürriyet gazetesindeki ilanlar’ girdisini sisteme ilettiğinde,  ‘gazete’ ve ‘ilan’ köklerinin bulunarak arama motorunda bu köklerle aranması gerekir. Zira etkili bir kullanım için anahtar kelimeler sistemde kökler halinde indekslenmelidir.

Bu dört ana başlık haricinde bir soru cümlesini SQL sorgulamasına çevirerek daha üst seviye bir arama yapabilmekte halen yoğun araştırma sahalarındandır. Bu tip uygulamaların pilot versiyonları denenmektedir.

Internet arama motorlarında dil teknolojilerinin kullanılmasındaki önemi daha belirgin kılmak için yüksek lisans çalışmam sırasında edindiğim bir istatistiği belirtmek isterim. Şu an Türkçe arama motorlarındaki başarısız aramaların yüzde ellisi yukarıda bahsettiğimiz problemlerden kaynaklanmaktadır.

Son Söz …

Yüksek lisans çalışmam sırasında Doç. Dr. Mehmed Özkan Bey’in danışmanlığında ilgilendiğim doğal dil işleme teknolojisi üzerinde edindiğim bilgilerin genel bir portresini sunmaya çalıştım. Bu çalışmam dahilinde eklemeli dillerin biçimbilimsel çözümlemesi için daha değişik bir metodoloji önererek Türkçe için bu tip bir çözümleyici programlamış bulunuyorum. Özellikle Internet arama motorlarına entegre edilmesi üzerine halen araştırmalarımız devam etmektedir.

Geleceğin dünyasının oluşumunda çok önemli bir yapı taşı olacağı gözüken doğal dil işleme teknolojilerinin diğer teknik gelişmelerden ayrılan bir tarafı var. Her dil için o dili anadili olarak  kullananlar (veya çok iyi bilenler) tarafından yerel adaptasyonunun gerekli. Yani Türkçe için Türkçe dilini konuşanların yapacağı sistemler çok daha verimli olacaktır. Dünyada değişik lehçelerini de hesaba kattığımızda yaklaşık üç yüz milyon kişinin Türkçe konuştuğu düşünüldüğünde yapılacak işlerin yoğunluğu ve bunun karşılığındaki getirisi heyecan vericidir.

 

M. Oğuzhan Külekçi

 

 

Yazıyla ilgili görüş ve yorumlarınızı yorum@teknoTurk.org ve kulekci@uekae.tubitak.gov.tr adreslerine yollayabilirsiniz.