|
Doğal Dil İşlemeye Genel Bir Bakış ve Biçimbilimsel Çözümleyiciler - 2 |
|
Bu yazının birinci bölümüne ulaşmak için tıklayınız. Biraz
Derinlik: Biçimbilimsel çözümleyiciler ve pratik kullanım alanları...
Yazımızın
baş taraflarında sonlu durum tekniklerinin (finite state technics) doğal
dil işlemenin (DDİ) temel taşını oluşturduğuna işaret etmiştik.
Şimdi bunun nedenleri üzerinde daha detaylı bir şeyler söyleyebiliriz.
Yukarıda izah edilmeye çalışılan
basamaklandırmanın birinci öğesi olan biçimbilimsel analiz
sonlu durum teknikleriyle (finite state transducers, finite state
/augmented /recursive transition networks... ) yapılmaktadır.
Merdivenin ilk basamağının temel taşını tüm merdivenin temeli
saymak çok yanlış olmasa gerek. Kaldı ki diğer bölümlerde de (özellikle
sentaksta) sonlu durumların geniş kullanımı mevzu bahistir. DDİ
çalışma sürecinin ilk ve temel ürünü olan biçimbilimsel çözümleyicilerin
tek başlarına da birçok pratik kullanımı mevcuttur. Şimdi
bunlardan birkaçını sıralamaya çalışalım. Sözcük
işleme programlarında hatalı yazılan kelimelerin tespit edilerek düzeltilmesi
bugün pek çoğumuzun günlük hayatımızda kullandığımız bir
uygulama. Yazılan her kelimeden sonra otomatik olarak devreye giren
çözümleyici bir hata tespit ettiğinde kullanıcıyı uyarmakta ve
olası çözümleri sunmakta. Sesten
yazıya çevirim (speech-to-text) sistemlerinde de biçimbilimsel çözümleyicilerin
yoğun kullanımı mevcuttur. Konuşmada geçen herhangi bir kelimenin
yazıya çevrilmesinde ortaya çıkan birkaç ihtimalin
(ambiguity) teke indirilmesi için adaylar arasında dile uygunluk ve doğruluğun
aranması yanında lehçe farklılıklarından doğan problemleri de
çözmeye yönelik yaklaşımlar halen uygulamalar dahilindedir. Bir diğer
nokta ise özellikle eklemeli dillerde daha yoğun olarak ortaya çıkan
konuşmadaki kelimeleri doğru yerlerden kesebilmektir. Mesela Türkçe’de
“kırmızı başlıklı kız” seslendirildiğinde “kır” ile
“mızı” arasındaki duraklama “başlıklı” ile “kız” arasındaki
duraklamadan daha uzun olabilmekte ve sonuçta sistem bu ses parçasını
“kır mızı başlıklı kız” olarak yanlış dikte edebilmektedir.
İşte biçimbilimsel çözümleyici burada devreye girerek çıktıyı
düzeltmekte kullanılabilir. Yazıdan
sese çevrimlerde (text-to-speech) ise özellikle mekanik tonlu heyecansız
konuşmaların daha vurgulu
yapılabilmesi için yine kelime çözümleyicilerden yararlanılabilir.
Bir dilde iki tür vurgu söz konusudur: kelime içindeki vurgu ve cümle
içindeki vurgu. Eklemeli dillerde kelime içindeki vurgunun nerede olduğunun
tespiti için evvela eklerin belirlenmesi gerekir. Zira ekler vurgunun
yerini değiştirebilmektedir. Mesela Türkçe de ‘-yor’ eki vurguyu
üzerine alır. Cümle içindeki vurgunun belirlenmesi için dil
teknolojilerinde bir üst basamakta yer alan sentaktik çözümlemenin
de yapılması gerekir. Biçimbilimsel
çözümleyicilerin ağırlıklarını en çok hissettirdikleri nokta
ise arama motorlarıdır. Elimizde milyonlarca dosya olduğunu ve bunları
belirli anahtar kelimelere göre tasnif etmemiz gerektiğini düşünelim.
Buradaki problem özellikle eklemeli dillerde (agglutinative languages)
bir kelimenin bir çok çekimli halinin bulunması ve otomasyon
dahilinde bunların her birinin ele alınması zorunluluğudur. İşte
bu noktada çözümleyiciler devreye girerek bu işlemi üzerlerine alırlar.
Milyonlarca
dosya denildiğinde tabiatıyla ilk akla gelen Internet dünyasıdır.
Şimdi bu dünyada dil teknolojilerinin kullanımını daha detaylı
olarak ele alalım. Dosyaların indekslenmesinde arama motoru şirketlerinin
insan editörleri kendilerine gelen sayfaları belirli anahtar
kelimelere göre tasnif etmektedirler. Bu iş tamamen insan tarafından
yapıldığında uzun ve meşakkatli olabilmektedir. Bunun yerine öncü
olarak otomatik kelime algılayıcılar kullanılabilir ki bunlar da
esasen biçimbilimsel çözümleyici motorunun bir uç uygulamasıdır.
Böylece tasnif işi daha kolaylaştığından insan yükü
hafiflemektedir. Hatta dil algılayıcıları da devreye sokularak
tamamen otomatik ajanlar (agents) ile tüm Internet sayfalarını dolaşıp,
sayfanın hangi dilde olduğunun tespitinin ardından belirli indeks
kelimelerinin o sayfada bulunup bulunmadığı araştırılarak ilişkilendirilmeler
yapılması da olasıdır ve halen bazı arama motoru şirketlerce
kullanılmaktadır. Internet
arama motorlarının uç kullanıcıyla buluştuğu noktada da yine biçimbilimsel
çözümleyiciler devrededir. Bu tip kullanımın temel olarak dört ana
öğesi mevcuttur. Birincisi
kelime işlemci programlarda olduğu gibi hatalı yazılan
kelimenin tespiti ve düzeltilmesi opsiyonudur (spelling). Örneğin
‘araba’ kelimesini aramak isteyen son kullanıcı yanlışlıkla
‘arba’ yazdığında arama motoru olası düzeltmeleri önermektedir.
İkinci
uygulama ise belli sözcük öbeklerinin tanınmasıdır (phrase
recognition). Yani sisteme “Türkiye Büyük Millet Meclisi” girildiğinde
bunun belirli bir kalıp olduğunun anlaşılarak bir bütün halinde
aranmasıdır. Üçüncü
başlık, aranılan kelimenin eşanlamlılarınında
arama işlemine dahil edilmesidir (thesaurus). Bir evvelki örneğimizde olduğu gibi kullanıcı
‘araba’ kelimesini araştırmak istediğinde bu kelime ile eşanlamlı
olan ‘otomobil’ sözcüğü de aramaya dahil edilmelidir. Dördüncü
uygulama ise özellikle eklemeli dillerin arama motorları için pek
ehemmiyetlidir. Girilen sözcüklerin eklerinden arındırılarak köklerinin
bulunması (stemming) gerektiğinde yine biçimbilimsel çözümleyiciler
devreye girer. Son kullanıcı ‘hürriyet gazetesindeki ilanlar’
girdisini sisteme ilettiğinde, ‘gazete’
ve ‘ilan’ köklerinin bulunarak arama motorunda bu köklerle aranması
gerekir. Zira etkili bir kullanım için anahtar kelimeler sistemde kökler
halinde indekslenmelidir. Bu
dört ana başlık haricinde bir soru cümlesini SQL sorgulamasına çevirerek
daha üst seviye bir arama yapabilmekte halen yoğun araştırma sahalarındandır.
Bu tip uygulamaların pilot versiyonları denenmektedir. Internet
arama motorlarında dil teknolojilerinin kullanılmasındaki önemi daha
belirgin kılmak için yüksek lisans çalışmam sırasında edindiğim
bir istatistiği belirtmek isterim. Şu an Türkçe arama motorlarındaki
başarısız aramaların yüzde ellisi yukarıda bahsettiğimiz
problemlerden kaynaklanmaktadır. Son Söz … Yüksek
lisans çalışmam sırasında Doç. Dr. Mehmed Özkan Bey’in danışmanlığında
ilgilendiğim doğal dil işleme teknolojisi üzerinde edindiğim
bilgilerin genel bir portresini sunmaya çalıştım. Bu çalışmam
dahilinde eklemeli dillerin biçimbilimsel çözümlemesi için daha değişik
bir metodoloji önererek Türkçe için bu tip bir çözümleyici
programlamış bulunuyorum. Özellikle Internet arama motorlarına
entegre edilmesi üzerine halen araştırmalarımız devam etmektedir. Geleceğin dünyasının oluşumunda çok önemli bir yapı taşı olacağı gözüken doğal dil işleme teknolojilerinin diğer teknik gelişmelerden ayrılan bir tarafı var. Her dil için o dili anadili olarak kullananlar (veya çok iyi bilenler) tarafından yerel adaptasyonunun gerekli. Yani Türkçe için Türkçe dilini konuşanların yapacağı sistemler çok daha verimli olacaktır. Dünyada değişik lehçelerini de hesaba kattığımızda yaklaşık üç yüz milyon kişinin Türkçe konuştuğu düşünüldüğünde yapılacak işlerin yoğunluğu ve bunun karşılığındaki getirisi heyecan vericidir.
Yazıyla ilgili görüş ve yorumlarınızı yorum@teknoTurk.org ve kulekci@uekae.tubitak.gov.tr adreslerine yollayabilirsiniz.
|