28 Mart 2007

Zemberek belgeleri

Java.net sitemizden google sitemize taşınırken belgeleri de güncelleyerek aktarıyoruz.

Geliştirici belgeleri

SSS

22 Mart 2007

Tatarça-Törekçä

Gectigimiz gunlerde Open Office.org Turkiye'den Rail bir mesaj yolladi. Open Office'in Tatarca icin yerellestirilmesi konusunda bir projenin olabileceginden bahsetti ve Zemberek ile tatarca imla denetimi ve dil servilerinin verilip verilemeyecegini sordu (Tatarca, Tataristan 'da konusulan dil. Kirim Tatarlarinin yurdu ve kullandiklari dil olan Kirim Tatarcasi farkli gorunuyor). Zemberek2 yapisini elimizden geldigince dilden bagimsiz ve yeni dil eklemeyi kolaylastiracak sekilde degistirdigimizden tatarcayi eklemenin mumkun oldugunu soyledik. Tabiki bunu kendi basimiza gerceklestirmemiz mumkun degil. Tatarca konusunda uzman birisinin yardimci olmasi , ve mumtemelen baska kisilerin de veri girisi saglamasi gerkiyor. Zemberek ve diger dil isleme sistemlerindeki temel sorun aslinda bilgiye olan erisim ve bilgi toplama problemi. Butun bunlar oldukca zaman isteyen isler, isin programlama kismini cekridek gelistiriciler nispeten hizla halledebilir gorunuyor.
Son iki gunde biraz arastirma yaptim, gorunuse gore Tatarca Turkmence ya da Azerice'den ayri bazi zorluklar iceriyor. Ilk sorun alfabe. Ortada uc farkli alfabe mevcut; ikisi latin, digeri Kril alfabesi. Wikipedia'da okuduguma gore Ne yazik ki Rus hukumeti resmi olarak kril disi alfabelerin kullanimina izin vermiyor, ancak biz saniyorum genede en son kullanilan latin alfabesi icin bu isi gerceklestirmeye calisacagiz. Kril alfabesindeki semboller bire bir harflere karsilik dustugunden sonradan bir on-art isleyici ile girisi alfabeden bagimsiz yapmak pekala mumkun.
Diger sorun ise Zemberek icindeki bazi yapilarin halen cok genellestirilememis olmasindan kaynaklaniyoru. Tatarca ek uretim kurallari Turkce, Turkmence ve Azerice'den epey farkli gorunuyor. Bu nedenle daha en basta ek konfigurasyonu okuma kodunda bir degisiklik yapmam gerekti.
Tatarca konusunda bulabildigim en iyi internet kaynagi "I tugan tel". Dilbiglisi konusunda yazilar, sozlukler ve cesitli makaleler mevcut. Ne yazik ki sadece bir iki tanesi Turkce. Simdilik kisa Tatarca dilbilgisi yazisindan yararlanarak bir kac test ek ve koku tanimladim ve sistemi bu basit hali ile calisir hale getirdim (aslinda bir iki saat surebilecek bir isti ama tatar alfabesi ve eklerini ogrenme , ek olusum mekanizmasini degistirme derken 6-7 saat tuttu). Asagida bir ornek gorebilirsiniz:


(tel->dil, telemne-> dilime, telläremnän-> dillerimden) . Sadece uc dort kok ve on ek ile simdilik isler yuruse de yakinda yapiyi hafifce sarsacak problemlerle karsilasabilecegimizi saniyorum.
Turkceden farkli bir durum ornekte yer aliyor. uzaklasma eki "dan" turkce gibi. "dan, tan, dän, tän" seklinde ureyebiliyor. Ancak eger eklenecegi kelime "n, m ya da ñ" ile biterse "nan, nän" seklinde olusuyor. Bu nedenle ek uretim mekanizmasina ozel kural koymak zorunda kaldim. ispanyolca alfabede yer alan 'ñ' harfi tatarcada anadoluda halen kullanilan genizin ust tarafinin birlesimi ile cikarilan 'n' harfi seklinde okunuyor. Toplam on sesli iceren tatarcadaki 'ä' ise Azericedeki 'ə' harfi ile ayni saniyorum, a ile e arasi bir ses karsilik dusuyor.
Bu konuda Zemberek tek alternatif degil elbette, saf imla denetimine yonelik ve eklemeli dillere uygun C++ tabanli Hunspell mevcut. Biz tabi zamanimiz da el verirse Zemberek ile yola devam edecegiz.
(Not: verdigim bilgiler hatali olabilir, Tatarca bilen arkadaslar duzeltebilir)