Deneysel kelime tabanli Firefox imla denetim eklentisi
Hafta sonu bos zamanda onceden e-posta listelerinde tartistigimiz , sonradan dusunup yapmaya usendigim bir seyi denedim. Ozellikle Windows altinda firefox kullanan kisilerin imla denetimi ihtiyaclarini kismen karsilamak icin kelime tabanli bir imla denetimi eklentisi denemesi yaptim. Mekanizma basit, imla denetimi icin zemberek gibi yapisal analiz yapmak yerine devasa bir kelime yigininda kelimenin var olup olmadigina bakiliyor. Bu isi yapan firefox icindeki Hunspell. Bu yontemin kotulugu imla denetim basariminin dusuk olmasi. Avantaji ise pek cok uygulama ile butunlestirilmesi.
Turkce gibi eklemeli dillerde bu yontemi kullanarak orta seviye kabul edilebilir bir duzeyde basarim ile imla denetimi yapmak icin elde cok yuksek sayida kelime olmasi gerekiyor. Bu kelime listesini olusturmak icin internette buldugumuz 170 civarinda cesitli elektronik kitap, sozluk ve dokumani taradim (okuma degil sadece kelime toplama amacli kullanildi). Kelimeler zemberek kullarak denetlenip bir dosyaya yigildi. Bu kaynaklardan ortaya 330.000 kelimelik bir kelime listesi ortaya cikti. Bu liste kullanilarak taranmamis dokumanlar uzerinde yaptigim testler zemberek'in %95-96'si basarim ile calistigini gosterdi. Ancak kalan %4-5 lik alanin kelime ekleme ile doldurulmasi guc cunku 200.000 kelimelik bir listede basarim %94 civarinda idi. Yani bir sure sonra basarim artisi cok yavasliyor. O nedenle bu yontemin zemberek kalitesinde cozumleme yapmasi mumkun degil gorunuyor.
Daha sonra kelimeleri hunspell formatina koyup basitce paketleyip bir Firefox eklentisi olusturup Firefox add-on sitesine yolladim. Su anda deneysel eklenti kapsaminda gorunuyor, indirebilmeniz icin siteye uye olmaniz gerekiyor. Indirip test eder ve siteye review yazarsaniz sanirim gercek bir eklenti haline donusebilir. Suradan firefox'a ekleyebilirsiniz. Bunun icin Google code hosting altinda bir proje acacagim ama taranan kaynaklar orada yer almayacak sadece kelime listesini olusturan kod ve eklentiler yer alacak.
Notlar:
- Bu yontem ozellesmis konularda cok daha kotu bir basarim ile calisacaktir. Ornegin saglik konulu bir yazida basarim %90 civarina dusebilir.
- Bu yontem hunspell-affix dosyasi kullanilarak gelistirilebilir. Hic olmazsa iki derinlikli eklerin kok kelimelere eklenmesini saglayacak sekilde basarim cok daha iyi olabilirdi. Bunun icin hunspell affix dosyasinin duzgun sekilde yazilmasi gerekiyor.
- Kelime sayisi farkli turden dokumanlarla zenginlestirilebilir. Bu konuda universite tezleri ve gazete arsivleri iyi bir kaynak olabilir.
- Pardus ya da zemberek kullanan diger Linux dagitimlarinda bu eklentinin kullanilmamasi gerekir. Denemedim ancak problemlere yol acabilir. Zaten zemberek cok daha iyi bir is cikariyor ;)



