21 Temmuz 2008

Akademik çalışmalarda Zemberek

Ara ara çeşitli universitelerden Zemberek kullanımına ilişkin sorular yöneltiliyor. Anladığımız kadarı ile özellikle linsans ve bazen yüksek lisans tezlerinde ve araştırmalarda Zemberek kullanılıyor. Bu gerçekten güzel bir şey. Bunun için Google Scholar'da bir araştırma yapınca epey bir makale bağlantısı ile karşılaştık. Bunlardan bir kısmı şu şekilde (Bağlantılar genellikle pdf):

Turkalator, A Suite of Tools for Augmenting English-to-Turkish Statistical Machine Translation

Author Identification for Turkish Texts

Aşağıdaki makale ilginç. TDK'nin destek olmaması nedeni ile TDK web sitesinden bilgileri nasıl çektikleri anlatılıyor.
Semantic categorization of Turkish language elements

A New Feature Extraction Method for Text Classification

Turkish Document Classification Using Shorter Roots

Turkish keyphrase extraction using KEA

Advanced Information Extraction with n-gram based LSI

Bu makalelerin büyük kısmında kütüphane kök bulucu (stemmer) olarak kullanılmış. Bir kısmında işe yapısal çözümleyici sonuçlarından yararlanılmış. Yöneltilen sorulardan birisi de makalelerde Zemberek'i referans olarak kullanmak için bir yayının olup olmadığı yönünde. Bundan bir kaç sene önce yazdığımız bir makale kabul edilmediğinden sadece proje sayfasının referans verilmesi yeterli olacaktır.
Yukarıdaki makalelerden başka özellikle lisans bitirme projelerinde Zemberek'in kullanıldığını tahmin ediyorum. Eğer bağlantı gönderenler olursa memnun oluruz.

07 Temmuz 2008

Zemberek projelerinin kararlı sürümleri yayınlandı.

27 Haziran 2008'de projelerin rc1 sürümlerini duyurmuştuk. Tesbit edilen diğer hataları da gidererek zemberek ve zemberek-server projelerine ait yeni sürümleri yayınlıyoruz. Zemberek Openoffice eklentisi de ileriki bir tarihte yayınlanacak. Dosyalar yine http://code.google.com/p/zemberek/downloads/list adresinden indirilebilir.

zemberek-2.1

  • Tercihen kelimesi eklendi. (Issue #56)
  • Ses düşmesine uğraması gereken kelimelerle ilgili hata düzeltildi. (Issue #44)
  • Demo uygulamasına hatalı kelimeleri renklendirme özelliği eklendi. (Issue #66)
  • Bağ-Kur kısaltması ile ilgili problem gideildi. (Issue #57)
  • Bankamatik kelimesi yumuşamaya uğrayacak şekilde işaretlendi.
  • Kısayol kelimesi bilişim sözlüğüne eklendi. (Issue #53)
  • "ğ" ve "ş" içeren kişi adları ile ilgili öneriler düzeltildi.
  • unit-test işlemi çalışır hale getirildi.
  • Bağımlı kütüphanelerin yer almadığı kaynak dağıtımı eklendi.
  • Dağıtımla ilgili düzenlemeler.
zemberek-server-0.7.1
  • jar dosyası classpath düzenlemesi.
  • JNI kütüphaneleri optimizasyon bayrakları olmadan derlenip pakete eklendi.
  • Bağımlı kütüphanelerin yer almadığı kaynak dağıtımı eklendi.
  • Dağıtımla ilgili düzenlemeler.