DerlemTR (08) Zemberek ve TRmorph ile Türkçe Kelime Analizleri

DerlemTR Projesi kapsamında toparladığım kelimeleri önce Zemberek aracılığıyla analiz ettim. Ancak bazı sözcükleri Zemberek analiz edemedi.
Önümde iki seçenek vardı:

  1. Zemberek‘in tanıdığı sözcük kapasitesini genişletmek
  2. Türkçe kelimeleri analiz edebilen başka araçlar kullanmak

Zemberek projesi java diliyle geliştirildiği için, kodlama konusunda yapabileceğim pek bir şey yok. Java’yı bilirim ama, hakim değilim. Kodları gerektiğinde yorumlayabilirim ama, yeni kodlar yazamam.

Fakat, Zemberek’in temelinde yer alan sözlük yapılarını zenginleştirebilmem mümkün. Bunu yapmak için java diline hakim olmak gerekmiyor. Hazır kodları derleyip, jar haline dönüştürebilmek yeterli. Bunun denemelerini de yaptım. Github’da yer alan Zemberek kodlarını klonlayıp, Intellij IDEA üzerinden Maven kullanarak sürüm 0.17.2‘yi derleyebildim.

İkinci seçnek için hem interneti taradım, hem de Google Gemini’ye danıştım. Sonuçta, yine github üzerinde paylaşılan TRmorph projesinden yararlanabileceğimi gördüm.
Bu proje Foma sistemiyle hazırlanmış. Açıklamalara göre sadece foma kuruluşu yapmak ve bir C derleyicisine sahip olmak yeterliydi. O yüzden foma’yı kurdum. C derleyicisi sistemimde (Ubuntu 24.04) zaten hazırdı. Sadece make komutu ile analiz programı trmorph.fst‘yi hazırlayıp, test ettim. Sorunsuz çalıştı.

Sonraki aşama, veritabanımdaki kelimeler tablosunda yer alan, ama Zemberek tarafından çözümlenemeyen sözcükleri TRmorph ile analiz etmekti. Yine Google Gemini ile birlikte çalıştık. (Not: Kodlama çalışmalarımda uzunca bir süre temel yardımcım Claude olmuştu. Ancak son aylarda Claude, “limit aşımı” gerekçesiyle çalışmalarımı yarı yolda kesmeye başladı. Alternatiflerim Grok ve Gemini idi. İlk başlarda Gemini ile de bazı limit sorunlarım olmuştu, ama sanırım bu engeli tamamen kaldırdılar. O yüzden son projelerimdeki temel danışmanım genellikle Google Gemini oluyor. Grok‘un da sınırsız yardıma hazır olduğunu biliyorum!)

Sonuç itibariyle kelime dağarcığımı artık hem Zemberek, hem de TRmorph ile analiz edip, denetliyorum. Bu iki araç bana olağanüstü hız kazandırdı. Proje çalışmalarımda verdiğim ve yıllar süren arayı, umduğumdan çok daha hızlı kapatıyorum. Fakat, özellikle Google Gemini’nin katkıları olmasaydı, bu arayı kolay kolay kapatamazdım.

Bir de duyuru yapayım. Hem Zemberek, hem de TRmorph ile Türkçe kelime analiz çalışmalarının Python ile nasıl yapılacağını ayrıntılarıyla Zembil projesi üzerinden paylaşacağım. Konuya ilgi duyanlar, bu projeyi de izleme listelerine alabilirler.

Ahmet Aksoy

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top