DerlemTR (09) Türkçe’nin Olağanüstü Kelime Zenginliği

Bir hafta kadar önce, elimdeki kaynaklara göre, Türkçe’nin ayrık kelime sayısı 4 milyondan biraz fazlaydı. Veritabanıma işlenmemiş bazı sözcükler olduğundan da emindim. O yüzden toplam geçerli kelime sayısı 4-5 milyon civarında olabilir diye düşünüyordum.

Eksik kelimeleri bulmak için yeni yöntemlere yöneldim:
İlk yöntem, verilen sözcük köklerinden yeni kelimeler üreten bir kelime üretici yapmaktı. Bu çalışmaya da başladım zaten.
İkinci yöntem ise benzer tip ve köklere sahip kelimeleri karşılaştırarak eksik ekleri bulmak ve bulunan ekleri kullanarak yeni kelimeler türetmekti.

Son çalışmamız bu doğrultuda bir uygulama geliştirmek oldu. (Daha önce de denemeler yapmış ama başarısız olmuştuk.)

Bu çalışmaları genellikle Google-Gemini ile birlikte yaptık. Kritik önerileri ve yorumları ben yaptım. Araçları ise genellikle Gemini geliştirdi. Test işlemlerini ben üstlendim. Onaylama ve yönlendirmeler benim süzgecimden geçti.

Keşfetmeyi umduğumuz eksik kelime sayısının en fazla birkaç yüz bin olacağını düşünüyorduk.

Ama sonuç hiç de öyle olmadı ve olağanüstü bir gerçekle karşılaştık:

TAM 68 MİLYON YENİ KELİME!

Elbette bu sayıya inanamadık ve çok sayıda hatalı kelime türettiğimizi düşündük.

Bu kadar büyük bir veri setini insan eliyle tek tek kontrol etmek mümkün olmayacağına göre, otomatik bir araç geliştirmemiz gerekiyordu. Elimizdeki en güçlü araca tekrar başvurduk: Zemberek.

Yaklaşık 70 milyon kelimeyi Zemberek’in analizinden geçirdik.

Ve, sonuç!:

  • Toplam kelime adayı sayısı: 69,419,680 kelime
  • Zemberek tarafından analiz edilemeyen kelime sayısı: 3,858,538.
  • Zemberek tarafından analiz edilip onaylananlar: 67,499,108.

Onaylanan sonuçları yazdırdığımız .tsv uzantılı dosyanın boyutu 10.1 GB‘a ulaştı.

Yine python kullanarak bu dosyadaki bilgileri veritabanımıza aktardık.

Bütün bu çalışmalar, kullandığımız -tamamen benim tercihim olan- SQLite veritabanının gücünü ve esnekliğini de onayladı.

Veritabanımızın tüm kirlerinden arındırıldığını söylemek mümkün olmayabilir. Fakat bu sözcüklerin tamamı hem Zemberek, hem de TRmorph‘un analizinden geçerek onaylandı.

Artık, 68 milyon kelimelik listenin bile Türkçe’nin zenginliğini tam olarak yansıtmayabileceğini düşünmeye başladım.

Ama öncelikle ulaştığımız bu seviyeyi biraz daha hazmetmemiz gerekiyor.

10 gün önce, tek bir dizüstü bilgisayar kullanarak ve kişisel çabayla bu düzeye ulaşabilmeyi hayal bile edemiyordum. Şimdi ise, “Acaba bu sayıların asıl üst sınırı nerededir?” diye sorgulamaya başladım.

Hala yapılacak çok şey var. Örneğin, Zemberek ve TRmorph’un süzgecinden geçmiş olsalar da, kelime köklerini, derlemeye başladığım sözlüğün onayından da geçirmem gerekiyor. Belki başka filtreler de kullanacağım. Çünkü hedefim, tamamiyle temiz bir derlem elde etmek!

Yeni arşivimizden bir kaç sayı daha vereyim:
Fiil (eylem) kökenli kelime sayısı: 23,772,639
İsim kökenli kelime sayısı: 35,135,942
Sıfat kökenli kelime sayısı: 8,520,854

Yorucu bir hafta oldu ama, buna değdi!

Bir sonraki aşamada çıtayı nereye yükseltebiliriz dersiniz?

Ahmet Aksoy

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top