DerlemTR (04) AKTA Projesinden 10GB – 30 Bin Dosyalık Türkçe Kaynak

Post Views: 521

DerlemTR projesi 10 yıl önceye dayanıyor. Bu projenin amacı da yeni projemizle aynı. O yüzden yeni projeyi DerlemTR projesiyle birleştirmeye karar verdim. Projenin tüm eski kayıtlarını, eski-versiyon isimli bir klasöre kopyaladım. Yani, isteyen olursa, eski kayıtlara da kolayca ulaşabilir.

AKTA Projesi‘ni, geçen yıl, Açık Kaynak Türkçe Belgeleri paylaşmak amacıyla geliştirmeye başlamıştım. Bir corpus/derlem oluşturacaktım. Ancak, sorunsuz paylaşabileceğim Türkçe kaynaklar bulamadım. O yüzden, açık kaynak yabancı arşivlerdeki belgeleri Türkçeye çevirerek bu sorunu aşmayı hedefledim.
Gutenberg Project yöneticisiye bağlantı kurdum ve yayınladıkları İngilizce belgeleri Türkçeye çevirip açık olarak paylaşma izni aldım.

Aylarca süren yoğun bir çalışma sonrasında yaptırdığım çevirileri daha yakından incelemeye başladım.

Ortaya çıktı ki, paylaşılmakta olan belgeler genellikle oldukça eskiydi. Buna, otomatik (ücretsiz) çevirilere bağlı kalite kayıpları da eklenince, ortaya çıkan belgelerin kalitesinin oldukça düşük olduğunu farkettim. Sonuçta, projeye ara verdim.

…

Birkaç gün önce farkettim ki, elimdeki çevirileri corpus olarak kullanamayacak olsam bile, kelimelerinden yararlanabilirdim.

Hemen akta_tara.py isimli kodu hazırladım ve AKTA Projesi belgelerinden, Türkçe kurallarına uyan kelimeleri derlemeye başladım. Ortaya 1 milyon civarında ayrık kelime adayı çıktı. Bu adayları önceki adaylarla birleştirip yeni bir set oluşturduğumda, karşıma 2 milyon 745 bin kelimelik bir liste oluştu. Beklediğimden çok daha güzel bir sonuç.

Yapacağım test çalışmaları sonucunda bu sözcüklerden bir kısmı elenecek elbette. Ama eminim ki yine de elimde hatırı sayılacak büyüklükte bir liste kalacak.

Bu kelimeleri manuel olarak test etmek, ya da gözden geçirmek mümkün değil. Çünkü bu çalışmaları ne yazık ki tek başıma yapıyorum.

O yüzden bu kelimeleri test etmek üzere farklı bir strateji geliştirdim.

Kelimeleri öncelikle Zemberek kütüphanesiyle analiz edip kök ve eklerini saptayacağım. Sonuçların büyük bir doğruluk payı taşıyacağına inanıyorum. Buna rağmen, sonuçlardan tamamen emin olabilmek için bir de sözlük geliştirmeye başladım. Bu sözlüğü, TDK, Wiktionary ve Nişanyan kaynaklarından yararlanarak derliyorum. Ayrıca coğrafik yer isimleri, özel kişi isimleri gibi derlemelerden de yararlanıyorum. Sonuçta bu sözlük, aday kelimelere ait köklerin doğru olup olmadıklarını sınamak amacıyla kullanılacak. Kökü doğru değilse, o kelime geçersiz olarak işaretlenecek.

Şimdilik bu kadar.

Ahmet Aksoy

Not: Öğle saatlerinde başlattığım kök derleme kodu, hala çalışıyor. 10 saatte m harfine geldi. Demek ki sabaha kadar rahatlıkla bitmiş olacak.

Leave a ReplyCancel Reply