TÜRKÇE SÖZCÜK DAĞARCIĞINDAKİ 2 MİLYON SÖZCÜĞÜN ÖYKÜSÜ

Post Views: 326

Birkaç aydır Türkçe sözcükleri temiz ve denetlenmiş bir liste halinde derleme çalışmaları yapıyorum.

Bu çalışma, github üzerinden paylaştığım eski DerlemTR (https://github.com/ahmetax/derlemtr) projemin devamı niteliğinde. DerlemTR projesinde elde ettiğim ayrık sözcükleri, onların kullanım frekanslarını kullanarak kolaylıkla temizleyebileceğimi ummuştum.

Fakat hiç de öyle olmadı. Çok kullanılan bazı sözcükler kolaylıkla ayrışırken, düşük frekanslı sözcüklerin hızlı artışı, kelime listesinin kirlenmesini de beraberinde getirdi. Üstelik frekansı düşük olmayan, hatalı kullanımlara dayanan bazı sözcüklerin varlığını da keşfettim.

Temizlemenin kişisel bir çaba ile manuel olarak sürdürülmesi kesinlikle olanaksızdı. O yüzden bu projeyle ilgilenmeyi geçici olarak durdurmuş, daha doğrusu yavaşlatmıştım.

Yapay Zeka araçlarının kodlamayı büyük oranda kolaylaştıran kullanımı, bu projeyi yeniden ele almamı sağladı. Çünkü manuel denetim yerine yeni araçlarla çapraz kontroller yapmak artık daha kolay ve kullanışlı bir hale dönüştü.

Yine Python ile çalışıyorum. Kodlamada Claude, Google Gemini ve Grok‘tan yararlanıyorum. Hepsinin ücretsiz sürümlerini kullanıyorum. Claude veya Gemini‘nin limitlerini aşmamda Grok büyük oranda yardımcı oluyor. Bu projede kullandığım kodları biraz daha olgunlaştıktan sonra github üzerinden de paylaşacağım.

Derlediğim kelimeleri denetlemede kullandığım en önemli araçlardan biri, Zemberek.

Zemberek tarafından sorunsuz çözümlenebilen kelimelerin büyük oranda doğru olduğunu varsayıyorum. Yine de buna uymayan bazı örnekler çıkabiliyor. Örneğin bazı kişi isimleri ve coğrafik yer adları Zemberek’in kök listesinde bulunmuyor. Üstelik en son sürümünde Zemberek, bu sorunu aşmak için -sanırım- pek çok farklı sözcüğü -özellikle büyük harfle başlıyorsa- “Özel İsim” olarak işaretliyor. Yeterli açıklamalara erişemediğim için bu son yorumumun doğru olduğundan emin değilim. Ancak gözlemlerim, bu durumu işaret ediyor.

Bu sorunu aşmak için yeni bir mekanizma tasarladım. Biriktirdiğim 2 milyonun üzerindeki sözcüğü Zemberek ile analiz edip köklerini ayrıştırdım ve bu kökleri bir sözlük derlemesi için başlangıç sözcükler olarak kaydettim.

İkinci aşamada TDK, Wiktionary ve Nişanyan gibi kaynaklara internet üzerinden erişerek, bu kök sözcüklerin geçerli olup olmadıklarını saptamaya başladım.

Zemberek analizi ile sözlüğe 45 bin civarında olası kök eklemiş oldum.

TDK, Wiktionary ve Nişanyan kullanarak bu sözcüklerden bir kısmını doğrulattım. Kalan sözcüklerin pek çoğu yabancı kökenli sözcükler ve kişi-yer isimlerinden oluşuyor.

Şimdi de yer ve kişi isim listeleri derliyorum. Bütün bu bilgiler sonunda sözlüğe dahil olacak. (Bu sözlüğün standart bir sözlük olmayacağını belirteyim. Daha geniş kapsamlı bir çalışma planlıyorum. Sözcüklerin anlamlarını, kökenlerini, kaynaklarını ve benzer bilgileri de içerecek.)

Şu anda elimdeki kısmen temizlenmiş sözcüklerden oluşan 2 milyonluk listenin bir kısmının bu çalışmalar sonucunda eleneceğini öngörüyorum. Ama, bir yandan da gelişmiş bir sözlük kaynağım oluşacak.

Daha sonra, yeni sözcüklerin derlenmesine geçeceğim. Ancak bu yeni kelimeler yeni ve güçlü filtrelerden geçeceği için daha sağlıklı bir derlem oluşturmaya katkıda bulunacak.

Yapacağım yeni çalışmalardan biri, ek kalıplarını sistematize ederek, eksik sözcükleri türetecek bir kod geliştirmeyi hedefleyecek. Bu çalışmanın, çok kullanılmasa bile, teorik olarak doğru ve yerinde eklentilerle yeni sözcükler türetmesini ve elimdeki “Türkçe Sözcük Dağarcığı”nı zenginleştirmesini bekliyorum.

Bütün bu çalışmaları tek başına yürütmek elbette yorucu oluyor. Ancak, bu tür çalışmaları yapması ve açık kaynak olarak sunması gereken kurum ve kuruluşların kullandığımız sözcükleri bile lisansa bağlamaya çalıştıklarını görünce, birinin bunu yapması gerektiğine daha fazla inanıyorum.

Umarım bu çalışmalar, sonunda, dilimizin zengin dokusunu aydınlatmaya bir nebze olsun, yardımcı olur.

Ahmet Aksoy

Yorum bırakın Yanıtı iptal et