Tem 072023
 
842 views

word2vec

2016 yılında başladığım Derlemtr projesini, belli bir aşamaya getirmiş ve github üzerinden paylaşmıştım.

Ancak, beklenmedik bazı sağlık sorunları yüzünden bu tür çalışmalarımı arka plana çekmek zorunda kaldım.

Sağlık sorunları nihayet kritik olmaktan çıktı. Ben de yarım kalan projelerimi yeniden ele almaya başladım.

DerlemTR projesi bunların başında geliyor.

Türkçenin eklemli bir dil olması ve çok sayıda yabancı kökenli sözcük içermesi, derlem çalışmalarını zorlaştıran bir unsur. Öte yandan, sözcükleri derlediğimiz kaynaklardaki yazım hataları,  derlemenin kalitesini büyük oranda düşürüyor.

Şu anda elimde 3 milyon 536 bin 4 (3,536,004) adet sözcük içeren bir veritabanı var. Bu veritabanını, eski yedekleme dosyalarını kullanarak, sqlite3 üzerinde tekrar canlandırdım.

Ne yazık ki veritabanındaki sözcüklerin neredeyse yarısı, hatalı veya henüz denetimden geçememiş durumda.

Denetimi zemberek aracılığıyla yapıyorum. (zemberek-tum-2.0.jar dosyasını python üzerinde jpype1 kütüphanesini kullanarak çalıştırıyorum.) Eğer zemberek’e verdiğim sözcük kök ve eklerine ayrıştırılabiliyorsa, denetimden geçiyor demektir. Herşeye rağmenk zemberek listesinde yer almayan çok sayıda güncel sözcük,  denetimden geçemiyor. Yer adları, kısaltmalar, yabancı sözcükler de bu denetime takılıyorlar. Zemberek’in güncel sürümlerinde bu sorunların bir çoğu çözümlenmiş olabilir. Ancak, şimdilik, elimdeki araç bu.

DerlemTR çalışmasında sadece sözcükleri derlemek değil, kullanım frekanslarını da belirlemek istemiştim. Frekansı yüksek olan sözcükler zaten doğru yazılmış sözcükler. Sorunlu olanların büyük çoğunluğu çok düşük frekanslara sahip.

Bir ara denetimi sözcük frekanslarını kullanarak yapmak istemiş ve düşük frekanslı ( frekansı 5’ten düşük) olanları elemiştim. Ama, umduğum sonuçları alamadım. Çünkü ulaşabildiğim kaynaklar çok sınırlı. Bu sorun, hala sürüyor.

Sözcük denetiminde faydası olacağı umuduyla bir django projesi geliştirdim. Veritabanı sqlite3. Sorun yaratmayacağını ummuştum ama, sonuçlar çok kötü. Sayfalandırma kullanmama rağmen ilk yükleme ve sonraki sayfa değişimleri olağanüstü yavaş. Fırsat bulduğumda veritabanını postgresql veya sqlite3 :memory:  ile değiştireceğim. Şu anda bu denemelerin nasıl sonuçlanacağına dair en ufak bir fikrim yok.

Aslına bakarsanız, artık yapılacak işlerin pek çoğunu yapay zeka araçlarına devretmenin tam zamanı da geldi. ChatGPT gibi araçlar, daha şimdiden, mükemmel çözümler üretiyorlar.

Ben de bu yüzden, yapay zeka araçlarıyla daha etkin bir iletişim kurmaya çalışıyorum. “Prompt engineering” kavramı gerçekten de çok önemli! Eğer iletişiminizi verimli hale getirebiliyorsanız, yapay zeka araçları size muazzam olanaklar sağlıyor. Son dönemde yazdığım kodların pek çoğu için ChatGPT veya Google Bard‘a danışıyorum. İnternet aramalarımda ise Firefox Bing eklentisini kullanıyorum.

Derlem derlemede yapay zeka araçlarının çok yararlı olacağına inancım tam. Fakat, ne yazık ki henüz bu konuda bir çözüm üretme olanağım yok. Eğer sizin önerileriniz varsa, dinlemeye ve denemeye hazırım. Yeni ve sağlıklı Türkçe kaynaklar konusunda da destek alabilirim. Kapım her zaman açık.

Soru, öneri ve eleştirilerinizi yorum alanından bana iletebilirsiniz.

Yeniden görüşmek üzere…

Ahmet Aksoy

 

 

 

 

 

 

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(gerekli)

(gerekli)

This site uses Akismet to reduce spam. Learn how your comment data is processed.