AKTA – AÇIK KAYNAK TÜRKÇE BELGE ARŞİVİ (1)

AKTA projesini github üzerinden paylaşıyorum. Github reposunu olur-olmaz güncellemek yerine, bazı gelişmeleri gurmezin.com üzerinden yapmak çok daha kolay olacak.

Project Gutenberg üzerinden belge indirip Türkçeleştirme çalışmalarına başladım. Şu anki hızımla günde 100 kadar dosyayı Türkçeleştirebilirim. Bu sayıyı arttırmak, bazı riskleri de beraberinde getirebilir. O yüzden şartları fazla zorlamayacağım.

Gutenberg sitesinde kullanabileceğim yaklaşık 35600 adet İngilizce belge var. Kabaca 356 günde bu işlemleri tamamlamak mümkün görünüyor. Yani yaklaşık bir yılda. Ancak, başlangıçta işleri biraz ağırdan almak istiyorum. Çünkü tercüme edilen belgelerin denetlenmesi gerekiyor. Sözcük denetimi bu işin en kolay kısmı. Ama, anlamsal açıdan da denetlenebilmesi çok iyi olur.
Anlamsal denetim için ollama üzerinden gemma2 modelini kullanmaya çalışacağım. Eğer bu denetimler insan eliyle yapılacak olursa, çok sayıda gönüllü elemana gerek var demektir. Oysa şimdilik gönüllü eleman sayımız sadece 1 kişi. Umuyorum ki, ileride bu sayı artacaktır.

Projenin dikkat çekmesini sağlamak için bazı araçlardan yararlanmak yerinde olur. Örneğin arşivde yer alan belgelerdeki sözcükleri ve kullanım sıklıklarını listelemek mümkün. En azından en sık kullanılan 10 bin sözcüğü frekanslarıyla birlikte listeleyebiliriz.

Yarın gereken kodu hazırlayacağım. Github’a belge yüklemeye de başlayacağım.

Gelişmeleri buradan paylaşmaya devam etmeyi düşünüyorum.

Sizler de projeye ilgi duyabilecek kişilere çalışmamızın amacını ve linklerini ulaştırırsanız sevinirim.

Ahmet Aksoy

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top