Türkçe Verisetleri

Yapay Zeka - Bilim - Teknoloji (AI-Sci-Tech)
Yapay Zeka - Bilim - Teknoloji (AI-Sci-Tech)



DerlemTR projemizde kullanacağımız aday kelimeleri elde etmede Wikimedia çok önemli bir kaynak oldu. Bu kaynağı bir corpus olarak kullanmak için üzerinde biraz çalışmak gerekir. Ancak bize sadece kelimeler lazım olduğu için, yapacağımız şey, gereksiz karakterleri süzmekten ibaret olacak. Wikimedia en…
AKTA projesine katkıda bulunmak üzere Türkçe Belge Sınıflandırması yapmam gerekiyor. Gutenberg Projesi‘nin arşivindeki belgeler için bir sınıflandırma yapılmamış. Oysa bu belgeleri belirli kategoriler altında toplamak, LLM veya benzeri çalışmalarda Türkçe belgelerin kullanımı açısından yarar sağlayabilir. Bu aralar kod çalışması yaparken…
AKTA projesini github üzerinden paylaşıyorum. Github reposunu olur-olmaz güncellemek yerine, bazı gelişmeleri gurmezin.com üzerinden yapmak çok daha kolay olacak. Project Gutenberg üzerinden belge indirip Türkçeleştirme çalışmalarına başladım. Şu anki hızımla günde 100 kadar dosyayı Türkçeleştirebilirim. Bu sayıyı arttırmak, bazı riskleri…