DerlemTR projemizde kullanacağımız aday kelimeleri elde etmede Wikimedia çok önemli bir kaynak oldu. Bu kaynağı bir corpus olarak kullanmak için üzerinde biraz çalışmak gerekir. Ancak bize sadece kelimeler lazım olduğu için, yapacağımız şey, gereksiz karakterleri süzmekten ibaret olacak.

Wikimedia en son makalelerini bir zip dosyası olarak bize sunuyor:
https://dumps.wikimedia.org/trwiki/latest/trwiki-latest-pages-articles.xml.bz2
Bu dosyayı bilgisayarımıza indirip açtığımızda bir xml dosyası elde ediyoruz. Ama bunu yapmamıza bile gerek yok. github DerlemTR sayfasında paylaştığım wiki_xml2txt.py betiği gerekli tüm dönüşümleri sağlıyor ve tr_corpus_wiki.txt isimli tek bir dosyaya dönüştürüyor. Bu çıktı dosyasının boyutu yaklaşık 2 GB.
tr_corpus_wiki.txt dosyasını tekil kelimelere dönüştürmek için yeni_kelime_tara.py betiğini kullanıyoruz.
Bu betiği çalıştırdığımızda elde edeceğimiz çıktı dosyasının adı yeni_kesin_turkce_adaylari.txt. Benim kullandığım corpus dosyasından 783 bin 914 ayrık kelime elde ettim. Sizin kullanacağınız corpus dosyası ve ondan türeyecek ayrık kelime sayısı benimkinden biraz farklı olabilir. Dosyanın oluşması yaklaşık 1 saat sürdü.
Bu yeni dosyanın içeriğini tr_lexicon.txt dosyasına ekleyeceğiz. (İlk başta tr_lexicon.txt dosyanız boş olabilir. Bu dosyayı yavaş yavaş büyüteceğiz.)
Bir sonraki adımda, çok daha büyük bir kaynağı kullanacağız: AKTA PROJESİ.
Bu projeden nasıl yararlanacağımızı bir sonraki yazımda anlatacağım.
Ahmet Aksoy