Eyl 262016
 
1.709 views

Modelinizi Nasıl Eğitirsiniz?

(Aşağıdaki yazıyı veri madenciliği, derin öğrenme, word2vec, gensim gibi kavramlar hakkında en azından ön bilgilere sahip olduğunuzu varsayarak yazdım. Aksi halde bu yazı size hiç bir şey ifade etmeyebilir. Uyarmadı demeyin! 🙂 )

Modelinizi nasıl eğitirsiniz?

From: filmgoo.com

Hürriyet Gazetesinin izniyle herkesin kullanımına açık ve sözcüklerin vektörel modellemesi amacıyla kullanılabilecek 6 ayrı yeni kaynak oluşturdum. Kaynaklar kategorilere ayrılmış durumda. Aslında bunlar “henüz” oldukça küçük boyutlu kaynaklar. Hepsinin toplamı 1 Gigabyte boyutuna bile erişemiyor. O yüzden kaynak çalışmalarımızı büyütmeye ve çeşitlendirmeye devam edeceğim.

Kaynaklarımız henüz küçük olabilir ama, işlevleri büyük. Bu amaçla hazırlanmış ve herkesin kullanımına açık -bildiğim kadarıyla- pek Türkçe kaynak yok. İşte biz de bu yüzden bu açığı kapatmaya çalışıyoruz.

Kaynak dosyalarımızı tek başlarına veya birbirleriyle birleştirerek kullanmak mümkün. Eğer bilgisayarınızın kapasitesi yeterliyse, bu beş dosyayı birbiriyle birleştirip tek başına kullanmanızı öneriyorum. Böylece hem daha geniş kapsamlı, hem de daha tutarlı ilişkiler oluşturabilirsiniz.

Dosyalar, Gensim paketiyle uyumlu bir şekilde düzenlendi.
1- Haberler cümlelerine ayrıldı ve her satıra bir cümle kondu
2- Tüm harfler küçük harfe dönüştürüldü
3- İnceltme işaretleri kaldırıldı
4- Sayılar yok edildi
5- Tüm noktalama işaretleri kaldırıldı
6- Dolgu sözcükleri (stopwords) devredışı bırakıldı

Aslına bakarsanız sözcüklerin kök haline dönüştürülmesi bu verileri daha da verimli bir hale getirebilirdi. Ancak henüz tüm sözcükleri kök ve eklerine ayırabilen bir çözümümüz yok. (Türkçe sözcükleri kök ve eklerine ayırma çalışmamızın ön hazırlıkları halen devam ediyor. Tamamlandığında, veri dosyalarımızdaki sözcükleri de köklerine dönüştürebileceğiz.)

Dosyaları eğitmek oldukça kolay. Örneğin gundem-nz.txt dosyasını eğitelim:

Eğitilmiş dosyamızı daha sonra yeniden yükleyip kullanabiliriz. Hatta bu dosyayı tekrar eğitmek te mümkün. Ancak tekrar eğitim sırasında eğitilmiş sisteme yeni sözcükler eklememiz mümkün olmuyor. Bu nedenle ilk eğitim verisinin olabildiğince geniş kapsamlı olmasında yarar var.

Eğitilmiş dosyayı yeniden yükleyip test edelim:

Bunlar da elde ettiğimiz sonuçlar:

Yukarıdaki yükleme ve eğitme işlemlerini jupyter-ipyton ile de yinelemeyi düşünüyorum. Eğer imkan bulabilirsem, aynı bilgileri www.kaggle.com/datasets/ alanında da paylaşacağım.

Arkası gelecek…

Ahmet Aksoy

Not: Word2Vec eğitimlerinde kullanabileceğiniz data dosyalarını aşağıdaki GoogleDrive adresinden indirebilirsiniz.
Dosya isimleri şunlar:
1- arsiv-nz.txt
2- dunya-nz.txt
3- ekonomi-nz.txt
4- futbol-nz.txt
5- gundem-nz.txt
6- spor-nz.txt

https://drive.google.com/drive/folders/0B_iRLUok9_qqOFozeHNFMjRHTVk