Eki 012016
 
5.731 viewsGensim Vektörel Doküman Eğitimi

Gensim Vektörel Doküman Eğitimi Tıpkı word2vec yöntemi gibi, gensim paketinin doc2vec metodunu da kullanabilirsiniz. Buradaki amaç sözcükler yerine dokümanlar arasındaki ilişkileri vektörel olarak belirleyip, gruplamaktır. Bu alandaki çalışmalar word2vec’e kıyasla çok daha kısıtlı. Öyle sanıyorum ki, sonuçların word2vec kadar kolay anlaşılır ve çarpıcı olmaması, bu durumun belirleyici unsurlarından biri. Dün bir doc2vec çalışması yaptım. Veri olarak “gundem-nz.txt” dosyasını kullandım. Bu dosyayı https://drive.google.com/drive/folders/0B_iRLUok9_qqOFozeHNFMjRHTVk adresinden indirebilirsiniz. Dosyanın […]

Eyl 262016
 
3.858 viewsModelinizi Nasıl Eğitirsiniz?

Modelinizi Nasıl Eğitirsiniz? (Aşağıdaki yazıyı veri madenciliği, derin öğrenme, word2vec, gensim gibi kavramlar hakkında en azından ön bilgilere sahip olduğunuzu varsayarak yazdım. Aksi halde bu yazı size hiç bir şey ifade etmeyebilir. Uyarmadı demeyin! 🙂 ) Hürriyet Gazetesinin izniyle herkesin kullanımına açık ve sözcüklerin vektörel modellemesi amacıyla kullanılabilecek 6 ayrı yeni kaynak oluşturdum. Kaynaklar kategorilere ayrılmış durumda. Aslında bunlar “henüz” oldukça küçük boyutlu kaynaklar. Hepsinin […]

Ağu 262016
 
4.424 viewsEğitilmiş word2vec datasını nasıl kullanırız?

Eğitilmiş word2vec datasını nasıl kullanırız? Elbette bu tür çalışmalarımızı Python ile yapıyoruz. Üstelik interaktif denemeler yapıyorsak, iPython kullanmamız daha doğru. iPython son dönemde jupyter ile entegre çalışıyor. Bu yüzden önce kullanmakta olduğunuz Python sürümünü aktif hale getirin. Ben Python 3.5.1 kullanıyorum ve bunun için tanımladığım evp35 isimli bir sanal ortamım var. Sanal ortamımı devreye sokuyorum: source ~/evp35/bin/activate Artık “python” komutum doğrudan python 3.5.1 sürümünü devreye […]

Ağu 262016
 
5.227 viewsHürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları

Hürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları Açık Kaynaklı DerlemTR Projesi‘nin yeni aşamasında, Hürriyet Gazetesi yetkilileri “derin öğrenme” (deep learning) konulu çalışmalarımızda gazete arşivlerinden yararlanma isteğimizi yine olumlu karşıladı. Başta Sayın Ersay Dizman olmak üzere, gazete yetkililerine tekrar teşekkür ediyorum. Bu aşamada yine python dilini kullandım ve 2010 yılı Hürriyet Gazetesi arşivlerini taratarak “uygun” haberleri bir araya topladım. Haberlerin tarihi, başlığı, muhabiri veya yazarı belli değil. […]