Tem 072023
 
921 viewsTürkçe Derlem DerlemTR Çalışmamı Güncelliyorum

2016 yılında başladığım Derlemtr projesini, belli bir aşamaya getirmiş ve github üzerinden paylaşmıştım. Ancak, beklenmedik bazı sağlık sorunları yüzünden bu tür çalışmalarımı arka plana çekmek zorunda kaldım. Sağlık sorunları nihayet kritik olmaktan çıktı. Ben de yarım kalan projelerimi yeniden ele almaya başladım. DerlemTR projesi bunların başında geliyor. Türkçenin eklemli bir dil olması ve çok sayıda yabancı kökenli sözcük içermesi, derlem çalışmalarını zorlaştıran bir unsur. Öte […]

Ağu 262016
 
4.428 viewsEğitilmiş word2vec datasını nasıl kullanırız?

Eğitilmiş word2vec datasını nasıl kullanırız? Elbette bu tür çalışmalarımızı Python ile yapıyoruz. Üstelik interaktif denemeler yapıyorsak, iPython kullanmamız daha doğru. iPython son dönemde jupyter ile entegre çalışıyor. Bu yüzden önce kullanmakta olduğunuz Python sürümünü aktif hale getirin. Ben Python 3.5.1 kullanıyorum ve bunun için tanımladığım evp35 isimli bir sanal ortamım var. Sanal ortamımı devreye sokuyorum: source ~/evp35/bin/activate Artık “python” komutum doğrudan python 3.5.1 sürümünü devreye […]

Ağu 262016
 
5.231 viewsHürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları

Hürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları Açık Kaynaklı DerlemTR Projesi‘nin yeni aşamasında, Hürriyet Gazetesi yetkilileri “derin öğrenme” (deep learning) konulu çalışmalarımızda gazete arşivlerinden yararlanma isteğimizi yine olumlu karşıladı. Başta Sayın Ersay Dizman olmak üzere, gazete yetkililerine tekrar teşekkür ediyorum. Bu aşamada yine python dilini kullandım ve 2010 yılı Hürriyet Gazetesi arşivlerini taratarak “uygun” haberleri bir araya topladım. Haberlerin tarihi, başlığı, muhabiri veya yazarı belli değil. […]

Mar 292016
 
2.854 viewsRadikal Blog Yazılarında En Çok Kullanılan Sözcükler

Radikal Blog Yazılarında En Çok Kullanılan Sözcükler Aldığımız duyumlara göre, Radikal Blog sayfaları 30 Mart 2016 itibariyle yayın hayatına son veriyormuş. Bir çok kişiye düşünce ve duygularını paylaşma fırsatı yaratan böyle bir ortamın kaybı üzücü. DerlemTr projemiz için Radikal Blog yazılarından da yararlandık. Sayfaların javascript ile düzenlenmesi ve istenen sayfalara doğrudan geçiş olanağı vermemesi bizi oldukça yordu. Bilgisayar sistemimizin sık sık çökmesi ve sunucu taraflı […]

Mar 242016
 
3.365 viewsHürriyet Gazetesinde Yıllara Göre Sözcük Kullanımı

Hürriyet Gazetesinde Yıllara Göre Sözcük Kullanımı Hürriyet Gazetesi arşivlerini yıllara göre tarama çalışmamız devam ediyor. 2010 ve 2011 yıllarına ait taramalar tamamlandı. (2012, 2013, 2014 ve 2015 te tamam.) Aşağıda, elde ettiğimiz sözcük frekans listelerinin başında yer alan sözcükleri karşılaştıran bir tablomuz var. Gördüğünüz gibi listeler neredeyse birbirlerinin aynısı. Sadece küçük yer değiştirmeler mevcut. İlk 12 sözcük tamamen birbirinin eşi. Ancak listeyi uzatırsak, daha alt […]

Mar 212016
 
2.986 viewsKitap ve Gazetelerde En Çok Kullanılan Sözcükler

Kitap ve Gazetelerde En Çok Kullanılan Sözcükler Hürriyet gazetesinin izniyle incelemekte olduğum günlük haber arşivlerinin 2010 yılı taramasını bugün tamamladım. 2011 yılı taramalarına da hemen başladım. İntel Centrino işlemcili, 2 GB belleği olan, Ubuntu 14.04 LTS işletim sistemli bilgisayar üzerinde çalıştırdığım ve Python 3.5.1 ile ekip arkadaşlarımın yardımıyla hazırladığım kodların çalışmasını tamamlaması kesintisiz olarak 58 saat 6 dakika sürdü. İşlemler sırasında 3273 ayrı sayfada yer […]