Mar 162016
 
3.075 viewsTürkçe sözcükleri elemanlarına ayrıştırma projesi

Türkçe sözcükleri elemanlarına ayrıştırma projesi Github üzerinde paylaştığımız DerlemTR projemiz oldukça ilerledi. Büyük olasılıkla bir ay içinde son şeklini alacak. O zaman, elde ettiğimiz derlem veritabanımızı herkesin kullanımına açacağız. Projemizin yeni aşamasında -aslında bir zamanlar benim de hasbelkader kısa bir süre için çalışmalarına katılma fırsatı bulduğum- zemberek projesi tarafından java ortamında çözümlenen bir sorunu ele […]

Mar 102016
 
8.392 viewsTürkçe harf frekansları

Türkçe harf frekansları Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim. Aynı dosya verilerini kullanarak bir de harfler için frekans analizi yaptım. Sözkonusu veri uzayında en fazla “a” karakteri kullanılmış. Bu karakter 253 milyon sözcük içeren 3700 belgede toplam 175 milyon 337 bin 451 kez tekrarlanmış. ‘Ğ’ harfinin kullanım frekansı ise […]

Mar 102016
 
2.720 viewsEn çok kullanılan 100 Türkçe sözcük

En çok kullanılan 100 Türkçe sözcük Aslında bu yazının başlığı “Türkçe ile ilgili yapısal istatistikler” şeklinde olmalıydı. Aşağıda size son dönemde yaptığımız bazı çalışmalarda elde ettiğimiz rakamlar vereceğim. Bu rakamlara Python dili ile yürüttüğümüz “Türkçe Derlem (Corpus)” projesi ile ulaştık. Yenileri de gelecek. Projemiz açık kaynaklıdır. Facebook’ta PythonDerlemTR isimli bir grubumuz var. Açık kaynak kodlarımız […]

Mar 092016
 
4.056 viewsTürkçede Harflerin Kullanım Frekansları

Türkçede Harflerin Kullanım Frekansları Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim. Aynı dosya verilerini kullanarak bir de harfler için frekans analizi yaptım. Sözkonusu veri uzayında en fazla “a” karakteri kullanılmış. Bu karakter 253 milyon sözcük içeren 3700 belgede toplam 175 milyon 337 bin 451 kez tekrarlanmış. ‘Ğ’ harfinin kullanım frekansı […]

Mar 092016
 
7.799 viewsTürkçede En Çok Kullanılan 100 Sözcük

Türkçede En Çok Kullanılan 100 Sözcük Aslında bu yazının başlığı “Türkçe ile ilgili yapısal istatistikler” şeklinde olmalıydı. Aşağıda size son dönemde yaptığımız bazı çalışmalarda elde ettiğimiz rakamlar vereceğim. Bu rakamlara Python dili ile yürüttüğümüz “Türkçe Derlem (Corpus)” projesi ile ulaştık. Yenileri de gelecek. Projemiz açık kaynaklıdır. Facebook’ta PythonDerlemTR isimli bir grubumuz var. Açık kaynak kodlarımız […]