Türkçe Hecelemede 6 Temel Kural Türkçe, Fince ve Macarca gibi “Bitişimli Diller”dendir. Bu dillerde kelime kökleri sabit kalırken, sözcüklerin anlam değişikliği, yapılan eklerle sağlanır. Türkçe heceler “sesli harflere” odaklanır. Her hecede mutlaka tek bir sesli harf bulunur. Bu sesli harf ya tek başına ya da ön veya arkasına gelen çeşitli sessiz harflerle birlikte “tek solukta” seslendirilen heceleri oluşturur. Kelimeler, bir veya daha fazla hece içerir. […]

Radikal Blog Yazılarında En Çok Kullanılan Sözcükler Aldığımız duyumlara göre, Radikal Blog sayfaları 30 Mart 2016 itibariyle yayın hayatına son veriyormuş. Bir çok kişiye düşünce ve duygularını paylaşma fırsatı yaratan böyle bir ortamın kaybı üzücü. DerlemTr projemiz için Radikal Blog yazılarından da yararlandık. Sayfaların javascript ile düzenlenmesi ve istenen sayfalara doğrudan geçiş olanağı vermemesi bizi oldukça yordu. Bilgisayar sistemimizin sık sık çökmesi ve sunucu taraflı […]

Türkçe sözcükleri elemanlarına ayrıştırma projesi Github üzerinde paylaştığımız DerlemTR projemiz oldukça ilerledi. Büyük olasılıkla bir ay içinde son şeklini alacak. O zaman, elde ettiğimiz derlem veritabanımızı herkesin kullanımına açacağız. Projemizin yeni aşamasında -aslında bir zamanlar benim de hasbelkader kısa bir süre için çalışmalarına katılma fırsatı bulduğum- zemberek projesi tarafından java ortamında çözümlenen bir sorunu ele alacağız: Türkçe sözcükleri kök ve eklerine ayrıştırmak. Eğer zemberek projesi […]

Türkçe harf frekansları Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim. Aynı dosya verilerini kullanarak bir de harfler için frekans analizi yaptım. Sözkonusu veri uzayında en fazla “a” karakteri kullanılmış. Bu karakter 253 milyon sözcük içeren 3700 belgede toplam 175 milyon 337 bin 451 kez tekrarlanmış. ‘Ğ’ harfinin kullanım frekansı ise aynı ortamda sadece 26,582. Belgelerde kullanılan harf sayısı ise kabaca […]

En çok kullanılan 100 Türkçe sözcük Aslında bu yazının başlığı “Türkçe ile ilgili yapısal istatistikler” şeklinde olmalıydı. Aşağıda size son dönemde yaptığımız bazı çalışmalarda elde ettiğimiz rakamlar vereceğim. Bu rakamlara Python dili ile yürüttüğümüz “Türkçe Derlem (Corpus)” projesi ile ulaştık. Yenileri de gelecek. Projemiz açık kaynaklıdır. Facebook’ta PythonDerlemTR isimli bir grubumuz var. Açık kaynak kodlarımız github.com adresinde trderlem adı altında herkese açık olarak sergileniyor. Bu […]

Türkçede Harflerin Kullanım Frekansları Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim. Aynı dosya verilerini kullanarak bir de harfler için frekans analizi yaptım. Sözkonusu veri uzayında en fazla “a” karakteri kullanılmış. Bu karakter 253 milyon sözcük içeren 3700 belgede toplam 175 milyon 337 bin 451 kez tekrarlanmış. ‘Ğ’ harfinin kullanım frekansı ise aynı ortamda sadece 26,582. Belgelerde kullanılan harf sayısı ise […]