Türkçe Kelimelerde Hecelerin Sayısal Dağılımı
Türkçe Hecelemede 6 Temel Kural başlıklı yazımda Türkçe hecelemede kullanılan 6 temel kuralı aktarmıştım. Bu kuralların bir kısmı, yabancı kökenli sözcükleri de kapsıyordu.
Bu kez, elimizdeki derlem veritabanından yararlanarak Türkçe kelimeleri hecelerine ayırdım ve kullanım sıklıklarını belirledim. Sonuçları üç ayrı kategoride ele aldım:
1- Sadece öztürkçe kelimeler
2- Öztürkçe ve yabancı kökenli kelimeler
3- Derlem dosyasındaki sözcüklere filtreleme uygulamadan bulunan kelimeler
Yine de olası hataları en aza indirgemek amacıyla frekansı 100’den düşük olan heceleri iptal ettim.
Değerlendirmede kullandığım ayrık kelime sayısı 1 milyon 754 bin 466’dır.
Bulunan hece sayıları yaklaşık 500 milyon civarındadır. Bulduğum rakamları yazının içinde ayrıntılı olarak bulabilirsiniz.
Sadece öztürkçe sözcüklere ait heceler
- 1 hece: 22,122,931
- 2 hece: 282,731,240
- 3 hece: 171,238,129
- 4 hece: 3,515,399
Öztürkçe ve yabancı kökenli sözcüklere ait heceler
- 1 hece: 22,259,705
- 2 hece: 285,575,208
- 3 hece: 174,653,474
- 4 hece: 4,941,535
- 5 hece: 247,814
- 6 hece: 9,492
Filtreleme yapmaksızın bulunan heceler:
Doğal olarak, 4 harften fazlasını içeren hece sayısı dikkate almaya değmeyecek kadar az. Üstelik bunlardan bir çoğu muhtemelen hatalı yazım gibi nedenlerle zaten devre dışı bırakılması gereken sözcüklere aittir.
Elde ettiğimiz sonuçları şu şekilde özetlemek mümkün:
1- Türkçe sözcükler en fazla 4 harf içeren hecelere sahiptir.
2- İki harften oluşan heceler en büyük grubu oluşturur.
3- En az rastlanan heceler, 4 harf içerenlerdir.
Yazıda sözünü ettiğim istatiski verilerin elde edilmesi ve grafik halinde görselleştirilmesi Python 3.5.2 ile sağlanmıştır. Grafik paketi matplotlib‘dir.
Dilimize özgü istatistik değerlendirmelere yönelik yazılarıma fırsat buldukça devam edeceğim.
Beni izleyin!
Ahmet Aksoy
Türkçe Kelimelerde Hecelerin Sayısal Dağılımı: http://gurmezin.com/turkce-kelimelerde-hecelerin-sayisal-dagilimi/