1.602 views 1.602 views
Kas 072016
 
1.603 views

Türkçe Kelimelerde Hecelerin Sayısal Dağılımı

Türkçe Hecelemede 6 Temel Kural başlıklı yazımda Türkçe hecelemede kullanılan 6 temel kuralı aktarmıştım. Bu kuralların bir kısmı, yabancı kökenli sözcükleri de kapsıyordu.

Bu kez, elimizdeki derlem veritabanından yararlanarak Türkçe kelimeleri hecelerine ayırdım ve kullanım sıklıklarını belirledim. Sonuçları üç ayrı kategoride ele aldım:

1- Sadece öztürkçe kelimeler
2- Öztürkçe ve yabancı kökenli kelimeler
3- Derlem dosyasındaki sözcüklere filtreleme uygulamadan bulunan kelimeler

Yine de olası hataları en aza indirgemek amacıyla frekansı 100’den düşük olan heceleri iptal ettim.

Değerlendirmede kullandığım ayrık kelime sayısı 1 milyon 754 bin 466’dır.
Bulunan hece sayıları yaklaşık 500 milyon civarındadır. Bulduğum rakamları yazının içinde ayrıntılı olarak bulabilirsiniz.

Sadece öztürkçe sözcüklere ait heceler

Türkçe Kelimelerde Hecelerin Sayısal Dağılımı

  • 1 hece: 22,122,931
  • 2 hece: 282,731,240
  • 3 hece: 171,238,129
  • 4 hece: 3,515,399

Öztürkçe ve yabancı kökenli sözcüklere ait heceler

Öztürkçe ve yabancı kökenli sözcükler

  • 1 hece: 22,259,705
  • 2 hece: 285,575,208
  • 3 hece: 174,653,474
  • 4 hece: 4,941,535
  • 5 hece: 247,814
  • 6 hece: 9,492

Filtreleme yapmaksızın bulunan heceler:

Filtresiz kelimeler

  • 1 hece: 22,632,219
  • 2 hece: 285,584,079
  • 3 hece: 174,661,739
  • 4 hece: 4,971,179
  • 5 hece: 254,565
  • 6 hece: 15,577
  • 7 hece: 2359
  • 8 hece: 436
  • Doğal olarak, 4 harften fazlasını içeren hece sayısı dikkate almaya değmeyecek kadar az. Üstelik bunlardan bir çoğu muhtemelen hatalı yazım gibi nedenlerle zaten devre dışı bırakılması gereken sözcüklere aittir.

    Elde ettiğimiz sonuçları şu şekilde özetlemek mümkün:
    1- Türkçe sözcükler en fazla 4 harf içeren hecelere sahiptir.
    2- İki harften oluşan heceler en büyük grubu oluşturur.
    3- En az rastlanan heceler, 4 harf içerenlerdir.

    Yazıda sözünü ettiğim istatiski verilerin elde edilmesi ve grafik halinde görselleştirilmesi Python 3.5.2 ile sağlanmıştır. Grafik paketi matplotlib‘dir.

    Dilimize özgü istatistik değerlendirmelere yönelik yazılarıma fırsat buldukça devam edeceğim.

    Beni izleyin!

    Ahmet Aksoy

    Türkçe Kelimelerde Hecelerin Sayısal Dağılımı: http://gurmezin.com/turkce-kelimelerde-hecelerin-sayisal-dagilimi/

      4 Yanıt - “Türkçe Kelimelerde Hecelerin Sayısal Dağılımı”

    1. Araştırmaya ve dolayısıyla değerlendirmeye bir dilde olmayan (öztürkçe olmayan) verileri katmak bilimsel bir sonuç çıkarmaz. Yazılımcı olmak ayrı, bir işi bilmek ayrı. Ağaçlarla ilgili bir çalışmaya balıkların da verilerini katmak gibidir. Öztürkçe olan heceleri istatisiksel olarak dökecek ve sonuçları ona göre vereceksiniz. Mesela Türkçe’de asla 4 harfli bir hece olmaz. Bir tane örnek veremezsiniz, STAR gibi. Mesela Türkçe’de heceler 2 sessizle başlar mı? İki sessizle biter mi? Bu şekilde döküm yaptığınızda göreceksiniz ki Cumhuriyetin ilk zamanlarında bu konuyu araştıran dilbilimciler her şeyi çoktan tespit etmiş bile. İyi çalışmalar

      • Yanılıyorsunuz Sami bey. Yurt, kurt, türk, sert,.. Bunların hepsi hem 4 karakterli, hem de Türkçe kelime ve hecelerdir.
        Heceleme ile ilgili yazıma bir göz atarsanız, bu konuda biraz olsun aydınlanacağınızı umarım. (Not: Bu kurallar benim bulduğum kurallar değildir. Ben sadece tekrarladım.)
        Sizinki kadar kesin yargı sahibi olmadan önce, konuyla ilgili yeterli bilgi sahibi olmakta yarar vardır. Aksi halde “bilgi sahibi olmadan, fikir sahibi olmak” açmazına düşme durumu ortaya çıkar.
        İyi akşamlar.

    2. Verdiğiniz her 4 örnek de Türkçe olmayan heceler. Türk kelimesi Türklerin ülkelerini terk etmelerinden dolayı Ortadoğu’daki komşuların verdiği “tereke” kelimesinden gelir. Kurd Farsça’daki “gurd” gelir. Diğerleri de öyle, “şart”, “kart”, “pert”, “darp”, “harp”, “kalp” vs. vs.

      Yazık ki Osmanlı İmparatorluğu Türkçe’ye büyük zarar vermiştir. Osmanlı gibi yapay bir dil oluşturarak Türkçe’nin kullanımını sarayda öldürmüş ve Türkçe Türkmenler sayesinde İmparatoluğun elinin ulaşmadığı yerlerde yaşamıştır. Atatürk olmasaydı bugün o da kalmamış olacaktır. Kemalist değilim ama gerçek bu. Bilimsel işlerde duygularla yorum olmaz. Bu bilgileri bilmeden de bir fikrimin olması imkansızdı. Yine de acımasız eleştirileriniz konuyu sıcak tutacaktır. 🙂

      İyi çalışmalar

      • Etimolog olmadığım için, bu tür hatalar yapmam doğaldır. Üstelik çalışmalarımın akademik olmadığını da sürekli vurguluyorum.
        Yurt, kırk, gönç, se-vinç, ka-nırt, dört gibi sözcükler için düşünceniz nedir?
        Dört harf içeren Türkçe hece olmadığını vurgulayan bilimsel bir yayın var mı bildiğiniz?
        Ayrıca, ben, dillerin de sürekli değişip evrimleştiğine inanırım. Günlük yaşama dahil olan nesne ve kavramlar bunu zorunlu kılıyor.
        Dört harfli hece konusunu etimoloji açısından da araştıracağım. Ama yukarıdaki örneklerde tdk.gov.tr yabancı köken uyarısı vermiyor.
        İyi günler.

     Bir yanıt bırakın

    Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

    (gerekli)

    (gerekli)

    Önceki yazıyı okuyun:
    Türkçe Kelime Köklerinin Sayısal Dağılımı

    Türkçe Kelime Köklerinin Sayısal Dağılımı Türkçe kelime köklerinin içerdiği harf sayısı bir ile yirmi bir arasında değişmektedir. Bu değişimi sayısal...

    Kapat