DerlemTR (05) Türkçenin İstatistikleri

Bu yazımda, benim de yeni farkına vardığım, Türkçeye ait bazı sayısal değerleri ele alacağım.
Elde ettiğim sayıların mutlak olmadığını, veritabanımdaki 2,745,000 kelime ve Zemberek çözümlemelerine dayandığını peşinen belirteyim.

İlk tablomuz, Türkçe sözcüklerin tiplerine göre nasıl gruplandığını gösteriyor. Toplam kolonundaki sayılar o tipe ait kelime sayısını veriyor. tip kolonundaki bilgiler, Zemberek tarafından saptanmıştır. Açıklama kolonunda ise tiplerin Türkçe karşılıklarını vermeye çalıştım. Bazı belirsizlikler var ama, onları da yakında çözeriz.

KELİME TİPLERİNE GÖRE GRUPLANMIŞ KELİMELER

toplam detay(örnek)tipaçıklama
1187964 abanmakVerbFiil
1001043 abaNounİsim
268889 abaAdjSıfat
229257 AachenNoun,PropÖzel isim
8627 AaNoun,Abbrvİsim kısaltma
5940 akşam Noun,Timeİsim – zaman
3415 altmışNum,CardSayma sayıları
1175 altmışıncı Num,OrdSıra sayıları
1138 AcemceAdj,PropÖzel sıfat
929 acabaAdvZarf
921 benPron,PersKişi zamiri
735 bazıPron,QuantSayı zamiri
497 hangiPron,QuesSoru zamiri
291 kendiPron,ReflexYansımalı zamir
212 aburDup ?
211 abeInterj Ünlem
207 altmışar Num,DistSıfat tamlaması ?
155 aitPostp,PCDatEdat
154 buPron,Demonsİşaret edatı
116beriPostp,PCAblEdat?
96boyuncaPostp,PCNomEdat?
79miQuesSoru
61beşyüzNumSayısal
55gibiPostp,PCGen Edat?
41belkiConjBağlaç
33birliktePostp,PCIns Edat?
14aşkınPostp,PCAccEdat?
8baharAdv,TimeZaman zarfı
6ahaDetBelirteç
4HmInterj,PropÖzel ünlem
2OsmanlıcaAdv,PropÖzel zarf
1iştirakenPostpEdat

Tabloya göre Türkçe’de kullandığımız kelimelerin çoğunluğu fiil (eylem) kökenlidir. İsim kökenliler onu izlemekte, üçüncü sırayı ise sıfat kökenli sözcükler almaktadır.

Burada bir açıklama daha yapayım: listemizdeki sözcükler hem türetilmiş kelimelerden, hem de çekim ekleri ulanmış kelimelerden oluşmaktadır. Coğrafik yer adları, kişi adları ve kısmen yabancı kökenli kelimeler de bu listeye dahildir.

Bir sonraki tablomuz oldukça büyük. Listemizdeki kelimelerin kök ve tiplerine göre gruplanmış halini gösteriyor. Toplamda 58565 satır, yani kök var. Tabloya bunlardan sadece bazılarını ekleyeceğim.

KÖK VE TİPLERE GÖRE GRUPLANMIŞ KELİMELER (KISMİ TABLO)

SayıKökTip
6163etmekVerb
4954yapmakVerb
4034olmakVerb
3638yaşamakVerb
3529tanımakVerb
3471vermekVerb
3429kullanmakVerb
2403ödemekVerb
2401gerçekAdj
2400öldürmekVerb
2161göndermekVerb
2159karşıAdj
2154yemekVerb
,,,,,,,,,
1322atlamakVerb
1322sınıfNoun
1321seyretmekVerb

Gördüğünüz gibi rekor etmek fiilinde. Bu kökten tan 6163 kelime türeyebiliyor.

Bu yazıda örnekleri paylaşmayacağım. Ama bir ara bu kelimeleri de örneklemek yerinde olur.

Bu görsel de en üretken kökleri wordcloud aracılığıyla görselleştiriyor.

Ara ara başka istatistikleri de paylaşacağm.

Merak ettiğiniz başka sayılar varsa, yorum alanından paylaşın. Çözümlemeye çalışırım.

Bütün bu rakamlar aslında Türkçemizin ne kadar sistematik ve zengin bir dil olduğunu gösteriyor.
Atalarımız, her somut nesne ve soyut kavram ya da eylem için yeni bir sözcük yaratmak yerine, var olanların nüanslarıyla dilimizi olağanüstü zenginleştirmişler. Üstelik bunları da görünmez kurallara bağlamışlar.

Bakalım daha ne gibi kurallar ve incelikler keşfedeceğiz?

Ahmet Aksoy

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top