En çok kullanılan 100 Türkçe sözcük
Aslında bu yazının başlığı “Türkçe ile ilgili yapısal istatistikler” şeklinde olmalıydı. Aşağıda size son dönemde yaptığımız bazı çalışmalarda elde ettiğimiz rakamlar vereceğim. Bu rakamlara Python dili ile yürüttüğümüz “Türkçe Derlem (Corpus)” projesi ile ulaştık. Yenileri de gelecek.
Projemiz açık kaynaklıdır.
Facebook’ta PythonDerlemTR isimli bir grubumuz var.
Açık kaynak kodlarımız github.com adresinde trderlem adı altında herkese açık olarak sergileniyor.
Bu projenin ilk hedefi Türkçede kullanılmakta olan sözcüklerin, kullanım frekanslarına göre derlenmesidir. Bu çalışmanın ilk aşamasını tamamladık. Elde ettiğimiz sonuçlar özet olarak şöyle:
- 1- Taradığımız doküman sayısı = 3700
- 2- Bulduğumuz toplam sözcük sayısı = 253 milyon
- 3- Derlem dosyasına giren sözcük sayısı = 2,760,443
Aşağıdaki listede yer alan en çok kullanılan 100 sözcük işte bu çalışmanın ürünü.
Türkçede En Çok Kullanılan 100 Sözcük
07,588,925 bir
05,564,600 ve
03,213,146 bu
02,042,980 de
02,017,210 da
01,475,364 için
01,184,617 o
01,163,764 gibi
01,136,033 daha
01,040,456 ama
00,962,295 çok
00,936,503 sonra
00,934,036 ne
00,857,178 kadar
00,804,281 her
00,765,322 olarak
00,742,794 olan
00,708,133 diye
00,686,121 dedi
00,618,263 ki
00,613,357 ile
00,597,472 en
00,576,141 ya
00,569,457 şey
00,525,936 iki
00,516,822 s
00,502,775 zaman
00,483,474 büyük
00,476,564 onu
00,463,148 ben
00,456,002 onun
00,439,853 olduğunu
00,416,378 değil
00,411,571 bütün
00,388,885 içinde
00,387,622 hiç
00,383,161 kendi
00,380,607 olduğu
00,379,296 var
00,373,620 bile
00,370,609 başka
00,362,813 iyi
00,361,071 ona
00,352,620 doğru
00,352,295 önce
00,332,830 mi
00,331,772 bana
00,330,863 a
00,315,906 aynı
00,308,693 ı
00,305,592 ilk
00,305,584 i
00,293,373 in
00,292,138 vardı
00,290,411 böyle
00,285,108 bunu
00,280,514 hiçbir
00,275,439 beni
00,275,180 el
00,275,156 göre
00,273,042 karşı
00,272,603 ancak
00,272,245 çünkü
00,270,231 yeni
00,269,705 ise
00,267,999 nasıl
00,263,104 yok
00,257,066 tek
00,254,990 benim
00,253,033 arasında
00,250,571 son
00,246,683 şimdi
00,246,403 artık
00,236,352 küçük
00,235,003 gün
00,233,467 fakat
00,229,862 mı
00,228,515 öyle
00,225,172 hemen
00,225,133 üzerine
00,223,951 birlikte
00,223,814 bunun
00,222,161 tarafından
00,221,006 sadece
00,218,779 biri
00,218,213 yine
00,217,578 uzun
00,215,502 hem
00,212,699 şu
00,211,181 adam
00,211,022 şekilde
00,210,184 etti
00,203,597 insan
00,202,996 pek
00,202,596 sen
00,201,329 oldu
00,201,146 veya
00,198,022 yer
00,196,867 biraz
00,194,743 e
Yukarıdaki listede görüldüğü gibi Türkçede en çok “bir” sözcüğü kullanılıyor. Taranan toplam 253 milyon sözcük için “bir” sözcüğü 7,588,925 kez yinelenmiş. İkinci sıradaki sözcüğümüz “ve” 5,564,600 kez kullanılmış. Üçüncü sözcüğümüz “bu” ise 3,213,146 yerde geçmiş.
Derlem dosyasında yer alan sözcükleri henüz bir elemeden geçirmedik. Bu yüzden bu dosyanın içinde, Türkçe metinlerde geçen bazı yabancı sözcükler ve isimler de yer alıyor. Ana sözcükten ayrı yazılan ekleri de bağızsız sözcükler olarak değerlendirdik. İleride, bu tür ayıklamaları yaptıktan sonra elde ettiğimiz sonuçları da sizlerle paylaşacağım.
TrDerlem projemizi incelemek ve/veya katkıda bulunmak isterseniz facebook grubumuza katılın. Kapımız herkese açık.
Ahmet Aksoy