1.811 views 1.811 views
Mar 102016
 
1.812 views

Türkçe harf frekansları

Türkçe harf frekansları

Resim: www.nkfu.com

Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim.

Aynı dosya verilerini kullanarak bir de harfler için frekans analizi yaptım.
Sözkonusu veri uzayında en fazla “a” karakteri kullanılmış. Bu karakter 253 milyon sözcük içeren 3700 belgede toplam 175 milyon 337 bin 451 kez tekrarlanmış. ‘Ğ’ harfinin kullanım frekansı ise aynı ortamda sadece 26,582. Belgelerde kullanılan harf sayısı ise kabaca 2 milyar. (1,954,524,713)

Frekanslarına göre harf listemiz şöyle:

1 a 97 175,337,451
2 e 101 145,629,115
3 i 105 135,436,973
4 n 110 118,018,058
5 r 114 108,959,668
6 l 108 97,696,685
7 ı 305 74,466,419
8 d 100 73,245,246
9 k 107 66,225,886
10 m 109 54,774,050
11 t 116 51,608,822
12 u 117 51,334,201
13 y 121 49,021,628
14 s 115 47,035,540
15 o 111 38,371,406
16 b 98 36,753,776
17 ü 252 28,989,024
18 ş 351 25,888,404
19 z 122 22,045,857
20 g 103 18,494,622
21 h 104 17,150,376
22 v 118 16,690,914
23 ğ 287 16,424,943
24 ç 231 16,021,593
25 c 99 14,022,018
26 ö 246 11,973,516
27 p 112 11,055,144
28 f 102 7,102,595
29 B 66 6,332,167
30 A 65 5,041,327
31 S 83 3,590,230
32 K 75 3,360,048
33 M 77 3,012,916
34 H 72 2,781,508
35 T 84 2,594,383
36 İ 304 2,460,017
37 E 69 2,363,414
38 D 68 2,292,364
39 O 79 1,908,721
40 Y 89 1,757,805
41 G 71 1,644,023
42 N 78 1,547,323
43 P 80 1,403,247
44 R 82 1,374,414
45 I 73 1,319,848
46 C 67 1,177,855
47 L 76 1,049,006
48 F 70 1,048,706
49 V 86 943,590
50 Ş 350 777,556
51 Ç 199 737,926
52 j 106 575,009
53 Ö 214 559,737
54 U 85 490,911
55 Z 90 446,465
56 J 74 430,989
57 Ü 220 352,409
58 w 119 344,982
59 W 87 231,515
60 X 88 223,080
61 x 120 140,658
62 q 113 68,015
63 Q 81 32,134
64 Ğ 286 26,582

Yabancı sözcüklerde geçen q, w, x gibi harfleri olduğu gibi bıraktım. Küçük ve büyük harf kullanım frekansları arasında çok büyük farklar olduğu için, küçük harfleri dikkate almak daha anlamlı.

Ana listemizdeki toplam karakter sayısı 1136. Bunların bir kısmı noktalama işaretleri, bazıları başka dillerden (Arapça, Japonca, vb), bazıları ise rasgele hatalı karakterler.

Yukarıdaki frekans dağılımını, bir belgenin Türkçe olup olmadığını anlamak için kullanabiliriz. Bu konudaki kodlama çalışmalarımızı önümüzdeki günlerde yapacağız.

Sonuçları sizinle paylaşacağım.

Eğer bu tür gelişmelerden daha hızlı haberdar olmak isterseniz, PythonDerlemTR Facebook grubumuza veya trderlem github sayfamıza üye olabilirsiniz.

ahmet aksoy

Not:
Python dili ile yürüttüğümüz “Türkçe Derlem (Corpus)” Projemiz açık kaynaklıdır.

Facebook’ta PythonDerlemTR isimli bir grubumuz var.

Açık kaynak kodlarımız github.com adresinde trderlem adı altında herkese açık olarak sergileniyor.

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

(gerekli)

(gerekli)

%d blogcu bunu beğendi:
Önceki yazıyı okuyun:
En çok kullanılan 100 Türkçe sözcük

En çok kullanılan 100 Türkçe sözcük Aslında bu yazının başlığı "Türkçe ile ilgili yapısal istatistikler" şeklinde olmalıydı. Aşağıda size son...

Kapat