Kitap ve Gazetelerde En Çok Kullanılan Sözcükler
Hürriyet gazetesinin izniyle incelemekte olduğum günlük haber arşivlerinin 2010 yılı taramasını bugün tamamladım. 2011 yılı taramalarına da hemen başladım.
İntel Centrino işlemcili, 2 GB belleği olan, Ubuntu 14.04 LTS işletim sistemli bilgisayar üzerinde çalıştırdığım ve Python 3.5.1 ile ekip arkadaşlarımın yardımıyla hazırladığım kodların çalışmasını tamamlaması kesintisiz olarak 58 saat 6 dakika sürdü.
İşlemler sırasında 3273 ayrı sayfada yer alan 149 bin 987 haber tarandı. Tarama sonucunda elde edilen 21 milyon 233 bin 320 sözcükten birbirine benzemeyen 500 bin 321 sözcük ortaya çıktı. Bu sözcükleri daha sonra kitap taramalarından elde ettiğimiz derlem veritabanı ile birleştireceğim.
Genel derlem sonuçları ile gazete haberlerinden elde ettiğimiz sonuçlar, tahmin ettiğimiz gibi büyük benzerlikler gösteriyor. Elbette farklılıklar da var.
Örneğin genel tabloda en sık kullanılmakta olan “bir” sözcüğü, gazete taramasında ikinci sırada yer alıyor. Hürriyet gazetesinin 2010 yılı arşivlerinde en çok kullanılan sözcük ise, “ve” sözcüğü. “Bir” ve “ve” sözcükleri yer değiştirmiş.
Üçüncü sözcük “bu” her iki listede de aynı.
Genel listede 4. ve 5. sırada yer alan “de” ve “da” sözcükleri, haber listesinde yer değiştirmiş.
Altıncı sözcük “için” her iki listede de aynı sırada.
Aşağıda, her iki listenin başında yer alan ilk 30 sözcüğü veriyorum. Çalışmayı tamamladığımızda bu listelerin birleştirilmiş halini zaten herkesin erişimine açacağım.
Bu çalışmayı yapabilmem için arşivlerinden yararlanmama izin veren Hürriyet gazetesi yönetimine ayrıca teşekkürlerimi sunuyorum.
Açık kaynaklı DerlemTR projemize katılmak veya bu konudaki gelişmelerden haberdar olmak isterseniz gurmezin.com‘u veya facebook PythonDerlemTR grubumuzu yahut https://www.github.com/ahmetax/derlemtr proje sayfamızı ziyaret edebilirsiniz.
Ahmet Aksoy
DerlemTR Proje Yöneticisi
En sık kullanılan ilk 30 sözcük | ||
Genel liste | Hürriyet arşivi | |
1 | bir | ve |
2 | ve | bir |
3 | bu | bu |
4 | de | da |
5 | da | de |
6 | için | için |
7 | o | ile |
8 | gibi | çok |
9 | daha | olarak |
10 | ama | daha |
11 | çok | en |
12 | sonra | olan |
13 | ne | türkiye |
14 | kadar | ise |
15 | her | dedi |
16 | olarak | sonra |
17 | olan | olduğunu |
18 | diye | kadar |
19 | dedi | ilk |
20 | ki | büyük |
21 | ile | gibi |
22 | en | bin |
23 | ya | başkanı |
24 | şey | söyledi |
25 | iki | nin |
26 | s | her |
27 | zaman | yıl |
28 | büyük | yeni |
29 | onu | ın |
30 | ben | var |