1.146 views 1.146 views
Mar 212016
 
1.147 views

Kitap ve Gazetelerde En Çok Kullanılan Sözcükler

DerlemtrHürriyet gazetesinin izniyle incelemekte olduğum günlük haber arşivlerinin 2010 yılı taramasını bugün tamamladım. 2011 yılı taramalarına da hemen başladım.

İntel Centrino işlemcili, 2 GB belleği olan, Ubuntu 14.04 LTS işletim sistemli bilgisayar üzerinde çalıştırdığım ve Python 3.5.1 ile ekip arkadaşlarımın yardımıyla hazırladığım kodların çalışmasını tamamlaması kesintisiz olarak 58 saat 6 dakika sürdü.

İşlemler sırasında 3273 ayrı sayfada yer alan 149 bin 987 haber tarandı. Tarama sonucunda elde edilen 21 milyon 233 bin 320 sözcükten birbirine benzemeyen 500 bin 321 sözcük ortaya çıktı. Bu sözcükleri daha sonra kitap taramalarından elde ettiğimiz derlem veritabanı ile birleştireceğim.

Genel derlem sonuçları ile gazete haberlerinden elde ettiğimiz sonuçlar, tahmin ettiğimiz gibi büyük benzerlikler gösteriyor. Elbette farklılıklar da var.

Örneğin genel tabloda en sık kullanılmakta olan “bir” sözcüğü, gazete taramasında ikinci sırada yer alıyor. Hürriyet gazetesinin 2010 yılı arşivlerinde en çok kullanılan sözcük ise, “ve” sözcüğü. “Bir” ve “ve” sözcükleri yer değiştirmiş.

Üçüncü sözcük “bu” her iki listede de aynı.

Genel listede 4. ve 5. sırada yer alan “de” ve “da” sözcükleri, haber listesinde yer değiştirmiş.

Altıncı sözcük “için” her iki listede de aynı sırada.

Aşağıda, her iki listenin başında yer alan ilk 30 sözcüğü veriyorum. Çalışmayı tamamladığımızda bu listelerin birleştirilmiş halini zaten herkesin erişimine açacağım.

Bu çalışmayı yapabilmem için arşivlerinden yararlanmama izin veren Hürriyet gazetesi yönetimine ayrıca teşekkürlerimi sunuyorum.

Açık kaynaklı DerlemTR projemize katılmak veya bu konudaki gelişmelerden haberdar olmak isterseniz gurmezin.com‘u veya facebook PythonDerlemTR grubumuzu yahut https://www.github.com/ahmetax/derlemtr proje sayfamızı ziyaret edebilirsiniz.

Ahmet Aksoy
DerlemTR Proje Yöneticisi

En sık kullanılan ilk 30 sözcük
  Genel liste Hürriyet arşivi
1 bir ve
2 ve bir
3 bu bu
4 de da
5 da de
6 için için
7 o ile
8 gibi çok
9 daha olarak
10 ama daha
11 çok en
12 sonra olan
13 ne türkiye
14 kadar ise
15 her dedi
16 olarak sonra
17 olan olduğunu
18 diye kadar
19 dedi ilk
20 ki büyük
21 ile gibi
22 en bin
23 ya başkanı
24 şey söyledi
25 iki nin
26 s her
27 zaman yıl
28 büyük yeni
29 onu ın
30 ben var

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

(gerekli)

(gerekli)

Önceki yazıyı okuyun:
Türkçe sözcükleri elemanlarına ayrıştırma projesi

Türkçe sözcükleri elemanlarına ayrıştırma projesi Github üzerinde paylaştığımız DerlemTR projemiz oldukça ilerledi. Büyük olasılıkla bir ay içinde son şeklini alacak....

Kapat