Nis 192016
 
2.927 views

Türkçe Hecelemede 6 Temel Kural

Türkçe, Fince ve Macarca gibi “Bitişimli Diller”dendir. Bu dillerde kelime kökleri sabit kalırken, sözcüklerin anlam değişikliği, yapılan eklerle sağlanır.

Türkçe heceler “sesli harflere” odaklanır. Her hecede mutlaka tek bir sesli harf bulunur. Bu sesli harf ya tek başına ya da ön veya arkasına gelen çeşitli sessiz harflerle birlikte “tek solukta” seslendirilen heceleri oluşturur. Kelimeler, bir veya daha fazla hece içerir.

Aşağıda özetleyeceğim heceleme algoritması Hürsel Kendir tarafından 1982 yılında verdiği tezde sunulmuştur. Buna göre öztürkçe veya yabancı kökenli kelimelerde kullanılan heceleri aşağıdaki 6 kuralla tanımlamak mümkündür:

a- Peşpeşe gelen iki sesli harf ayrı hecelere aittir
b- İki sesli harfin arasında bulunan tek sessiz harf ikinci sesli harfin oluşturduğu heceye bağlanır
c- İki sesli harfin arasında peşpeşe iki sessiz harf varsa, heceler sessiz harflerin ortasından ayrışır
d- İki sesli harfin ortasında ardışık üç sessiz harf varsa genellikle ilk iki sessiz ilk heceye, diğeri ikinci heceye katılır. Ancak üçüncü sessiz harf “R” ise, ilk sessiz birinci heceye, diğerleri ikinci heceye dahil olur.
e- İki sesli harfin arasında ardışık dört sessiz harf varsa genellikle heceler sessiz harflerin ortasından bölünür. Ancak üçüncü sessiz harf “R” ise, ilk üç sessiz harf ilk heceye, diğeri ikinci heceye katılır.
f- İki sesli harf arasında ardışık 5 sessiz harf bulunuyorsa, ilk üç sessiz harf ilk heceye, sonraki iki sessiz harf ise ikinci heceye katılır.

Aşağıdaki Python kodları yukarıda tanımladığımız algoritmayı kullanmaktadır.

Bu algoritmanın “samsunspor” ve “bursaspor” gibi birleşik sözcükleri “sam-suns-por”, “bur-sas-por” şeklinde ve “doğru” şekilde hecelediğine dikkat edelim. “sam-sun-spor” veya “bur-sa-spor” hecelemeleri Türkçe heceleme kurallarına uymaz.

Yukarıda verdiğim kodlar Python3.5 uyumludur.

Ahmet Aksoy

Mar 292016
 
1.619 views

Radikal Blog Yazılarında En Çok Kullanılan Sözcükler

Radikal Blog Yazılarında En Çok Kullanılan Sözcükler

Aldığımız duyumlara göre, Radikal Blog sayfaları 30 Mart 2016 itibariyle yayın hayatına son veriyormuş. Bir çok kişiye düşünce ve duygularını paylaşma fırsatı yaratan böyle bir ortamın kaybı üzücü.

DerlemTr projemiz için Radikal Blog yazılarından da yararlandık. Sayfaların javascript ile düzenlenmesi ve istenen sayfalara doğrudan geçiş olanağı vermemesi bizi oldukça yordu. Bilgisayar sistemimizin sık sık çökmesi ve sunucu taraflı bazı sorunlar süreci uzattı ama, sonunda istediğimiz verilere ulaştık.

İşlemler sırasında yaklaşık 5000 ayrı sayfada yer alan 99 bin 552 yazı tarandı. Tarama sonucunda elde edilen 49 milyon 501 bin 199 sözcükten birbirine benzemeyen 1 milyon 066 bin 107 sözcük ortaya çıktı. Bu sözcükleri daha sonra kitap ve diğer gazete taramalarından elde ettiğimiz derlem veritabanı ile birleştireceğim.

Genel derlem sonuçları ile blog yazılarından elde ettiğimiz sonuçlar, tahmin ettiğimiz gibi büyük benzerlikler gösteriyor. Elbette farklılıklar da mevcut.

Örneğin ilk üç sözcük her iki listede de aynı sırada: “bir”, “ve”, “bu”.

Genel listede 4. ve 5. sırada yer alan “de” ve “da” sözcükleri, blog listesinde yer değiştirmiş.

Altıncı sözcük “için” her iki listede de aynı sırada.

Özet olarak ilk altı sözcük aynı sıradadır diyebiliriz.

Aşağıda, her iki listenin baş tarafında yer alan ilk 30 sözcüğü veriyorum. Çalışmayı tamamladığımızda bu listelerin birleştirilmiş halini zaten herkesin erişimine açacağım.

Açık kaynaklı DerlemTR projemize katılmak veya bu konudaki gelişmelerden haberdar olmak isterseniz gurmezin.com‘u veya facebook PythonDerlemTR grubumuzu yahut https://www.github.com/ahmetax/derlemtr proje sayfamızı ziyaret edebilirsiniz.

Ahmet Aksoy
DerlemTR Proje Yöneticisi

En sık kullanılan ilk 30 sözcük
  Genel liste Radikal blog
1 bir bir
2 ve ve
3 bu bu
4 de da
5 da de
6 için için
7 o a
8 gibi çok
9 daha ne
10 ama gibi
11 çok en
12 sonra daha
13 ne olarak
14 kadar ile
15 her her
16 olarak ki
17 olan kadar
18 diye en
19 dedi olan
20 ki ama
21 ile ya
22 en var
23 ya değil
24 şey sonra
25 iki zaman
26 s türkiye
27 zaman ise
28 büyük diye
29 onu büyük
30 ben kendi
Mar 242016
 
2.092 views

Hürriyet Gazetesinde Yıllara Göre Sözcük Kullanımı

Hürriyet Gazetesinde Yıllara Göre Sözcük KullanımıHürriyet Gazetesi arşivlerini yıllara göre tarama çalışmamız devam ediyor. 2010 ve 2011 yıllarına ait taramalar tamamlandı. (2012, 2013, 2014 ve 2015 te tamam.)

Aşağıda, elde ettiğimiz sözcük frekans listelerinin başında yer alan sözcükleri karşılaştıran bir tablomuz var. Gördüğünüz gibi listeler neredeyse birbirlerinin aynısı. Sadece küçük yer değiştirmeler mevcut. İlk 12 sözcük tamamen birbirinin eşi.

Ancak listeyi uzatırsak, daha alt bölgelerdeki değişimlerin giderek daha büyük boyutlara ulaştığını görürüz. Çünkü aşağılara indikçe, sözcükler arasındaki frekans farklılıkları küçülmekte; bu da kaymaların giderek daha fazla basamağı kapsama olasılığını arttırmaktadır.

Diğer yıllara ait sonuçları da taramalar bittikçe tabloya ekleyeceğim.

Henüz gerçekleştirmediğim bir çalışmada bazı kişi, yer ve kurum isimlerinin kullanım sıklığının yıllara göre değişimini saptamayı planlıyorum. Böyle bir rapor kişi, yer ve kurumların günlük haberler açısından popülerliğinin nasıl değiştiğini gösterecektir. İlginç sonuçlar çıkacağını umuyorum.

Evet, 2013 yılının sonuçlarını da listeye ekledim. Hala, ilk 11 sözcüğün sıralaması aynı.

2014 ve yılına ait veriler de sıralamanın ilk 11 sıralamasını değiştirmedi.

Hürriyet Gazetesinde Yıllara Göre En sık kullanılan ilk 30 sözcük
  2010 2011 2012 2013 2014 2015 2016
01 ve ve ve ve ve ve
02 bir bir bir bir bir bir
03 bu bu bu bu bu bu
04 da da da da da da
05 de de de de de de
06 için için için için için için
07 ile ile ile ile ile ile
08 çok çok çok çok çok çok
09 olarak olarak olarak olarak olarak olarak
10 daha daha daha daha daha daha
11 en en en en en en
12 olan olan olan türkiye olan ise
13 türkiye ise türkiye ise ise olan
14 ise türkiye ise olan türkiye türkiye
15 dedi dedi dedi sonra sonra sonra
16 sonra sonra ilk dedi kadar kadar
17 olduğunu ilk sonra ilk her dedi
18 kadar olduğunu kadar kadar gibi her
19 ilk kadar olduğunu olduğunu dedi gibi
20 büyük büyük büyük her ilk var
21 gibi bin her gibi bin ilk
22 bin gibi gibi var var bin
23 başkanı her var bin ne olduğunu
24 söyledi başkanı başkanı büyük o büyük
25 nin söyledi bin son yeni ne
26 her yeni son yıl büyük yeni
27 yıl son yeni ama olduğunu başkanı
28 yeni yüzde yıl başkanı son ama
29 ın var nin yeni ama o
30 var yıl söyledi o ilgili yıl

Ahmet Aksoy
DerlemTR Proje Yöneticisi

Mar 212016
 
1.714 views

Kitap ve Gazetelerde En Çok Kullanılan Sözcükler

DerlemtrHürriyet gazetesinin izniyle incelemekte olduğum günlük haber arşivlerinin 2010 yılı taramasını bugün tamamladım. 2011 yılı taramalarına da hemen başladım.

İntel Centrino işlemcili, 2 GB belleği olan, Ubuntu 14.04 LTS işletim sistemli bilgisayar üzerinde çalıştırdığım ve Python 3.5.1 ile ekip arkadaşlarımın yardımıyla hazırladığım kodların çalışmasını tamamlaması kesintisiz olarak 58 saat 6 dakika sürdü.

İşlemler sırasında 3273 ayrı sayfada yer alan 149 bin 987 haber tarandı. Tarama sonucunda elde edilen 21 milyon 233 bin 320 sözcükten birbirine benzemeyen 500 bin 321 sözcük ortaya çıktı. Bu sözcükleri daha sonra kitap taramalarından elde ettiğimiz derlem veritabanı ile birleştireceğim.

Genel derlem sonuçları ile gazete haberlerinden elde ettiğimiz sonuçlar, tahmin ettiğimiz gibi büyük benzerlikler gösteriyor. Elbette farklılıklar da var.

Örneğin genel tabloda en sık kullanılmakta olan “bir” sözcüğü, gazete taramasında ikinci sırada yer alıyor. Hürriyet gazetesinin 2010 yılı arşivlerinde en çok kullanılan sözcük ise, “ve” sözcüğü. “Bir” ve “ve” sözcükleri yer değiştirmiş.

Üçüncü sözcük “bu” her iki listede de aynı.

Genel listede 4. ve 5. sırada yer alan “de” ve “da” sözcükleri, haber listesinde yer değiştirmiş.

Altıncı sözcük “için” her iki listede de aynı sırada.

Aşağıda, her iki listenin başında yer alan ilk 30 sözcüğü veriyorum. Çalışmayı tamamladığımızda bu listelerin birleştirilmiş halini zaten herkesin erişimine açacağım.

Bu çalışmayı yapabilmem için arşivlerinden yararlanmama izin veren Hürriyet gazetesi yönetimine ayrıca teşekkürlerimi sunuyorum.

Açık kaynaklı DerlemTR projemize katılmak veya bu konudaki gelişmelerden haberdar olmak isterseniz gurmezin.com‘u veya facebook PythonDerlemTR grubumuzu yahut https://www.github.com/ahmetax/derlemtr proje sayfamızı ziyaret edebilirsiniz.

Ahmet Aksoy
DerlemTR Proje Yöneticisi

En sık kullanılan ilk 30 sözcük
  Genel liste Hürriyet arşivi
1 bir ve
2 ve bir
3 bu bu
4 de da
5 da de
6 için için
7 o ile
8 gibi çok
9 daha olarak
10 ama daha
11 çok en
12 sonra olan
13 ne türkiye
14 kadar ise
15 her dedi
16 olarak sonra
17 olan olduğunu
18 diye kadar
19 dedi ilk
20 ki büyük
21 ile gibi
22 en bin
23 ya başkanı
24 şey söyledi
25 iki nin
26 s her
27 zaman yıl
28 büyük yeni
29 onu ın
30 ben var
Mar 162016
 
1.800 views

Türkçe sözcükleri elemanlarına ayrıştırma projesi

Türkçe sözcükleri elemanlarına ayrıştırma projesi
Github üzerinde paylaştığımız DerlemTR projemiz oldukça ilerledi. Büyük olasılıkla bir ay içinde son şeklini alacak. O zaman, elde ettiğimiz derlem veritabanımızı herkesin kullanımına açacağız.

Projemizin yeni aşamasında -aslında bir zamanlar benim de hasbelkader kısa bir süre için çalışmalarına katılma fırsatı bulduğum- zemberek projesi tarafından java ortamında çözümlenen bir sorunu ele alacağız: Türkçe sözcükleri kök ve eklerine ayrıştırmak. Eğer zemberek projesi python ortamına da aktarılabilmiş olsaydı, böyle bir çalışmaya gerek kalmayacaktı. O yüzden bizimki biraz da Amerika’yı yeniden keşfetmek gibi olacak ama, yapılmasında yarar var.

Projeyle ilgili açıklama ve gelişmeleri bu web sitesinden de yayınlamanın, çalışmamızın daha geniş kesimlere duyurulmasına yarar sağlayacağını umuyorum.

Bu projeyi de Python diliyle geliştireceğiz. Kaynaklarımız yine açık olacak.

İlk aşamada sözcükleri gövde+çekim_ekleri olarak ayrıştıracağız.

İkinci aşamada sözcük gövdelerini kök+yapım_ekleri olarak elemanlarına ayıracağız.

Son aşamada tüm sözcükleri kök+yapım_ekleri+çekim_ekleri şekline dönüştüreceğiz.

Bu projenin kolay bir proje olmadığının farkındayım. Zemberek projesi 10 yıldan fazla sürmüştü. Ben, bizim çalışmamızın daha kısa sürede sonuç vereceğine inanıyorum.

Ama bu proje, zemberek projesinin python ortamında birebir yeniden yazılması şeklinde olmayacak. O yüzden onun java kodlarını incelemeye özellikle yanaşmıyorum. Aksi halde yeni bir şeyler yaratmanın zevkini kaybetme olasılığı var. Amerika’yı belki yeniden keşfedeceğiz ama, hiç olmazsa rotamız farklı olsun! Güzergahımızda bizler de yepyeni şeyler keşfedebilelim!

Ben, kişisel olarak sağlam bir Türkçe bilgisine sahip olduğuma inanıyorum. Ama bir dilbilimci değilim. O yüzden yapacağımız çalışmalarda dilbilimcilerin de yer almasını yürekten istiyorum. Acelemiz yok, kapımız her zaman ve herkese açık.

Bizden ve projemizden bilgi almak için aşağıdaki adreslerden yararlanabilir, üye olabilirsiniz:

DerlemTR projemize katılın, çevrenize duyurun!

Ahmet Aksoy