1.169 views 1.169 views
Mar 162016
 
1.170 views

Türkçe sözcükleri elemanlarına ayrıştırma projesi

Türkçe sözcükleri elemanlarına ayrıştırma projesi
Github üzerinde paylaştığımız DerlemTR projemiz oldukça ilerledi. Büyük olasılıkla bir ay içinde son şeklini alacak. O zaman, elde ettiğimiz derlem veritabanımızı herkesin kullanımına açacağız.

Projemizin yeni aşamasında -aslında bir zamanlar benim de hasbelkader kısa bir süre için çalışmalarına katılma fırsatı bulduğum- zemberek projesi tarafından java ortamında çözümlenen bir sorunu ele alacağız: Türkçe sözcükleri kök ve eklerine ayrıştırmak. Eğer zemberek projesi python ortamına da aktarılabilmiş olsaydı, böyle bir çalışmaya gerek kalmayacaktı. O yüzden bizimki biraz da Amerika’yı yeniden keşfetmek gibi olacak ama, yapılmasında yarar var.

Projeyle ilgili açıklama ve gelişmeleri bu web sitesinden de yayınlamanın, çalışmamızın daha geniş kesimlere duyurulmasına yarar sağlayacağını umuyorum.

Bu projeyi de Python diliyle geliştireceğiz. Kaynaklarımız yine açık olacak.

İlk aşamada sözcükleri gövde+çekim_ekleri olarak ayrıştıracağız.

İkinci aşamada sözcük gövdelerini kök+yapım_ekleri olarak elemanlarına ayıracağız.

Son aşamada tüm sözcükleri kök+yapım_ekleri+çekim_ekleri şekline dönüştüreceğiz.

Bu projenin kolay bir proje olmadığının farkındayım. Zemberek projesi 10 yıldan fazla sürmüştü. Ben, bizim çalışmamızın daha kısa sürede sonuç vereceğine inanıyorum.

Ama bu proje, zemberek projesinin python ortamında birebir yeniden yazılması şeklinde olmayacak. O yüzden onun java kodlarını incelemeye özellikle yanaşmıyorum. Aksi halde yeni bir şeyler yaratmanın zevkini kaybetme olasılığı var. Amerika’yı belki yeniden keşfedeceğiz ama, hiç olmazsa rotamız farklı olsun! Güzergahımızda bizler de yepyeni şeyler keşfedebilelim!

Ben, kişisel olarak sağlam bir Türkçe bilgisine sahip olduğuma inanıyorum. Ama bir dilbilimci değilim. O yüzden yapacağımız çalışmalarda dilbilimcilerin de yer almasını yürekten istiyorum. Acelemiz yok, kapımız her zaman ve herkese açık.

Bizden ve projemizden bilgi almak için aşağıdaki adreslerden yararlanabilir, üye olabilirsiniz:

DerlemTR projemize katılın, çevrenize duyurun!

Ahmet Aksoy

  2 Yanıt - “Türkçe sözcükleri elemanlarına ayrıştırma projesi”

  1. Literatürde adı “morfolojik analiz” olan bu işi biz Python’da ve Foma FST kullanarak, hem Türkçe hem Osmanlıca için yaptık. Python’da NumPy vs. gibi önemli optimizasyonlar kullandığımız halde yavaş oldu.

    Çağrı Çöltekin’in morfolojik analiz aracını, genel kullanıma adapte etmeye çalışsanız muhtemel daha kısa sürede daha önemli başarılar elde edersiniz. https://github.com/coltekin/TRmorph

    İyi çalışmalar.

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

(gerekli)

(gerekli)

Önceki yazıyı okuyun:
Türkçe harf frekansları

Türkçe harf frekansları Türkçede En Çok Kullanılan 100 Sözcük başlıklı yazıda frekanslarına göre sözcükleri listelemiştim. Aynı dosya verilerini kullanarak bir...

Kapat