May 102016
 
2.970 views

Türkçe Platformu İçin Çağrı

Merhaba arkadaşlar,

2016 yılı Şubat ayında açık kaynaklı “Türkçe Derlem” projesini başlattım. Derlem, ya da latincesiyle “corpus” sözcüğü herhangi bir dilin kullanmakta olduğu tüm sözcükler öbeğini tanımlıyor. Kökler, gövdeler, takılar, birleşik kelimeler, ifadeler hepsi bunun içinde. Örneğin sözlükler daha çok kelime kökleri ve gövdeleriyle ilgilenir; derlemde ise kökü ve takılarıyla her türlü sözcük bulunur.

Böyle bir projeye başlamışken sadece “derlem” çalışmalarıyla yetinmek yerine, sözcüklerin kullanım frekanslarını da belirlemenin ilerisi için çok daha yararlı olacağını düşündüm. O yüzden bizim derlem çalışmamız aynı zamanda sözcük frekanslarını da içeriyor.

Böyle bir veritabanının herkese açık olarak sunulmasının, Türkçe üzerine yapısal çalışmalar yapmayı planlayanlar için eşsiz bir kaynak olacağını düşünüyorum.

İlk meyvelerini vermesinin uzunca bir süre alacağını düşündüğüm bu çalışma, olağanüstü bir hızla gelişti. İki ay içinde 3 milyon altıyüz binden fazla birbirinden farklı sözcük belirledik. Bunun için 3 bine yakın kitap, Hürriyet Gazetesinin 6 yıllık arşivi ve RadikalBlog kaynaklarını taradık. Elde ettiğimiz kelimelerden bir kısmı yabancı kökenli veya hatalı olsa da büyük bir iş başardığımız kesin. Çalışmalarımızda yazılım dili olarak Python kullandık.

Verileri kolayca topladık ama, ayıklama ve paylaşma işi hiç te öyle olmadı. Zaten düzeltme ve ayıklama çalışmaları samanlıkta iğne aramaktan pek te farklı değil. İnsanı özendiren, motive eden hiç bir tarafı yok. Etkin bir paylaşım için de güçlü bir web sistemi şart.

Facebook üzerindeki grubumuzda bu işe “gönüllü aramak” için yazdığım bir mesaja verdiği yanıtta, bir arkadaşımız “oyunlaştırma” tekniğinden faydalanmamızı önermişti.

Oyunlaştırma (gamification) oldukça yeni bir kavram. Ama kapsamı o kadar geniş ki, derli toplu bir yönerge altında toparlanması pek te olası görünmüyor. Ama çok önemli!… Aslında hiç bir çekiciliği olmayan ama yapılması gereken çalışmalara çeşni katarak onu bir ilgi odağı haline getirmek, üstelik bu ilgiye süreklilik kazandırmak arka plandaki “asıl” işin çok daha kolaylıkla gerçekleşmesini sağlıyor. Acı veya yavan bir ilacı, lezzetli bir şurup haline getirmek gibi bir şey…

Son bir kaç haftadır sürekli bu konu üzerine kafa yoruyor, internette araştırmalar yapıyor, okuyorum.

İnsanlarımıza sürekli kullandıkları için kanıksadıkları dilimizin önemini, gücünü ve güzelliğini yeniden farkettirmek için onlara farklı tadlar, sürprizler sunmak gerekiyor. Bunun en kolay yolu da yapılacak çalışmalara eğlence ve pozitif rekabet unsurları kazandırmak.

Bu amaçla yeni bir site kurmak gerekiyor. Arka plandaki amacımız, elimizdeki veritabanını hem daha sağlıklı hale getirmek, hem de zenginleştirmek olmalı.

İşte bu çalışma için oldukça kapsamlı bir yapıya ihtiyacımız olacak. 10 yıllık bir program öngörüsü bence şunları içermeli:
1. Projenin ticari ve politik kaygılardan mutlaka uzak tutulması
2. En az 10 yıllık alan adı satın alınması
3. En az 10 yıllık hosting alanı (Python temelli çalışmalara uygun, aynı anda binlerce kişiye servis verebilecek bant genişliğine ve başlangıç olarak tahminen 100 GB’lık bir kayıt alanına sahip)
4. Kurulacak sisteme uygun bir güvenlik yapısının kurulması
5. Sistemin başka ülkelerde de aynalarının oluşturulması
6. Bu sistemi ve diğer çalışmaları desteklemek üzere bir platform (dernek?) oluşturulması
7. Mali ve teknik destek sağlayacak Destekçi kurumlarla işbirliği kurulması
8. Üniversitelerle, akademik kuruluşlarla bağlantı kurulması
9. Benzer amaçlı dernek ve platformlarla bağlantı kurulması
10. Yayın kuruluşlarıyla bağlantı kurulması
11. Türkçe sözlük ve ansiklopedi sistemleriyle bağlantı kurulması
12. Türkçe üzerinde yapay zeka çalışması yapan ve/veya tez hazırlayanlarla bağlantı kurulması, bu tür çalışmaların özendirilmesi
13. Türkçe ile ilgili akademik ve / veya kişisel makalelerin sitede yayınlanması ve basımının desteklenmesi
14. Oyunlaştırma tekniğini kullanarak, mevcut bilgilerin daha sağlıklı hale getirilmesini ve yeni bilgiler kazanılmasını sağlayacak uygun programların modüler olarak geliştirilmesi
15. Diğer Türkçe konuşan ülkelerdeki benzer kuruluşlarla bağlantı kurulması
16. Diğer Türki dillerin veritabanına kazandırılması
17. Türk dili ve Türkçe eserler ile ilgili yarışmalar düzenlenmesi
18. Yabancı yazar ve kuruluşların Türk dili ile ilgili araştırmalarının özendirilmesi
19. Elde edilen verilerin güvenli ve sağlıklı olarak paylaşılabilmesinin sağlanması
20. Türkçe yazarların desteklenmesi
21. Türkçe ağız ve lehçelerin derlenmesi
22. Türkçenin tarihsel gelişim ve değişiminin araştırılması
23. Türkçenin yapay zeka ile çözümlenmesi; sesin karakterlere, karakterlerin sese dönüştürülmesi
24. Öğretmenlerle ve eğiticilerle bağlantı kurulması

Bu listedeki işlemler önem veya zamana bağlı bir sıralamaya sahip değil. Bu yüzden tekrar tekrar ele alınıp geliştirilmesi ve gerçekçi bir çalışma programına oturtulması gerekiyor.

Hedefimizin büyük olması, herşeyin baştan hazır olmasını şart koşmuyor. Şu anda elimizde olanlarla başlayabiliriz. Çalışmalarımız ilerledikçe, yeni katılımcılar ve destekçiler kazanacağımızdan eminim.

Web sitesi çalışmalarını geliştirirken, ilk aşamada çok daha küçük boyutlu bir sistem kullanabiliriz. Gerekirse yerel sunucular üzerinde çalışırız.

Bu proje beni giderek daha fazla heyecanlandırıyor.

Umuyorum ki, benim heyecanımı paylaşacak diğer arkadaşlarla en yakın zamanda bir araya geliriz.

Bu grupta sadece yazılımcılara değil, Türkçeyi seven ve onunla ilgili çalışmalara katkıda bulunabilecek her kesimden insana ihtiyacımız olacak. Bu yüzden, bu konuyu lütfen çevrenizdekilerle de paylaşın. Olabildiğince fazla kişiye ulaşalım.

Yapılması gereken ve yapabileceğimiz çok şey var.

Ahmet Aksoy
10.05.2016

 Bir yanıt bırakın

Bu HTML tagleri ve özellikleri kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(gerekli)

(gerekli)

This site uses Akismet to reduce spam. Learn how your comment data is processed.