Türkçe Verisetleri

Yapay Zeka - Bilim - Teknoloji (AI-Sci-Tech)
Yapay Zeka - Bilim - Teknoloji (AI-Sci-Tech)



Bir hafta kadar önce, elimdeki kaynaklara göre, Türkçe’nin ayrık kelime sayısı 4 milyondan biraz fazlaydı. Veritabanıma işlenmemiş bazı sözcükler olduğundan da emindim. O yüzden toplam geçerli kelime sayısı 4-5 milyon civarında olabilir diye düşünüyordum. Eksik kelimeleri bulmak için yeni yöntemlere…

DerlemTR Projesi kapsamında toparladığım kelimeleri önce Zemberek aracılığıyla analiz ettim. Ancak bazı sözcükleri Zemberek analiz edemedi.Önümde iki seçenek vardı: Zemberek projesi java diliyle geliştirildiği için, kodlama konusunda yapabileceğim pek bir şey yok. Java’yı bilirim ama, hakim değilim. Kodları gerektiğinde yorumlayabilirim…

Benim çocukluğımda, yani 60 yıl öncesinde, en uzun Türkçe kelime “Çekoslovakyalılaştıramadıklarımızdanmısınız” şeklindeydi. Oysa bu, yanlış bir kelimeydi. Çünkü soru ekleri Türkçede ayrı yazılır. Zemberek’in kelime dağarcığımızdan yakalayabildiği ve kurallara uygun en uzun sözcük “çekoslovakyalılaştırmadıklarımızdanmışçasına”. Tam 45 harf içeriyor. İkinci sıradakinden…


Bu yazımda, benim de yeni farkına vardığım, Türkçeye ait bazı sayısal değerleri ele alacağım.Elde ettiğim sayıların mutlak olmadığını, veritabanımdaki 2,745,000 kelime ve Zemberek çözümlemelerine dayandığını peşinen belirteyim. İlk tablomuz, Türkçe sözcüklerin tiplerine göre nasıl gruplandığını gösteriyor. Toplam kolonundaki sayılar o…

DerlemTR projemizde kullanacağımız aday kelimeleri elde etmede Wikimedia çok önemli bir kaynak oldu. Bu kaynağı bir corpus olarak kullanmak için üzerinde biraz çalışmak gerekir. Ancak bize sadece kelimeler lazım olduğu için, yapacağımız şey, gereksiz karakterleri süzmekten ibaret olacak. Wikimedia en…
Buradaki yazılarımda bundan sonra proje adını sadece “DerlemTR” olarak kullanacağım. Github üzerindeki projede kodlarla ilgili veya diğer açıklamaları uzun uzadıya paylaşmak mümkün değil. O yüzden bu tür açıklamaları buradan paylaşacağım. Belki ileride projenin kendine özgü bir sitesini açmak mümkün olursa,…