Tem 072023
 
921 viewsTürkçe Derlem DerlemTR Çalışmamı Güncelliyorum

2016 yılında başladığım Derlemtr projesini, belli bir aşamaya getirmiş ve github üzerinden paylaşmıştım. Ancak, beklenmedik bazı sağlık sorunları yüzünden bu tür çalışmalarımı arka plana çekmek zorunda kaldım. Sağlık sorunları nihayet kritik olmaktan çıktı. Ben de yarım kalan projelerimi yeniden ele almaya başladım. DerlemTR projesi bunların başında geliyor. Türkçenin eklemli bir dil olması ve çok sayıda yabancı kökenli sözcük içermesi, derlem çalışmalarını zorlaştıran bir unsur. Öte […]

Tem 042017
 
250.035 views

“kalbur” projemizde ele aldığımız kök+ek ayrıştırma çalışmalarımızda kök ve ek listelerinden yararlanıyoruz. Ele aldığımız köklerin salt veya türetilmiş olması hem olası ek listesinin içeriğini etkilemekte, hem de “derin öğrenme” veri setlerine uygulayacağımız sadeleştirmelerin hassasiyetini etkileyecektir. Kabaca bir fikir vermesi için geç ve geçir fiilleri ile ilgili bazı bilgileri değerlendirdik. Ir eki (buradaki I karakteri ı, i, u veya ü karakterlerinden herhangi birine karşılık gelir) dilimizdeki […]

Mar 112017
 
5.622 viewsZemberek kütüphanesindeki bir kök sorunu

Zemberek kütüphanesindeki bir kök sorunu Bir kaç gün önce zemberek kütüphanesiyle köklerini belirlemeye çalıştığım sözcüklerden birinin yanlış çözümlendiğini farkettim. Fiil olması gereken bir kök, İsim olarak tanımlanmıştı. Benzer sözcüklerin durumuna bakınca, bunun sistematik bir sorun olduğunu farkettim. Zemberek kütüphanesini geliştiren arkadaşlar bu projeyi daha fazla sürdürmeme kararı aldıkları için sözkonusu hatayı gidermek – bu konuda bir gönüllü çıkmazsa- pek mümkün gibi görünmüyor. Yine de, bu […]

Kas 072016
 
4.621 viewsTürkçe Kelimelerde Hecelerin Sayısal Dağılımı

Türkçe Kelimelerde Hecelerin Sayısal Dağılımı Türkçe Hecelemede 6 Temel Kural başlıklı yazımda Türkçe hecelemede kullanılan 6 temel kuralı aktarmıştım. Bu kuralların bir kısmı, yabancı kökenli sözcükleri de kapsıyordu. Bu kez, elimizdeki derlem veritabanından yararlanarak Türkçe kelimeleri hecelerine ayırdım ve kullanım sıklıklarını belirledim. Sonuçları üç ayrı kategoride ele aldım: 1- Sadece öztürkçe kelimeler 2- Öztürkçe ve yabancı kökenli kelimeler 3- Derlem dosyasındaki sözcüklere filtreleme uygulamadan bulunan […]

Ağu 262016
 
4.428 viewsEğitilmiş word2vec datasını nasıl kullanırız?

Eğitilmiş word2vec datasını nasıl kullanırız? Elbette bu tür çalışmalarımızı Python ile yapıyoruz. Üstelik interaktif denemeler yapıyorsak, iPython kullanmamız daha doğru. iPython son dönemde jupyter ile entegre çalışıyor. Bu yüzden önce kullanmakta olduğunuz Python sürümünü aktif hale getirin. Ben Python 3.5.1 kullanıyorum ve bunun için tanımladığım evp35 isimli bir sanal ortamım var. Sanal ortamımı devreye sokuyorum: source ~/evp35/bin/activate Artık “python” komutum doğrudan python 3.5.1 sürümünü devreye […]

Ağu 262016
 
5.231 viewsHürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları

Hürriyet Gazetesi Datasıyla Derin Öğrenme Çalışmaları Açık Kaynaklı DerlemTR Projesi‘nin yeni aşamasında, Hürriyet Gazetesi yetkilileri “derin öğrenme” (deep learning) konulu çalışmalarımızda gazete arşivlerinden yararlanma isteğimizi yine olumlu karşıladı. Başta Sayın Ersay Dizman olmak üzere, gazete yetkililerine tekrar teşekkür ediyorum. Bu aşamada yine python dilini kullandım ve 2010 yılı Hürriyet Gazetesi arşivlerini taratarak “uygun” haberleri bir araya topladım. Haberlerin tarihi, başlığı, muhabiri veya yazarı belli değil. […]