Ağırlıklı Çizgeler ile "Canlı Türkçe Sözlük Ağı" Tasarımı

TÜBİTAK tarafından desteklenen 215E256 no’lu “Ağırlıklı Çizgeler ile Canlı Türkçe Sözlük Ağı Tasarımı” başlıklı projemiz Doç.Dr. Umut ORHAN tarafından yürütülmüş̧ ve 01/04/2016 – 01/04/2019 tarihleri arasında öngörüldüğü zaman içerisinde başarı ile tamamlanmıştır. Projenin gerçekleştirilmesinde verdiği desteklerden dolayı TÜBİTAK’a teşekkür ederiz.

PROJE ÖZET:
Dil bilimi ve yapay zekanın birleşmiş bir konusu olarak bilinen doğal dil işleme (DDİ) alanındaki neredeyse tüm çalışmalarda morfolojik ve anlamsal analiz önemli konulardır. Özellikle Türkçe gibi karmaşık morfosentaktik özelliklere sahip sondan eklemeli bir dilin mofolojik analizi diğer tüm DDİ işlemlerini etkilemektedir. Anlamsal sözcük ağları da DDİ alanındaki diğer bir önemli başlıktır. Bilinen sistematik ilk çalışma olması sebebiyle WordNet genel olarak anlamsal ağlara rol model olmuştur. Başta sadece İngilizce için hazırlanan WordNet zamanla diğer dünya dillerine uyarlanmıştır. Fakat uzmana dayalı sürdürülen WordNet çalışmaları, yeterli insan gücünün teminindeki zorluklar yüzünden sekteye uğramış, anlamsal ilişkilerin bilgisayar destekli tespiti başlığı önemli araştırma alanlarından birisi olmuştur. Türkçe üzerine yeterli çalışmanın yapılmadığını belirleyerek öncelikle morfolojik analizin geliştirilmesi, daha sonra da sözlük tanımlarının analiziyle bir Türkçe WordNet’in bilgisayarlı yöntemlerle hazırlanabilmesi üzerine odaklandık. Morfolojik analizde, çeşitli araştırmacılar tarafından önerilen Türkçenin morfosentaktik yapısını tanımlayan sonlu durum makineleri kullanılmıştır. Buna paralel olarak Viterbi tabanlı belirsizlik giderme ve tekrar sayılarına dayalı yeni gövde keşifleri gerçekleştirilmiştir. Ayrıca TDK Güncel Sözlük verisi üzerine yapılan analiz ile bazı tanım kalıpları belirlenmiş ve sözcükler arası birçok ilişki tespit edilmiştir. Bulunan bu ilişkiler MentionSense mimarisiyle oluşturulan anlamsal ağ üzerinde kontrol edilerek sadece madde başları arasında tanımlanan ilişkiler olmaktan öteye geçerek anlamdan anlama ilişkiler haline getirilmiştir. Bunun için ağdaki tüm düğümler ağırlıklandırılmış ve bulunan her ilişkideki iki sözcüğün çift yönlü olarak birbirlerine ulaşabilirliği gözetilmiştir. Bu anlamsal ağ sayesinde eş anlamlılık, ast/üst, karşıt anlamlılık gibi temel anlamsal ilişkilerin tespit edilmesi ve sayısının arttırılması hedeflenmiştir. Son olarak derlemden keşfedilen yeni madde başlarından türemiş veya bileşik yapıda olanlar için tanım önerilerinin nasıl hazırlanabileceği anlatılmıştır.