Ağırlıklı Çizgeler ile "Canlı Türkçe Sözlük Ağı" Tasarımı

Çalışma kapsamında Türkçe gövde, gövde adayları, çekimli kelimeleri ve aralarındaki ilişkileri içeren bir gövdeleme ağı oluşturulmuştur. Gövdeleme ağını oluştururken gövde ve çekimli kelimeler arasında doğrulanmış bağlantılar sağlayabilmek amacıyla Eryiğit ve Adalı (2004)’nın çalışmasında sunulan sonlu durum makinelerine (SDM) dayalı morfosentaktik kurallara dayalı bir çekim eki kontrol (ÇEK) fonksiyonu hazırlanmıştır. Hazırlanan ÇEK fonksiyonu, her çekimli kelime ile ona aday gövdeleri kıyaslayarak ek parçalarının Türkçe morfosentaktik yapısına uygun olup olmadığına karar vermektedir. Bu fonksiyon ek-fiil, isim ve fiiller için birer SDM içermektedir. Eryiğit ve Adalı’nın (2004) çalışmasında, bu SDM’lerin verilen bir çekimli kelimenin gövdesini tespit etmek amacıyla oluşturulduğu bildirilmiştir.
Bizim çalışmamızda ise, bu SDM’ler verilen bir ek parçasının ilgili makinelere gönderilerek doğrulanması amacıyla kullanılmıştır. Türkçede isim soylu olmaları sebebiyle sıfat, zarf ve zamir türündeki sözcükler veri setinde isim türünde etiketlenerek problem kolaylaştırılması amaçlanmıştır. SDM’lere, ek parçasının yanında POS etiketi bilgisi de gönderilerek ek parçasının her makinede işlenmesi yerine sadece veri setinde sağlanan kelime türüne uygun olan SDM’lerde doğrulanması sağlanmıştır. Ayrıca ses değişimlerine sahip ekler için kontrol, TDK Güncel Sözlük’te bulunan ses yumuşaması ve ünsüz düşmesi göstergeleri kullanılarak uygulanmıştır. Bu detayların ilk bakışta önceki çalışmaya göre ciddi katkılar sağladığı gözlenmiştir.

ÇEK fonksiyonu geliştirilirken aşağıda listelenen Türkçeye özgü özel durumlar düşünülmüş ve bunlar için ek geliştirmeler yapılmıştır.

• Yeterlilik ekinin olumsuz durumları (örn. yapabil - yapamadım)
• Sesli büzüşmesi (örn. oyna - oynuyor)
• Türkçeye özgü iki gövdenin özel çekimleri (örn. de - diyor, ye - yiyor)
• Sesli düşmesi (örn. burun - burnu)
• Sessiz yumuşamaları (örn. kitap - kitabı)
• Ses çiftlemesi (örn. af - affında)

Oluşturulan bu gövdeleme ağ modelinde, bir çizge veritabanı kullanılarak aday gövdelerin morfosentaktik açıdan uygun olan çekimli kelimelere bağlanılması hedeflenmiştir. Bu sebeple önce çekimli kelimeler gövde ağına toplu olarak eklenmiş, sonrasında gövdeler tek tek eklenirken kendine uygun olan çekimli kelimeler sorgulanmış, bulunan ilişkiler ÇEK fonksiyonu ile doğrulanmış ve bağlantılar yapılmıştır. Bağlantısı yapılacak gövde ile doğrulaması yapılan çekimli kelime/kelimeler “MORPH” etiketine sahip ilişkiyle bağlanılmıştır.
Gövdeleme ağı yeni gövdelerin keşfi, gereksiz keşif adayların silinmesi, ağda eşdizimlilik ilişkilerini oluşturma ve eşdizimlilik ile gövde keşfi gibi özelliklere sahiptir. Keşif işlemleri sözlük dışı kelimelerin tespit edilmesi ve gövde adaylarının tahmin edilerek ağa eklenmesini amacıyla yapılmaktadır.Projenin diğer parçası olan anlamsal ağın oluşturulmasında ise TDK Güncel Türkçe Sözlük verilerinden faydalanılmıştır. Anlamsal ağın tasarımı için Türkçe sözlük verileri ilk önce ön işlemlerden geçirilerek elde edilen verilerin analizi yapılmıştır. Bu analizler doğrultusunda madde başları ve onlara ait olan tanımlar bir çizge olarak şekillendirilmiş ve tanımların açıklamalarında geçen diğer madde başları ile bağlantılar yapılmıştır. Bu temel anlamsal ağ yapısı Veronis ve Ide'nin (1990) çalışmasında kullanılmış fakat bu ağ bağlantılarında sesteş madde başları tek bir madde başı olarak sesteş madde başlarının bütün tanımlarına bağlı olarak tasarlanmıştır. Bu çalışma da ise anlam karmaşasını daha doğru çözümleyebilmek için her bir sesteş madde başı ayrı birer madde başı düğümü olarak ağ yapısına eklenerek tasarlanmıştır. Madde başları ve tanımlardan oluşan bu ağ Mention-Sense diye isimlendirdiğimiz iki parçalı çizge yapısını ortaya çıkarmıştır. Kısaca bir madde başının başka bir madde başı ile ilişkisi dolaylı olarak tanımı üzerinden kurulmaktadır. Bu ağ yapısı, yeni bulunan ve sözlükte mevcut olmayan kelime çiftlerinin tanımlarının analizlerinde anlam karmaşasına çözüm olarak kullanılmıştır.
Temel ağ yapısının üstüne 2. işlem olarak madde başları ve o madde başını barındıran bileşik kelimelerin madde başları ile bileşik kelime bağlantıları kurulmuştur. Eş anlamlı çiftler ise ağ üzerinden hangi tanımları birbirlerini işaret ediyor ise ona göre doğrudan tanımdan tanıma bağlantılar yapılarak ağa eklenmiştir(Turan ve Orhan, 2018). Bir sonraki işlemde ise ağ üzerinde türemiş kelimelerin kökleri tanımlar üzerinden kontrol edilerek türemiş-kök madde başları birbirleri ile ilişkilendirilmiştir. Bu işlem TDK Güncel Türkçe Sözlük'te bulunan tanımların analizi ile gerçekleştiği için tanımın kök madde başı ile anlamsal bağlantısı aranmış fakat bütün türemiş kelimeler bu anlamsal analiz ile kök madde başlarına bağlanamamıştır. Bir sonraki işlemde ise birbirlerini tanımlarında karşıtı olduğunu belirten zıt anlamlı kelimeler arasında zıt anlamlı ilişkiler kurulmuş ve ayrıca olumlu-olumsuz ekler olarak birbirlerini tamamlayan "-li" ve "-siz" eklerini barındıran türemiş kelimelerin arasında tanımlar analiz edilerek uygun olan kelime çiftleri arasında zıt anlamlılık ilişkileri eklenmiştir.
Diğer taraftan bütün TDK Güncel Türkçe Sözlük verileri tanımları üzerinden n-gram analizinden geçirilmiş. 1-Gramdan 50-Grama kadar bütün ngramlar bulunmuştur. Bu kalıplar içinde sıklık analizi yapılarak 50 ve üstü tanımlarda geçen ngram kalıpları kontrol edilerek içlerinden uygun olan kalıplar anlamsal ilişki çıkarmak için kullanılmıştır. Öncelikli olarak alt-üst anlamsal ilişkileri ağa eklendikten sonra analizler sonrası elde edilen diğer anlamsal ilişkiler de ağa eklenmiştir.