Tespit Edilen Eş Dizimli Tipte Yüksek Frekanslı Gövde Adayları | |||||||||||||||||||||||||||||
Doğal dillerde, bilinmeyen ve sıkça tek başına geçen bir sözcüğün gövdesinin keşfi kadar
eşdizimli
(collocation) tipte gövdelerin keşfi de önemlidir. Çalışmamızda, cümle analizlerinde
oluşturulan
eşdizimlilik ilişkileri kullanılarak gövdeler arası ikili (bigram) yapıları kurulmaya
çalışılmıştır.
Bu sebeple ağda bulunan tüm gövde düğümleri (TDK maddebaşları ve onaylanan aday gövdeler)
ve bunlar
arasındaki ilişkiler belirli frekans kriterleri içerisinde değerlendirilmiş ve şartı
sağlayan tüm
ikililer birleştirilerek yeni eşdizimli tipte gövde düğümü olarak gövdeleme ağına
eklenmiştir.
Bu tipteki en yüksek frekansa sahip gövde adayları Tablo 1’de gösterilmiştir.
|
|
Keşif Fonksiyonları ile Bulunmuş Doğrulanmış Aday Gövde Örnekleri | ||||||||||||||||||||||
Derlemden yeni cümleler geldikçe ağ güncelleme modülü bunları işlemekte ve gövdeleme ağını geliştirmektedir. Ancak bazı zamanlarda ağda karşılığı bulunmayan yeni kelimeler ile karşılaşılabilmektedir. Bu durumda keşif fonksiyonları çalışarak tekli ve ikili (eşdizimli tip) kelime keşiflerini yapmaktadır. Keşfedilen ve doğrulanan adaylar ağa eklenmekte ve gövdeleme başarısının artmasına katkı sunmaktadırlar. Bu tipteki gövde adayları Tablo 2’de listelenmiştir. |
|
TDK Güncel Türkçe Sözlükte Madde Başları | |||||||||||||||||||||||||||||||||||
Tablo 1’de geçen “çoklu tanım” terimi, birden fazla anlamı olan (polysemy) madde başları için kullanılırken “tek tanım” ifadesi sadece bir anlama sahip olan madde başları için ifade edilmiştir. Birden çok anlamı olan madde başları, sözcük anlam belirsizliğinin giderilmesinde anlamsal ağ içerisinde gerekli bağlantıları oluşturmada önemli bir fayda sağlayacaktır. Birden fazla kelimeden oluşan madde başları için “çok sözcüklü mb” terimi ve sadece bir kelimeden ibaret olan madde başları için de “tek sözcüklü mb” ifadesi kullanılmıştır. Buradaki çok sözcüklü madde başları, yardımcı fiillerle oluşturulmuş eylemler ve deyimler, ikilemeler, sıfat veya belirtisiz isim tamlamalarından oluşmuş birleşik isim öbekleri olabilirler. Tablo 1’de 14.651 ile gösterilen sayı sözlükte, birden fazla tanım cümlesine sahip tek kelimelik madde başı sayısını göstermektedir. Diğer taraftan hemen yanındaki 40.345 sayısı da (bazı madde başlarının 2 bazılarının 3 veya 4 adet tanım cümlesine sahip olduğu düşünülerek) 14.651 madde başına ait toplam tanım cümlesi sayısını göstermektedir. Bu sebeple tek tanım cümlesine sahip madde başları için, “mb” ve “tanım” sütunları aynı sayıyı ifade etmektedir. |
|
TDK Güncel Türkçe Sözlükte İfade Şekilleri Türleri | ||||||||||||||||||||||
. “İfade şekli” özelliği ise o madde başının mecaz ve gerçek anlam gibi ifade şekillerini göstermektedir. Örnek olarak ifade şekli mecaz türünde olan 1296 kayıt tanımlanmış fakat bu özellik doğrudan madde başına verilmiştir. Ancak bir madde başının kendi bünyesinde birden fazla anlam barındırması ve bu anlamlar içinde gerçek anlam dışında mecaz anlam da mevcutsa bu tanımlamanın o anlama atfedilmesi mimari açıdan daha doğru görünmektedir. İfade şekillerinin tamamını gösteren liste Tablo 2’de gösterilmiştir. Toplam sayıya bakarak gerçek anlamında kullanılan madde başları için “ifade şekli” özelliğinin verilmediği kolayca anlaşılabilir. |
|
TDK Güncel Türkçe Sözlükte Kökenlerine Göre Ödünç Kelimeler | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
“Köken” özelliği ise o madde başının köken olarak ait olduğu dili temsil etmektedir.
Bu özellik doğal olarak Türkçe madde başları için boş bırakılmıştır. Köken bilgisi,
eş anlamlılık ilişkisinde çok önemli yere sahiptir. Sözlükteki köken bilgisinden
çıkartılan dil listesi ve frekansları Tablo 3’te sunulmuştur.
|
|
TDK Güncel Türkçe Sözlükte Sözcük Türlerine Göre Madde Başları | |||||||||||||||||||||||||
“Sözcük türü” özelliği, madde başının POS etiketini belirtir. Bu özellik doğal dil işleme işlemleri
açısından çok önemlidir. Sözdizimsel analizde sözcük türü etiketleme o cümlenin bağlam açısından
iskeletini ortaya çıkarmaktadır. Bu özellik madde başına ait varsayılan değer olarak verilebildiği
gibi aynı zamanda her anlam için de verilmektedir. Bu durum kafa karıştırıcı gibi gözükse de aslında
bir madde başının genel olarak sözlüksel açıdan "tek başına" dahil olduğu bir sözcük türü mevcut iken,
anlamsal açıdan cümle içinde başka bir sözcük türü gibi davranabilmektedir. Örnek olarak "güzel" sözcüğü
sözlükte madde başı olarak sıfat sözcük türüne dahildir. Fakat tanımlar içinde isim ve zarf sözcük türleri
olarak kullanılan tanımları da mevcuttur. Sözcük türü verilmeyen anlamlar, madde başının sözcük türü özelliği
tarafından kapsanmaktadır. Tablo 4’te sözlük verisinin sözcük türü açısından bir özeti verilmiştir.
|
|
TDK Güncel Türkçe Sözlükte Terim Özelliğine Göre Madde Başları | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TDK Güncel Türkçe Sözlüğünde “terim” özelliği, sadece tanımlara özgü bir bilgi olarak sözlükte bulunmaktadır.
Bu özellikte söz konusu tanımın bir terim anlamı taşıdığını ve hangi alanda terim olarak kullanıldığını
belirtmektedir. Güncel Türkçe Sözlük bir terimler sözlüğü olmasa da sıradan bir sözcüğün dilin kullanımı
esnasında terim özelliği kazanması durumuyla bu tür kazanılmış yeni anlamlar da sözlüğe tanım olarak eklenmiştir.
Toplam 11.326 terim özelliği olan tanımın Tablo 5’te alanlarına göre dağılımı gösterilmektedir.
|
|
TDK Güncel Türkçe Sözlük için N-Gram Analizi | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Cümle yapılarının genel kalıplarının ortaya çıkarılması için sözlükteki bütün tanımlar üzerinde
n-gram analizi yapılmıştır. N-gram analizleri için tanım cümlelerinde 1-gram öbeklerinden
(en uzun tanım cümlesinin toplam sözcük sayısı olan) 50-gram öbeklerine kadar mümkün olan
bütün n-gram öbekleri hesaplanmıştır. Bu hesaplamalar sonucunda, uygun n-gram öbekleri için
50 tekrar değeri (50 farklı tanımda bulunma) eşik olarak kabul edilmiştir. Bu eşik değeri,
tanımlar içerisinde anlamlı örüntü öbeklerinin oluştuğu en düşük değer olarak gözlemlenmiştir.
Belirlenen öbekler içerisinde en fazla 7-gram olanlar istenen eşik değerini sağlamıştır.
Buna göre 50 tekrar değerini aşan 30 adet unigram, 43 adet bigram, 27 adet trigram bulunmuştur.
Bunun ötesinde 13 adet 4-gram, 2 adet 5-gram ve 1 adet de 7-gram tanım kalıbı bulunmuştur.
Tablo 6'da, TDK Güncel Türkçe Sözlükte bulunan 121.535 tanım cümlesi üzerinde n-gram analizi
yapılmış ve 1’den 50’ye kadar elde edilen n-gramlar sayısal olarak listelenmiştir.
|
|
Anlamsal Ağdaki Temel İlişkiler | |||||||||||
Anlamsal ağ tasarımında, herhangi bir Türkçe cümledeki anlamsal belirsizliği de giderebilecek
şekilde çalışabilen bir anlamsal ağın oluşturulması hedeflenmiştir. Her madde başının ve anlamın
birer düğüm, madde başları ve anlamlar arası ilişkilerin de kenarlar olarak tasarlanacağı
anlamsal çizge ağında ilk olarak TDK Güncel Sözlük’ten temin edilen tüm madde başları ve
onlara bağlı anlamlar sisteme düğüm olarak eklenmiş, anlam düğümleri ilgili madde başı düğümlere
bağlandıktan sonra da anlama ait tanım cümlesinden tespit edilen ilişkiler gereğince düğümler
birbirlerine ilgili etikete sahip ilişkiyle bağlanmıştır. Tablo 7'de, anlamsal ağda kullanılan
ilişkilerin istatistiğini sunmaktadır.
|
|
TDK Güncel Türkçe Sözlükten Tespit Edilen Temel WordNet İlişkileri | |||||||||||||||
Anlamsal ağlar içerisinde en popüleri ve en başarılı uygulamalara sahip olanı WordNet olduğu için sıklıkla
araştırmalarda bu yapının ilişki türleri tercih edilmektedir. Biz de çalışmamızda, bazı WordNet ilişkilerini
kullandığımız sözlük verisinden çıkarmaya çalıştık. Diğer araştırmacıların Türkçe üzerine yaptığı çalışmalardan
yararlanarak bazı kural tabanlı çıkartımlar yapılmış ve Tablo 8’de sunulan ilişki türleri üzerine bağıntılar
tespit edilmiştir.
|
|
Tanım Cümlelerinden N-Gram Analiziyle Belirlenen Kalıplar | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bazı kalıplar kullanılarak belirlenen geleneksel WordNet ilişkileri dışında n-gram analiziyle de bazı ilişkiler
tespit edilmiştir. Geleneksel WordNet ilişkileri dışında ağa eklenen ilişkilerin, özellikle yapım ekleriyle
gelişen ve güncellenen Türkçe dili için çok önemli tanım kalıplarını da ortaya çıkarmaktadır.
|
|
TDK Güncel Türkçe Sözlükten N-Gram Analiziyle Tespit Edilen İlişkiler | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tablo 10 incelendiğinde toplam 70.624 adet tanım kalıbının, tanım cümlelerinin n-gram analiziyle belirlendiği söylenebilir. Bununla beraber geleneksel WordNet ilişkilerinin 66.498 seviyelerinde tespit edildiği düşünülünce yapım eki ve n-gram analizinin toplam ilişki keşfi açısından ne kadar önemli olduğu ortaya çıkmıştır. Fakat Tablo 8 ve Tablo 10 ile belirtilen ilişkilerin, madde başlarının hangi tanımlarını ilgilendirdiği belirsizlik yaratmaktadır. Hem bu belirsizliği gidermek hem de yeni ilişkiler keşfedebilmek için ağın ağırlıklandırılmasına odaklanılmıştır. |
|
Anlamsal Ağa Yapay Olarak Ekelenen Madde Başlarına Önerilen Tanımlar | ||||||||||||||||||||||||||||||||||||||||
Derlem verilerinden yeni gövde keşifleri yapılmış, daha sonra da elde edilen yeni gövdeler,
anlamsal ağda yeni bir madde başı düğüm olarak eklenebilsin diye analiz edilerek bilgisayarlı
tanımsal çıkartıma yönelik tahminleme yapılıp yapılamayacağı incelenmiştir. Öncelikle keşfedilen
yeni gövdeler anlamsal yorumlama kapsamında gruplanmıştır. Buna göre üç tür yeni gövde bulunmaktadır:
|
|
Bilgi ve Vermek sözcüklerinin tanımları ve "Bilgi vermek" için tanım analizi | |||||||
Metin verisi içinden Gövdeleme ağı ve Anlamsal ağ üzerindeki analizlerin
sonucu bulunan ve sistem tarafından doğru tanımlarıyla eşleştirilen örnek olarak önemli
ayrıntılar içermektedir. İnsan kontrolüne sunulması için, sistem iki sözcüğün oluşturduğu
yeni sözcük grubunun anlamını tasarlayabilmek için kullanılabilir olan sözcüklere ait uygun
tanımları bulmuştur.
|
|
Sezon ve Kupa sözcüklerinin tanımları ve "Sezon kupası" için tanım analizi | |||||||||
Doğru bir tanım eşleşmesi için "sezon" sözcüğünün 3. tanımı ile "kupa" sözcüğünün 1 numaralı sesteşinin 3. tanımı
seçilmesi gerekirken, "kupa" sözcüğünün 2. sesteşinin 2. tanımı seçilmiştir. Bu anlamsal ağ üzerindeki en kısa
mesafe işlemleri uygulanırken her iki sözcüğün tanımlarında ortak geçen spor sözcüğü en kısa anlamsal mesafenin
oluşmasını sağlamıştır. Bu tanımlarda kafa karıştırıcı olan durum, spor müsabakalarında verilen kupanın
(1. sesteş) herhangi bir tanımında spor sözcüğünün bulunmamasıdır. Ve sonuç olarak 2. sesteşte bulunan spor
sözcüğü en kısa yol için daha uygun bir mesafe değeri üreterek baskın gelmiştir. Bu durum, anlamsal ağın bigram
analizleriyle yeni sözcük gruplarının bulunması işlemlerinde ciddi performans sorunlarına dönüşmektedir.
|
|