Tespit Edilen Eş Dizimli Tipte Yüksek Frekanslı Gövde Adayları

Doğal dillerde, bilinmeyen ve sıkça tek başına geçen bir sözcüğün gövdesinin keşfi kadar eşdizimli (collocation) tipte gövdelerin keşfi de önemlidir. Çalışmamızda, cümle analizlerinde oluşturulan eşdizimlilik ilişkileri kullanılarak gövdeler arası ikili (bigram) yapıları kurulmaya çalışılmıştır. Bu sebeple ağda bulunan tüm gövde düğümleri (TDK maddebaşları ve onaylanan aday gövdeler) ve bunlar arasındaki ilişkiler belirli frekans kriterleri içerisinde değerlendirilmiş ve şartı sağlayan tüm ikililer birleştirilerek yeni eşdizimli tipte gövde düğümü olarak gövdeleme ağına eklenmiştir. Bu tipteki en yüksek frekansa sahip gövde adayları Tablo 1’de gösterilmiştir.

Tespit edilen eş dizimli tipte gövde adaylarının listesine bu linkten erişebilirsiniz.

Keşif Eş Dizimler Frekans Değeri Keşif Eş Dizimler Frekans Değeri
başta olmak 93 gerek olmak 88
konu olmak 59 açıklama yapmak 42
daha fazla 26 üzerinde bulunmak 22
maç kazanmak 21 maç oynamak 21
bayram günü 21 anne baba 19
diye düşünmek 17
Keşif Fonksiyonları ile Bulunmuş Doğrulanmış Aday Gövde Örnekleri

Derlemden yeni cümleler geldikçe ağ güncelleme modülü bunları işlemekte ve gövdeleme ağını geliştirmektedir. Ancak bazı zamanlarda ağda karşılığı bulunmayan yeni kelimeler ile karşılaşılabilmektedir. Bu durumda keşif fonksiyonları çalışarak tekli ve ikili (eşdizimli tip) kelime keşiflerini yapmaktadır. Keşfedilen ve doğrulanan adaylar ağa eklenmekte ve gövdeleme başarısının artmasına katkı sunmaktadırlar. Bu tipteki gövde adayları Tablo 2’de listelenmiştir.

Bulunan Aday Gövdeler
hale gelmek malolmak festivalci resmi gazete
uğraşmışlık brexit savunmacı gdo
kalekol kodlanmak abc adım atmak
TÜBİTAK sağlık sistemi TPAO retweet
konumlandırılmak dev adam prompter
TDK Güncel Türkçe Sözlükte Madde Başları

Tablo 1’de geçen “çoklu tanım” terimi, birden fazla anlamı olan (polysemy) madde başları için kullanılırken “tek tanım” ifadesi sadece bir anlama sahip olan madde başları için ifade edilmiştir. Birden çok anlamı olan madde başları, sözcük anlam belirsizliğinin giderilmesinde anlamsal ağ içerisinde gerekli bağlantıları oluşturmada önemli bir fayda sağlayacaktır. Birden fazla kelimeden oluşan madde başları için “çok sözcüklü mb” terimi ve sadece bir kelimeden ibaret olan madde başları için de “tek sözcüklü mb” ifadesi kullanılmıştır. Buradaki çok sözcüklü madde başları, yardımcı fiillerle oluşturulmuş eylemler ve deyimler, ikilemeler, sıfat veya belirtisiz isim tamlamalarından oluşmuş birleşik isim öbekleri olabilirler. Tablo 1’de 14.651 ile gösterilen sayı sözlükte, birden fazla tanım cümlesine sahip tek kelimelik madde başı sayısını göstermektedir. Diğer taraftan hemen yanındaki 40.345 sayısı da (bazı madde başlarının 2 bazılarının 3 veya 4 adet tanım cümlesine sahip olduğu düşünülerek) 14.651 madde başına ait toplam tanım cümlesi sayısını göstermektedir. Bu sebeple tek tanım cümlesine sahip madde başları için, “mb” ve “tanım” sütunları aynı sayıyı ifade etmektedir.

Tek Tanım Çoklu Tanım Toplam
Madde Başı Tanım Madde Başı Tanım Madde Başı Tanım
Tek Sözcüklü MB 47033 47033 14651 40345 61684 87378
Çok Sözcüklü MB 26273 26273 3583 7884 29856 34157
Toplam 73306 73306 18234 48229 91540 121535
TDK Güncel Türkçe Sözlükte İfade Şekilleri Türleri

. “İfade şekli” özelliği ise o madde başının mecaz ve gerçek anlam gibi ifade şekillerini göstermektedir. Örnek olarak ifade şekli mecaz türünde olan 1296 kayıt tanımlanmış fakat bu özellik doğrudan madde başına verilmiştir. Ancak bir madde başının kendi bünyesinde birden fazla anlam barındırması ve bu anlamlar içinde gerçek anlam dışında mecaz anlam da mevcutsa bu tanımlamanın o anlama atfedilmesi mimari açıdan daha doğru görünmektedir. İfade şekillerinin tamamını gösteren liste Tablo 2’de gösterilmiştir. Toplam sayıya bakarak gerçek anlamında kullanılan madde başları için “ifade şekli” özelliğinin verilmediği kolayca anlaşılabilir.

İfade Şekli Açıklama Miktar
Mecaz Mecaz anlamında kullanılan madde başı 1296
Hakaret yollu Hakaret niyetinde kullanılan madde başı 26
Şaka yollu Şaka niyetinde kullanılan madde başı 47
Alay yollu Alay niyetinde kullanılan madde başı 59
Argo Argo olarak kullanılan madde başı 436
Toplam 1864
TDK Güncel Türkçe Sözlükte Kökenlerine Göre Ödünç Kelimeler

“Köken” özelliği ise o madde başının köken olarak ait olduğu dili temsil etmektedir. Bu özellik doğal olarak Türkçe madde başları için boş bırakılmıştır. Köken bilgisi, eş anlamlılık ilişkisinde çok önemli yere sahiptir. Sözlükteki köken bilgisinden çıkartılan dil listesi ve frekansları Tablo 3’te sunulmuştur.
Tabloda görüldüğü gibi Türkçe, hem doğu kökenli Arapça ve Farsça’dan hem de batı kökenli başta Fransızca, İtalyanca ve İngilizce olmak üzere birçok dilden birçok kelime ödünç almıştır. Bazı birleşik kelimeler için iki farklı dilden ödünç alınmış kelimeler görülebilmektedir. Özellikle Arapça ve Farsça dillerinden alınan ödünç kelimelerde bu tür örnek bulunabilmektedir.

DilAdetDilAdetDilAdetDilAdetDilAdet
Arapça6644Almanca118Bulgarca20Sanskritçe8Portekizce3
Fransızca5750Latince70Macarca5Soğdca5Çingenece1
Farsça1867Yunanca49Japonca15Slavca4
İtalyanca661Rusça46Moğolca13Tibetçe3
İngilizce575İspanyolca35Sırpça10Çince3
Rumca497Ermenice23İbranice9Hintçe3
TDK Güncel Türkçe Sözlükte Sözcük Türlerine Göre Madde Başları

“Sözcük türü” özelliği, madde başının POS etiketini belirtir. Bu özellik doğal dil işleme işlemleri açısından çok önemlidir. Sözdizimsel analizde sözcük türü etiketleme o cümlenin bağlam açısından iskeletini ortaya çıkarmaktadır. Bu özellik madde başına ait varsayılan değer olarak verilebildiği gibi aynı zamanda her anlam için de verilmektedir. Bu durum kafa karıştırıcı gibi gözükse de aslında bir madde başının genel olarak sözlüksel açıdan "tek başına" dahil olduğu bir sözcük türü mevcut iken, anlamsal açıdan cümle içinde başka bir sözcük türü gibi davranabilmektedir. Örnek olarak "güzel" sözcüğü sözlükte madde başı olarak sıfat sözcük türüne dahildir. Fakat tanımlar içinde isim ve zarf sözcük türleri olarak kullanılan tanımları da mevcuttur. Sözcük türü verilmeyen anlamlar, madde başının sözcük türü özelliği tarafından kapsanmaktadır. Tablo 4’te sözlük verisinin sözcük türü açısından bir özeti verilmiştir.
Tabloya göre en yoğun kullanılan üç sözcük türü isim, eylem ve sıfattır. Fakat gösterilen bazı rakamlarda tutarsızlıklar görülmektedir. Eylemlerin sayısı 12.778 adet iken yardımcı eylemlerin sayısı 4 (kılmak, yazmak, olunabilmek, ettirilmek) olarak gösterilmiştir. Bu dört yardımcı eylem dışında da yardımcı eylem olarak kullanılan eylemler mevcut olsa da bu bilgi hususi olarak o eylemin ilgili tanımının açıklamasında geçmektedir. Bu ayrıntılı bilgi, temel html metin işlemleri ile tesbit edilememekte, tanım açıklamaları için de metin inceleme işlemleri gerektirmektedir. Tabloda belirtilen türler dışında tür bilgisi mevcut olmayan bileşik sözcük, bileşik eylem, deyim ya da atasözü olan madde başları da bulunmaktadır.

Sözcük TürüAdetSözcük TürüAdet
İsim50665Özel İsim2030
Sıfat11227Zamir78
Bağlaç37Edat39
Ünlem178Zarf2417
Eylem12778Yardımcı Eylem4
TDK Güncel Türkçe Sözlükte Terim Özelliğine Göre Madde Başları

TDK Güncel Türkçe Sözlüğünde “terim” özelliği, sadece tanımlara özgü bir bilgi olarak sözlükte bulunmaktadır. Bu özellikte söz konusu tanımın bir terim anlamı taşıdığını ve hangi alanda terim olarak kullanıldığını belirtmektedir. Güncel Türkçe Sözlük bir terimler sözlüğü olmasa da sıradan bir sözcüğün dilin kullanımı esnasında terim özelliği kazanması durumuyla bu tür kazanılmış yeni anlamlar da sözlüğe tanım olarak eklenmiştir. Toplam 11.326 terim özelliği olan tanımın Tablo 5’te alanlarına göre dağılımı gösterilmektedir.
Tabloya göre en çok terimleşen tanımlar bitki ve hayvan bilimleri alanında olmuştur. Bu durum, toplumun yaşam biçimi de düşünülünce oldukça tutarlıdır.

Terim TürüAdetTerim TürüAdetTerim TürüAdetTerim TürüAdet
bitki bilimi1493anatomi334ruh bilimi212mantık62
hayvan bilimi1302matematik331toplum bilimi211eğitim bilimi53
kimya763müzik298ticaret185bilişim46
tıp627askerlik281edebiyat183meteoroloji41
dil bilgisi577tarih280jeoloji182geometri24
felsefe501din b.269mineraloji119madencilik23
fizik502gök bilimi245 mimarlık87fizyoloji13
hukuk407biyoloji230sinema80
spor383coğrafya229teknik78
denizcilik383ekonomi229tiyatro63
TDK Güncel Türkçe Sözlük için N-Gram Analizi

Cümle yapılarının genel kalıplarının ortaya çıkarılması için sözlükteki bütün tanımlar üzerinde n-gram analizi yapılmıştır. N-gram analizleri için tanım cümlelerinde 1-gram öbeklerinden (en uzun tanım cümlesinin toplam sözcük sayısı olan) 50-gram öbeklerine kadar mümkün olan bütün n-gram öbekleri hesaplanmıştır. Bu hesaplamalar sonucunda, uygun n-gram öbekleri için 50 tekrar değeri (50 farklı tanımda bulunma) eşik olarak kabul edilmiştir. Bu eşik değeri, tanımlar içerisinde anlamlı örüntü öbeklerinin oluştuğu en düşük değer olarak gözlemlenmiştir. Belirlenen öbekler içerisinde en fazla 7-gram olanlar istenen eşik değerini sağlamıştır. Buna göre 50 tekrar değerini aşan 30 adet unigram, 43 adet bigram, 27 adet trigram bulunmuştur. Bunun ötesinde 13 adet 4-gram, 2 adet 5-gram ve 1 adet de 7-gram tanım kalıbı bulunmuştur. Tablo 6'da, TDK Güncel Türkçe Sözlükte bulunan 121.535 tanım cümlesi üzerinde n-gram analizi yapılmış ve 1’den 50’ye kadar elde edilen n-gramlar sayısal olarak listelenmiştir.
Her bir n-gram için tanım cümlesi içindeki rakamlar, noktalama işaretleri ve aralardaki fazla boşluklar metin işleme ile temizlenmiş ve arkasından birimleme işlemleri ile sözcükler elde edilmiştir. Sözcüklere, doğrudan herhangi bir gövdeleme işleminden geçirilmeden, n-gram analizi uygulanmıştır. 1-gramlar için bulunan 80.716 değerinin yüksek olması sözlükteki madde başlarının sadece bir kısmının, birçok çekim eki alarak tekrar tekrar farklı 1-gram olarak yorumlanmasından dolayıdır. Bu durum İngilizce dili için derlemlerden elde edilen ngram analizlerinden daha farklı istatistiksel bir durum ortaya çıkarmakta, 2-gram ve üstü analizlerde algoritmalar kullanılarak Türkçe'de kalıplaşmış n-gramların bulunması için daha çok örnek barındıran derlem ihtiyacı doğurmaktadır.

GramAdetGramAdetGramAdetGramAdetGramAdet
180.7161168.912215.712314744141
2324.9441254.561224.430323764232
3356.1591342.998233.440333024325
4307.8991433.739242.680342424422
5255.4931526.354252.078351894519
6207.1651620.526261.614361484616
7167.7401715.897271.253371164714
8135.1931812.3102898638894812
9108.414199.5222977539694910
1086.616207.366306084052508
Anlamsal Ağdaki Temel İlişkiler

Anlamsal ağ tasarımında, herhangi bir Türkçe cümledeki anlamsal belirsizliği de giderebilecek şekilde çalışabilen bir anlamsal ağın oluşturulması hedeflenmiştir. Her madde başının ve anlamın birer düğüm, madde başları ve anlamlar arası ilişkilerin de kenarlar olarak tasarlanacağı anlamsal çizge ağında ilk olarak TDK Güncel Sözlük’ten temin edilen tüm madde başları ve onlara bağlı anlamlar sisteme düğüm olarak eklenmiş, anlam düğümleri ilgili madde başı düğümlere bağlandıktan sonra da anlama ait tanım cümlesinden tespit edilen ilişkiler gereğince düğümler birbirlerine ilgili etikete sahip ilişkiyle bağlanmıştır. Tablo 7'de, anlamsal ağda kullanılan ilişkilerin istatistiğini sunmaktadır.
Bu tablodaki “mention” ilişkisi, tanım cümlesi içerisinde herhangi bir şekilde geçmiş olan tüm kelimeler için kullanılan bir ilişkidir. Örneğin “Adana” madde başı için kullanılan “Türkiye’nin Akdeniz Bölgesinde yer alan illerinden biri” tanımına istinaden tanımlanan kelimenin düğümü ile “Türkiye”, “Akdeniz”, “Bölge”, “yer”, “al”, “il”, “bir” kelimeleri “mention” ilişkisiyle tek yönlü olarak (Adana düğümünden ilgili düğümlere doğru) bağlanmıştır. Bu şekilde 606.860 adet ilişki kurulmuştur. Bu ilişki türüne aslında, diğer anlamsal ilişkilerin keşfinde kullanılan bir tür hammadde gözüyle bakılabilir. Diğer taraftan “sense” ilişkisi her morfolojik kelimeye bağlı farklı anlamları temsil etmek için kullanılmıştır. Örneğin “al” kelimesi hem renk anlamına sahip bir isim hem de almak anlamındaki bir fiil görevinde olabilmektedir. Dolayısıyla “al” madde başının merkezde durduğu düşünülerek tek yönlü olarak ona bağlı anlamsal diğer “al” düğümlerine “sense” ilişkisiyle bağlanır. Her tanım cümlesi için bir “sense” ilişkisi olduğu da söylenebilir. Bir diğer kenar etiketi de “compound” adıyla anılan bileşik kelime ilişkisidir. Örneğin “üzümlü kek” madde başı, hem “üzüm” hem de “kek” madde başlarının birleşimiyle oluşmuştur ve bu yüzden “üzümlü kek” düğümünden hem “üzüm” hem de “kek” düğümüne doğru tek yönlü “compound” ilişkileri tanımlanmıştır. Türkçe dilinde çok sık karşılaşılan türetme eklerini temsilen de “derive” ilişkisi kullanılmıştır. Yapım eki analizi olmaksızın ilgili madde başının, tanım cümlesinde geçen kelimelerden birinden türediği tespit edilirse tek yönlü bir “derive” ilişkisi kurulur.

İlişki TürüSayısı
Mention606.860
Sense121.354
Compound31.583
Derive48.713
TDK Güncel Türkçe Sözlükten Tespit Edilen Temel WordNet İlişkileri

Anlamsal ağlar içerisinde en popüleri ve en başarılı uygulamalara sahip olanı WordNet olduğu için sıklıkla araştırmalarda bu yapının ilişki türleri tercih edilmektedir. Biz de çalışmamızda, bazı WordNet ilişkilerini kullandığımız sözlük verisinden çıkarmaya çalıştık. Diğer araştırmacıların Türkçe üzerine yaptığı çalışmalardan yararlanarak bazı kural tabanlı çıkartımlar yapılmış ve Tablo 8’de sunulan ilişki türleri üzerine bağıntılar tespit edilmiştir.
Burada Synonym (eşanlam) ilişkisi için tanım cümlesinin sonundan itibaren virgülle ayrılan her kelime, Antonym (zıt anlam) için “... karşıtı” kalıbı ve Hypernym / Hyponym (Üst / Alt anlam) için ise “bir tür...” gibi kalıpların kullanımı sağlanmıştır. Burada, literatür çalışmalarından farklı olarak metin işleme ile bulunan her ilişkinin ağ üzerinde sağlamasıyla doğrulandığı bir analiz yapılmıştır. Bu doğrulama yöntemi, karşı referanslama olarak gösterilmiş ve bu sayede hem hangi tanımların birbiriyle doğrudan ilişkili olduğu bulunmuş hem de ilişki tipinin doğru anlaşılması sağlanmıştır. Hedeflenen anlamsal ağ, kelimeleri sadece morfolojik yapılarıyla değil, ilgili anlamları üzerinden eşleştirmesi sebebiyle geleneksel WordNet’e benzetilebilir.

İlişki TürüSayısı
Synonym39.494
Hypernym 11.313
Antonym648
Group Of / Member Of3.396
IS A11.647
Toplam66.498
Tanım Cümlelerinden N-Gram Analiziyle Belirlenen Kalıplar

Bazı kalıplar kullanılarak belirlenen geleneksel WordNet ilişkileri dışında n-gram analiziyle de bazı ilişkiler tespit edilmiştir. Geleneksel WordNet ilişkileri dışında ağa eklenen ilişkilerin, özellikle yapım ekleriyle gelişen ve güncellenen Türkçe dili için çok önemli tanım kalıplarını da ortaya çıkarmaktadır.
Tablo 9'da görüldüğü gibi, tespit edilen ngram kalıplarının çoğu aynı zamanda belirli bir yapım eki grubu ile türemiş sözcükler listesi olmaktadır. Bu kalıplar, Derive ilişkileri ile birlikte incelendiğinde, benzer özellikler gösteren sözcüklerin aynı yapım eki ile benzer tanım kalıplarına sahip olabilecekleri, fakat aynı yapım ekinin farklı gruplarda farklı anlamsal kalıpla türemiş sözcüklerin tanımı için kullanıldıkları ortaya çıkmıştır. Diğer taraftan farklı yapım eki grupları da tek bir ngram kalıbı altında tek bir anlamsal ilişki barındırabilmektedir. Bu durum ngram analizinin sözdizimsel olarak hızlı ve güçlü ilişkiler ortaya çıkardığı fakat daha verimli kullanılabilmeleri için türemiş sözcük ve yapım eklerinin de TDK Sözlük üstünde dikkatlice incelenmesi gerektiğini göstermektedir.
Yapım ekleri içersinde en güçlü örnek olarak "-cI" (-cı, -ci, vb.) yapım ekinin n-gram kalıpları içinde anlamlar arasında birçok farklı anlamsal ilişkiler kurularak kullanılmasıdır. Yeni sözcükler türetirken "-cI" eki hem somut hem de soyut anlamda toplamda 13 farklı anlam türetebilmektedir (Zülfikar, 2011). Bu çeşitliliğe rağmen TDK sözlükte n-gram kalıpları içinde 5 farklı anlam tespit edilebilmiştir. TDK sözlüğünün tasarımında, türemiş sözcükler ve yapım ekleri konusunda daha titiz bir çalışma yapılmasının gerekliliği ortadadır. Sözcüklerden oluşan anlamsal kalıplar, yeni türemiş sözcüklerin bulunması ve sözlüğe uygun kalıp sayesinde eklenebilmesi sözlüğün sağlıklı ve hızlı bir biçimde gelişmesinin en önemli çözümüdür. Yapım ekleri Türkçe için vazgeçilmez bir özellik ve Türkçe sözlükbiliminin zenginliğidir.

NgramKalıpİlişkiÖrnek
1durumu, işiNounFormOf,VerbFormOfsadeleşme: sadeleştirmek işi,ebedileşme: ebedileşmek durumu
1çabucakQuicklybilivermek: çabucak bilmek
1olanPresense,NounFormOf,AdjectiveFormOfpuanlı: puanı olan
1olmayanAbsense,NounFormOf,AdjectiveFormOfpuansız: puanı olmayan
1ilgiliRelatedtörensel: törenle ilgili
1becermekAbleToyönetebilmek: yönetmeyi becermek
1davranmakBehavesorumsuzlaşmak: sorumsuzca davranmak
1bilimiScienceOfhematoloji: kan bilimi
2bir biçimdeAsLikedikkatsizce: dikkatsiz bir biçimde
2duruma getirmekToMakekeskinleştirmek: keskin duruma getirmek
2olma durumuToBebabalık: baba olma durumu
2sebep olmakToCauseterletmek: terlemesine sebep olmak
2duruma gelmekToBecomedalgınlaşmak: dalgın duruma gelmek
2yaptığı işMasterboyacılık: boyacının yaptığı iş
2işleten kimseManagergalerici: galeri işleten kimse
2yapan kimseMakerdöşemeci: döşeme yapan kimse
2satan kimseSellerzüccaciyeci: züccaciye satan kimse
3yanlısı olanSupportereşitçi: eşitçilik yanlısı olan
3halkından olan kimseFromKıbrıslı: Kıbrıs halkından olan kimse
2görevli kimseResponsibleradyocu: radyoda görevli kimse
2gücü yetmekAbilityçalışabilmek: çalışmaya gücü yetmek
3işine konu olmakObjectOfövülmek: övülme işine konu olmak
4bu dille yazılmış olanWrittenWithArapça: bu dille yazılmış olan
2duruma getirmekMakeBecomebütünleştirmek: bütün duruma getirmek
3işi veya mesleğiOccupationturizimcilik: turizmcinin işi veya mesleği
2Bu ____ yapılanMadeWithtunç: bu alaşımdan yapılan
2işini yaptırmakCausativeboyatmak: boyama işini yaptırmak
4iline bağlı ilçelerden biriInstanceSarıçam: Adana iline bağlı ilçelerden biri
TDK Güncel Türkçe Sözlükten N-Gram Analiziyle Tespit Edilen İlişkiler

Tablo 10 incelendiğinde toplam 70.624 adet tanım kalıbının, tanım cümlelerinin n-gram analiziyle belirlendiği söylenebilir. Bununla beraber geleneksel WordNet ilişkilerinin 66.498 seviyelerinde tespit edildiği düşünülünce yapım eki ve n-gram analizinin toplam ilişki keşfi açısından ne kadar önemli olduğu ortaya çıkmıştır. Fakat Tablo 8 ve Tablo 10 ile belirtilen ilişkilerin, madde başlarının hangi tanımlarını ilgilendirdiği belirsizlik yaratmaktadır. Hem bu belirsizliği gidermek hem de yeni ilişkiler keşfedebilmek için ağın ağırlıklandırılmasına odaklanılmıştır.

İlişki TürüSayısıİlişki TürüSayısı
Verb_form_of / noun_form_of16.684To_become2.013
To_be6.019Seller_of654
Able_to3.933Maker_of856
Adjective_form_of/ noun_form_of4.669From118
Presence_of2.360To_make_become721
Instance_of886To_cause237
Master_of1.045To_make1.423
Absence_of2.309As_like1.641
To_be_object_of1.499Occupation_of59
Science_of455Manager_of93
Causative_of946Made_with46
Quickly1.082Related808
To_behave296
Toplam70.624
Anlamsal Ağa Yapay Olarak Ekelenen Madde Başlarına Önerilen Tanımlar

Derlem verilerinden yeni gövde keşifleri yapılmış, daha sonra da elde edilen yeni gövdeler, anlamsal ağda yeni bir madde başı düğüm olarak eklenebilsin diye analiz edilerek bilgisayarlı tanımsal çıkartıma yönelik tahminleme yapılıp yapılamayacağı incelenmiştir. Öncelikle keşfedilen yeni gövdeler anlamsal yorumlama kapsamında gruplanmıştır. Buna göre üç tür yeni gövde bulunmaktadır:
1. Türkçeye tamamen yeni girenler (yabancı kelimeler)
2. Yapım ekleriyle bilinen bir gövdeden türetilenler (türemiş kelimeler)
3. Bilinen iki kelimenin birleşimi durumundakiler (bileşik kelimeler)

Analiz kapsamında özellikle yabancı kelimeler için çok fazla seçeneğin olmaması sebebiyle gövdeleme ağında tanımlanan “COOCCUR” ilişkileri kullanılarak aynı metinde beraber geçme frekansı ile anlamsal bir ilişki kurulabilir mi diye yoğun bir analiz yapılmış, ama ne yazık ki tutarlı bir ilişki bulunamamıştır. Literatürde de birliktelikten anlamsal ilişki analizi üzerine çok kısıtlı sayıda çalışma oluşu bu durumu doğrular niteliktedir. Dolayısıyla Türkçede kullanıma yeni girmiş kelimelerin anlamsal çıkarımında uzmanların müdahalesi şart görünmektedir.
Türemiş keşif kelimelerinde ise karşılaşılan iki durum dikkat çekicidir: kökü bilinen ve bilinmeyen türemiş kelimeler. Yukarıdaki paragrafta da anlatılan sebepler, kökü bilinmeyen (sözlükte ve anlamsal ağda olmayan) türemiş kelimeler üzerine herhangi bir çalışma yapılmasını engellemiştir. Fakat, kökü sözlükte bulunan ve bir yapım ekiyle yeni bir forma giren keşiflerle ilgili bazı yaklaşımlar geliştirmek mümkün görünmektedir. Özellikle “derive” ilişkilerinin çıkartımı sonrası bir n-gram analizi yapılarak ortak yapım eki alan tanımlardaki kalıpları bulmak hedeflenmiştir. Toplam 48.713 adet “derive” ilişkisi bulunmuşken bunlardan bazıları ortak tanım kalıplarına sahiptir. Buna göre ‘-ci’ ve tüm ses uyum şekillerini yapım eki olarak içeren madde başlarının tanımlarında çeşitli n-gram kalıpları tespit edilebilmiştir. Bu yapım ekine sahip olabilecek madde başı sayısı ise 1.926 olarak tespit edilirken belirlenen kalıplara uyan tanım sayısı 356 adet olarak bulunmuştur. Dolayısıyla yapım eklerine dayalı olarak keşif kelimelerine bir tanım önerisi yapmak mümkün görünse de "-ci" eki için istatistiksel açıdan bunun ancak %19 oranında işlevsel olduğunu söyleyebiliriz. Anlamsal ağa yapay olarak eklenen “armutçu” sözcüğü için sistem, n-gram kalıplarından yararlanarak “armut işleten kimse”, “armut yapan kimse”, “armut satan kimse”, “armut yanlısı olan”, “armut görevli kimse” gibi 5 tanım önerebilmiştir. Armut sözcüğünü “bir tür meyve” olarak düşünürsek “armut satan kimse”, diğer taraftan “bir tür koltuk minder” olarak düşünürsek de “armut yapan kimse” tanımları kabul edilebilir. Fakat sistemin böyle belirsizlikleri çözmesi halen ciddi zorluklar içermektedir. Buna göre sisteme yapay olarak eklenen bazı madde başları için yazılım tarafından önerilen ve bir uzman tarafından onaylanan tanım örnekleri Tablo 11’de sunulmuştur.
Diğer taraftan derlemden keşif ile gelen “figürcü, tecimci, bobinajcı, yörüngeci, yasçı, kezlik, atarlı, donanımlı” gibi sözcüklere, uygun tanım kalıbının ve/veya kök sözcüklerin sözlükte bulunamaması sebebiyle tanım önerilememiştir.

Kök SözcükTüremiş SözcükN-Gram Kalıpları ile Türetilen Tanım Cümlesi
afafçıaf yanlısı olan kimse
suyolsuyolcusuyol yapan kimse
tezkiretezkirecitezkire yazan kimse
protestoprotestocuprotesto yapan kimse
süslemesüslemeliksüsleme yapmaya elverişli
deneydeneylikdeney yapmaya elverişli
mevcutmevcutlumevcutu olan
çevreçevreliçevresi olan
tahammültahammüllütahammülü olan
izlandaizlandalıizlanda halkından veya bu halkın soyundan olan kimse
lesotolesotolulesoto halkından veya bu halkın soyundan olan kimse
normandiyanormandiyalınormandiya halkından veya bu halkın soyundan olan kimse
Bilgi ve Vermek sözcüklerinin tanımları ve "Bilgi vermek" için tanım analizi

Metin verisi içinden Gövdeleme ağı ve Anlamsal ağ üzerindeki analizlerin sonucu bulunan ve sistem tarafından doğru tanımlarıyla eşleştirilen örnek olarak önemli ayrıntılar içermektedir. İnsan kontrolüne sunulması için, sistem iki sözcüğün oluşturduğu yeni sözcük grubunun anlamını tasarlayabilmek için kullanılabilir olan sözcüklere ait uygun tanımları bulmuştur.
Derlemden keşfedilerek gelen “bilgi vermek” madde başı için "bilgi" sözcüğünün 3. tanımı ve "vermek" sözcüğünün 4. tanımından faydalanarak bir tanım hazırlanabilir. Bu iki tanımın bağlantısı, her iki tanımda da "düşünce” sözcüğü geçmesine dayanmaktadır. Böylece bu madde başı üzerinden çift yönlü bağlantı sağlanmıştır. Anlamsal mesafe bu bağlantılar üzerinden yapılmış, diğer seçenekler daha uzun anlamsal mesafe ürettiğinden es geçilmiştir.
Bu olumlu örneğe dikkat ettiğinizde, "bilgi" sözcüğünün ilk üç tanımında "malumat", ikinci ile üçüncü tanımında "vukuf" ve üçüncü ile dördüncü tanımlarında "düşünce" sözcükleri birlikte bulundukları tanımları ağ içerisinde karmaşa içerisine sokmaktadır. Bu örnekte çift yönlü anlamsal mesafe ölçümleri sayesinde her iki yönde anlamsal olarak karmaşa yaşamadan anlamların bağlantıları bulunmuştur. Bu sonuç sayesinde, bir uzman en kısa zamanda yeni elde edilen sözcük grubuna uygun bir tanım hazırlayabilmektedir.

Madde Başları Tanımlar
bilgi 1. İnsan aklının erebileceği olgu, gerçek ve ilkelerin bütünü, bili, malumat
2. Öğrenme, araştırma veya gözlem yolu ile elde edilen gerçek, malumat, vukuf
3. İnsan zekâsının çalışması sonucu ortaya çıkan düşünce ürünü, malumat, vukuf
4. Genel olarak ve ilk sezi durumunda zihnin kavradığı temel düşünceler
5. Bilim
6. Kurallardan yararlanarak kişinin veriye yönelttiği anlam
vermek 1. Üzerinde, elinde veya yakınında olan bir şeyi birisine eriştirmek, iletmek
2. Bırakmak veya bağışlamak
3. Ondan bilmek, atfetmek
4. Düşünce veya bilgi anlatan şeyleri başkalarına iletmek, bildirmek
5. Döndürmek, çevirmek, yöneltmek
6. Herhangi bir duruma yol açmak
7. Satmak
8. Kızı, kadını biriyle evlendirmek
9. Ödemek
10. Yaymak
11. Bitki ve ağaç, ürün üretmek
12. Herhangi bir şey ortaya çıkarmak, oluşturmak
13. Hepsini herhangi bir duruma sokmak
14. Sahip olmasını sağlamak
15. Bir şey üzerinde etki yapmak, biçimini değiştirmek
16. Tespit etmek
17. Kazandırmak, katmak
18. Ayırmak, harcamak
19. Dayamak
20. Doğurmak
21. Cinsel yönden kendisini kullandırmak
22. Kök veya gövdeleri sonuna -ı (-i, -u, -ü) zarf-fiil eki almış fiillere gelerek tezlik bildiren birleşik fiiller oluşturur
Sezon ve Kupa sözcüklerinin tanımları ve "Sezon kupası" için tanım analizi

Doğru bir tanım eşleşmesi için "sezon" sözcüğünün 3. tanımı ile "kupa" sözcüğünün 1 numaralı sesteşinin 3. tanımı seçilmesi gerekirken, "kupa" sözcüğünün 2. sesteşinin 2. tanımı seçilmiştir. Bu anlamsal ağ üzerindeki en kısa mesafe işlemleri uygulanırken her iki sözcüğün tanımlarında ortak geçen spor sözcüğü en kısa anlamsal mesafenin oluşmasını sağlamıştır. Bu tanımlarda kafa karıştırıcı olan durum, spor müsabakalarında verilen kupanın (1. sesteş) herhangi bir tanımında spor sözcüğünün bulunmamasıdır. Ve sonuç olarak 2. sesteşte bulunan spor sözcüğü en kısa yol için daha uygun bir mesafe değeri üreterek baskın gelmiştir. Bu durum, anlamsal ağın bigram analizleriyle yeni sözcük gruplarının bulunması işlemlerinde ciddi performans sorunlarına dönüşmektedir.
Test işlemleri esnasında insan kontrolü ile seçilen 156 potansiyel yeni sözcük grubunun 48 adedinde en az bir sözcük anlamsal ağda bulunamamış, geriye kalan 108 bigramdan sadece 30'u anlamsal ağ üstünde doğrudan ilgili iki tanımı birbirleri ile eşletirebilmiştir. Sisteme insan kontrolü için gelen uygun bigramların sadece %28'lik kısmı tamamen otomatik süreç ile tanım üretme işlemlerini tamamlamaktadır. Sözlük verisi, uzmanlar tarafından hazırlanmış olmasına rağmen anlamsal ağ için eksik veya hatalı kavram uzayına sahiptir. İyileştirmeler için başka sözcük verileri, teknik özelleşmiş terim sözlükleri ve ansiklopedik veri setleri anlamsal ağ içinde bağlantıları güçlendirebilir.

Madde Başları Tanımlar
sezon 1. Mevsim
2. Belirli bir süre
3. Genellikle sporda belli bir etkinlik süresi
kupa(1) 1. Cam veya seramikten yapılmış, kulplu, büyük bardak
2. Bu bardağın alabileceği miktarda olan
3. Altın, gümüş, bronz veya kristalden yapılmış, yarışma ödülü olarak verilen ayaklı kap
4. Yarışma ödülü olarak verilen herhangi bir sanat eseri
5. İskambil kâğıtlarının dört grubundan benekleri kırmızı, kalp biçiminde olanı, yürek
kupa(2) 1. Kapalı ve yalnız arkada oturulacak yeri olan, genellikle atların çektiği dört tekerlekli araba
2. İki kapılı bir tür spor otomobil