Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama

11
Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama Yeşim AKSAN', Umut Ufuk DEMİRHAN" Özet Dünyada derlem dilbilim yöntemi dilbilimin çeşitli alanlarında 50 yılı aşkın bir süredir kullanılmaktadır. Oluşturulan genel ve özel amaçlı sözlü ya da yazılı derlemler yardımıyla araştırılan konu hakkında, gerçekleşmiş dil verisi temelinde nicel ve nitel sonuçlara ulaşılmakta ve böylece incelenen dilin dilbilgisi, anlambilim ya da edimbilim özellikleri kapsamlı bir biçimde betimlenebilmektedir (örn., Biber, Johansson, Leech, Conrad, Finegan, 1999; Aijmeir ve Stenström, 2004; McEnery, Xiono, Tono, 2006). Dünyadaki örneklerinde gördüğümüz gibi derlem araçlarını ve derlem dilbilim yöntemini etkin kullanabiirnek Türkçe için de derlem temelli ve derlem çıkışlı araştırmaların yapılmasında ve yaygınlaştırılmasında önemli roloynayacaktır. Bu çalışmada Türkçe Ulusal Derlemi (TUD) Tanıtım Sürümü'nün arayüz özellikleri kısaca tanıtılıp arayüzün sorgulanan sözcüğün sayısal sıralı eşdizim listelerini oluşturmada kullandığı istatistiksel ilişki ölçülerinin hesaplama ve listeleme özellikleri ve bunların dilbilim çözümlemesindeki yerleri örneklerle açıklanacaktır. Anahtar sözcükler: Derlem dilbilimi, eşdizim, ilişki ölçüleri, nicel araştırma, Türkçe Ulusal Derlemi (TUD) ı. Giriş Türkçe yazılı derlemler ve bunları kullanarak yapılan derlem temelli (İng. corpus-based) ve derlem çıkışlı (İng. corpus-driven) çalışmalar, evrensel anlamda 19S0'li yıllarda başlayan çalışmalarla karşılaştırıldığında oldukça yeni sayılabilir. Dil derlemleri dile ilişkin sezgilerimizi ya da dilbilgisi, anlambilim, edimbilim gibi alanlarda yapılmış dilbilim betimlemelerini, çok sayıda metin ya da sözlü malzemenin bulunduğu gerçekleşmiş dil verisi (İng. attested data) üzerinden sistematik bir biçimde sorgulamaımza olanak tanır. Bağımlı dizin satırları (İng. concordance lines), listeleme (İng. sorting), dağılım (İng. distribution), sayısal sıralı eşdizimlilik listeleri (İng. collocation lists) gibi derlem araçları sorgulanan dilsel birime ilişkin öncelikli olarak nicel ardından da nitel bilgiye çok kısa sürede ulaşmamızı sağlar. Böylece dil yapılarının en tipik görünümleri ve örüntüleri hakkında oldukça kapsamlı bilgiye sahip olduğumuz gibi bu örüntülerin cinsiyet, yaş, yıl, metin türü, alan gibi değişkenlerle ilişkilerini de derlemlerlerdeki veribilgisi sayesinde belirleyebiliriz. Bu yazının amacı tanıtım sürümü yayınlanan Türkçe Ulusal Derlemi (TUD) (http://www.tnc.org.tr) arayüzünün sahip olduğu işlevleri tanıtmak ve dilbilim araştırmalarındaki yöntemsel katkısını göstermektir. Yazının ikinci bölümünde, TUD'un derlem kuruluş özellikleri kısaca özetlendikten sonra üçüncü bölümde, sözcük ya da sözcük öbeği sorgulamada TUD arayüzündeki joker karakterler (İng. wild-cards) kullanılarak çeşitli arama uygulamaları gösterilecek ve doğru sorgu yapmanın derlernden elde edilecek sonuçlar üzerindeki etkisi tartışılacaktır. Bu bölümde ayrıca, sorgulanan sözcükle ilgili dağılım çözümlemesi, listeleme ve eşdizim listeleri yoluyla nice i ve nitel veri bilgisi sunan işlevler örneklendirilecektir. Ayrıca, Derlem arayüzünün sahip olduğu bu işlevler kullanıldıktan sonra elde edilen sonuçların dilbilim araştırmalarında nasıl kullanılacağı üzerinde de durulacaktır. 280 ODTÜ Türkçe Derlemi (Say, Zeyrek, Oflazer, Özge, 2002) 1990 sonrası metin örneklerini içeren, 2 milyon sözcükten oluşan Türkçenin ilk yazılı derlernlerindendir. ODTÜ Türkçe Derlernindeki metinler on farklı metin türünü (İng. genre) kapsamakta ve her metin örneği iki bin sözcükten oluşmaktadır. BQ!1un ardından bilgisayar mühendisleri tarafından hazırlanan yazılı Türkçenin derlemleri verilerini WWW'den alımş, sözcük sayısı açısından büyük ancak araştırmacılar tarafından kullanılabilecek çevrimiçi bir arayüzü olmayan derlemlerdir. Bu derlemler ve içeriklerini şöyle özetleyebiliriz. TurCo (Dalkılıç ve Çebi, 2002) on farklı internet sayfası kaynak alınarak bir araya getirilmiş ve 44 milyon sözcük içeren bir derlerndir. BOUN Derlemi (Sak, Güngör, Saraçlar, 2008) Türkiye'de okunan başlıca üç farklı gazetenin internet sayfalarını içeren dört farklı alt derlemi kapsayan ve 423 milyon sözcükten oluşmaktadır. Turkish Word Sketches (Ambati, Reddy, Kilgarriff, 2012), kaynak sözcük tarama (İng. seed word) yoluyla Wikipedia sayfalarının oluşturduğu 42 milyon sözcüklük bir derlerndir. WWW kullanarak hazırlanan derlemlere ilişkin görüşlerin kısa bir özeti Ruhi, Aksan, Aksan'nda (bu kitap) bulunabilir. Diğer yandan, Türkçe Ulusal Derlemi (TUD) (Aksan, Aksan, Koltuksuz vd., 2012) derlem dilbilimin, derlem kurma ilkelerine ve yaklaşımlarına göre geliştirilen, en iyi uygulamaları örnek alan ve derlem tasarım sürecine uyarlayan, web tabanlı, kullanıcı dostu ve kendine özgü arayüz tasarımı olan, dili temsil gücüne (İng . • Prof. Dr., Mersin Üniversitesi ,[email protected] •• Araş. Gör., Mersin Üniversitesi [email protected]

Transcript of Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama

Türkçe Ulusal Derlemi (TUD) arayüz özellikleri: Tanıtım ve uygulama

Yeşim AKSAN', Umut Ufuk DEMİRHAN"

ÖzetDünyada derlem dilbilim yöntemi dilbilimin çeşitli alanlarında 50 yılı aşkın bir süredir kullanılmaktadır.Oluşturulan genel ve özel amaçlı sözlü ya da yazılı derlemler yardımıyla araştırılan konu hakkında, gerçekleşmişdil verisi temelinde nicel ve nitel sonuçlara ulaşılmakta ve böylece incelenen dilin dilbilgisi, anlambilim ya daedimbilim özellikleri kapsamlı bir biçimde betimlenebilmektedir (örn., Biber, Johansson, Leech, Conrad,Finegan, 1999; Aijmeir ve Stenström, 2004; McEnery, Xiono, Tono, 2006). Dünyadaki örneklerindegördüğümüz gibi derlem araçlarını ve derlem dilbilim yöntemini etkin kullanabiirnek Türkçe için de derlemtemelli ve derlem çıkışlı araştırmaların yapılmasında ve yaygınlaştırılmasında önemli roloynayacaktır. Buçalışmada Türkçe Ulusal Derlemi (TUD) Tanıtım Sürümü'nün arayüz özellikleri kısaca tanıtılıp arayüzünsorgulanan sözcüğün sayısal sıralı eşdizim listelerini oluşturmada kullandığı istatistiksel ilişki ölçülerininhesaplama ve listeleme özellikleri ve bunların dilbilim çözümlemesindeki yerleri örneklerle açıklanacaktır.

Anahtar sözcükler: Derlem dilbilimi, eşdizim, ilişki ölçüleri, nicel araştırma, Türkçe Ulusal Derlemi (TUD)

ı. Giriş

Türkçe yazılı derlemler ve bunları kullanarak yapılan derlem temelli (İng. corpus-based) ve derlem çıkışlı (İng.corpus-driven) çalışmalar, evrensel anlamda 19S0'li yıllarda başlayan çalışmalarla karşılaştırıldığında oldukçayeni sayılabilir. Dil derlemleri dile ilişkin sezgilerimizi ya da dilbilgisi, anlambilim, edimbilim gibi alanlardayapılmış dilbilim betimlemelerini, çok sayıda metin ya da sözlü malzemenin bulunduğu gerçekleşmiş dil verisi(İng. attested data) üzerinden sistematik bir biçimde sorgulamaımza olanak tanır. Bağımlı dizin satırları (İng.concordance lines), listeleme (İng. sorting), dağılım (İng. distribution), sayısal sıralı eşdizimlilik listeleri (İng.collocation lists) gibi derlem araçları sorgulanan dilsel birime ilişkin öncelikli olarak nicel ardından da nitelbilgiye çok kısa sürede ulaşmamızı sağlar. Böylece dil yapılarının en tipik görünümleri ve örüntüleri hakkındaoldukça kapsamlı bilgiye sahip olduğumuz gibi bu örüntülerin cinsiyet, yaş, yıl, metin türü, alan gibideğişkenlerle ilişkilerini de derlemlerlerdeki veribilgisi sayesinde belirleyebiliriz. Bu yazının amacı tanıtımsürümü yayınlanan Türkçe Ulusal Derlemi (TUD) (http://www.tnc.org.tr) arayüzünün sahip olduğu işlevleritanıtmak ve dilbilim araştırmalarındaki yöntemsel katkısını göstermektir. Yazının ikinci bölümünde, TUD'underlem kuruluş özellikleri kısaca özetlendikten sonra üçüncü bölümde, sözcük ya da sözcük öbeği sorgulamadaTUD arayüzündeki joker karakterler (İng. wild-cards) kullanılarak çeşitli arama uygulamaları gösterilecek vedoğru sorgu yapmanın derlernden elde edilecek sonuçlar üzerindeki etkisi tartışılacaktır. Bu bölümde ayrıca,sorgulanan sözcükle ilgili dağılım çözümlemesi, listeleme ve eşdizim listeleri yoluyla nice i ve nitel veri bilgisisunan işlevler örneklendirilecektir. Ayrıca, Derlem arayüzünün sahip olduğu bu işlevler kullanıldıktan sonra eldeedilen sonuçların dilbilim araştırmalarında nasıl kullanılacağı üzerinde de durulacaktır.

280

ODTÜ Türkçe Derlemi (Say, Zeyrek, Oflazer, Özge, 2002) 1990 sonrası metin örneklerini içeren, 2 milyonsözcükten oluşan Türkçenin ilk yazılı derlernlerindendir. ODTÜ Türkçe Derlernindeki metinler on farklı metintürünü (İng. genre) kapsamakta ve her metin örneği iki bin sözcükten oluşmaktadır. BQ!1un ardından bilgisayarmühendisleri tarafından hazırlanan yazılı Türkçenin derlemleri verilerini WWW'den alımş, sözcük sayısıaçısından büyük ancak araştırmacılar tarafından kullanılabilecek çevrimiçi bir arayüzü olmayan derlemlerdir. Buderlemler ve içeriklerini şöyle özetleyebiliriz. TurCo (Dalkılıç ve Çebi, 2002) on farklı internet sayfası kaynakalınarak bir araya getirilmiş ve 44 milyon sözcük içeren bir derlerndir. BOUN Derlemi (Sak, Güngör, Saraçlar,2008) Türkiye'de okunan başlıca üç farklı gazetenin internet sayfalarını içeren dört farklı alt derlemi kapsayanve 423 milyon sözcükten oluşmaktadır. Turkish Word Sketches (Ambati, Reddy, Kilgarriff, 2012), kaynaksözcük tarama (İng. seed word) yoluyla Wikipedia sayfalarının oluşturduğu 42 milyon sözcüklük bir derlerndir.WWW kullanarak hazırlanan derlemlere ilişkin görüşlerin kısa bir özeti Ruhi, Aksan, Aksan'nda (bu kitap)bulunabilir.

Diğer yandan, Türkçe Ulusal Derlemi (TUD) (Aksan, Aksan, Koltuksuz vd., 2012) derlem dilbilimin, derlemkurma ilkelerine ve yaklaşımlarına göre geliştirilen, en iyi uygulamaları örnek alan ve derlem tasarım sürecineuyarlayan, web tabanlı, kullanıcı dostu ve kendine özgü arayüz tasarımı olan, dili temsil gücüne (İng .

• Prof. Dr., Mersin Üniversitesi ,[email protected]•• Araş. Gör., Mersin Üniversitesi [email protected]

representativenss) sahip, dengeli (İng. balance), yazılı ve sözlü Türkçe metin örneklerini içeren Türkçenin ilkreferans derlemidir.

2. Türkçe Ulusal Derlemi tasarım ölçütleri

Derlem tasarımı temelolarak beş ilkeden oluşur. Derlernin temsil gücü, denge, örneklem, zaman içindekideğişim ve derlem metinlerini belirleme bir derlem oluştururken dikkat edilmesi gereken ilkelerdir (McEnery,Xino, Tono, 2006; Wynne, 2005). Derlernin temsil gücü, derlemi oluşturan örneklernin dil değişkelerini neölçüde kapsadığını gösterir (Biber, 1993, s.242). Denge, derlemi oluşturacak türlerin kapsamını belirtmektedir.Bir derlem tasarlanırken olabildiğince geniş metin türlerini içermesi hedeflenmelidir ancak, derlem dengesi içinbilimsel bir ölçüt bulunmamaktadır. Derlemleri oluşturan araştırmacılar genellikle daha önce yapılmış olan birderlemi kendilerine modelolarak alırlar. Öte yandan örneklem, her tür için metin parça/bütün seçimini; zamaniçindeki değişim, derlemi durağan (İng. static) ya da dinamik (İng. dynamic) bir dil modeli olarak görmeyigösterir.'

Türkçe Ulusal Derlemi (TUD) tasarım ilkeleri British National Corpus (BNC) (Aston ve Bumard, 1998) örnekalınarak geliştirilmiştir. Eşzamanlı, durağan bir derlem olarak tasarlanan TUD, 50 milyon sözcükten oluşan, 20yıllık bir dönemi kapsayan, günümüz Türkçesinin çok sayıda farklı konu alanı (İng. domain) ve metin türünden(İng. genre) yazılı ve sözlü örneklerini içeren, geniş kapsamlı, dengeli ve dili temsil yeterliliğine sahip, genelamaçlı bir referans derlemdir. TUD-Tanıtım Sürümü 1990-2009 yılları arasında yayımlanan yazılı ve sözlütoplamda 4438 veri kaynağından seçilen, 9 konu alanını ve 34 dilsel türü içeren metin örneklerindenoluşmaktadır.

TUD'un derlem metinleri ya da metin parçaları dil dışı ölçütlere göre belirlenmiştir. Bunlar, metinlerin konualanı, metinlerin yayınlanma tarihi ve yayın ortamıdır. Konu alanı kurgusal ve bilgilendirİci metinlerdenoluşmaktadır. Yazınsal metinler (roman, kısa öykü, şiir, tiyatro) kurgusal alanı temsil etmektedir.Toplumbilimleri, sanat, ticaret-finans, düşünce-inanç, dünya sorunları, uygulamalı bilimler, doğa-temel bilimleri,sanat, hobi, yemek tarifi gibi serbest olarak adlandırılan metinleri ise bilgilendirİcİ alan için örneklem almaküzere seçilmiştir. Seçilen örnekler 1990-2009 yılları arasında yayınlanmış metinlerdendir. Yayın ortamı olarakkitaplar, süreli yayınlar (gazete, dergi), çeşitli (yaymlanmış-yayınlanmamış) metinler ve konuşmak üzereyazılmış metinler kullanılmıştır.

281

3. TUD- Tanıtım Sürümü arayüz özellikleri

TUD- Tanıtım Sürümü temelolarak tek sözcük ya da sözcük grubunun bağlam içinde anahtar sözcük aramaişlevine sahiptir. Bununla birlikte, araştırmacılar derlem anasayfasında bulunan çeşitli dil dışı ölçütlerle (yayınyılı, alan, türe v metin biçimi, vb.) araştırma sorularına uygun olarak sorgularını daraltabilir ve bu doğrultudabağımlı dizin sonuçlarına ulaşabilirler. Aşağıda arayüzün sahip olduğu tüm işlevler sıralanmıştır.

1- "Yayın yılı, medya, metin örneklerni, alan, türev metin biçimi, yazarın cinsiyeti, yazar ya da yazarların türü,okuyucu kitlesi ve tür" ölçütlerine bağlı olarak aramalarını daraltabilir ve belirledikleri ölçütlere göre bağımlıdizin sonuçları alabilirler.2- Arayüzün listelediği bağımlı dizin sorgularındaki sorgu sözcüğü ya da sözcüklerinin + 35 sözcüklükbağlamına erişebilirler.3- Listelenen bağımlı dizinlerin geçtiği metinlerin veribilgisine erişebilirler.4- Bağımlı dizin sonuçlarını sağ/sol bağlamda ± 10 sözcüğe kadar genişletebilirler.5- Sorgu sonuçlarını Excel ve metin dosyası formatında dışa aktarabilirler.6- Sorgu teriminin "Türev metin biçimi, alan, okuyucu kitlesi, medya, cinsiyet ve yıl ölçütlerine göre "sözcüksayısını, eşleşme sayısını, metinlerdeki dağılımını," bir milyon sözcükteki sıklığını görüntüleyebilirler.7- Sorgu sözcüğünün solundaki ve sağındaki ± 5 sözcüğe göre alfabetik listelerini alabilirler.8- Sorgu sözcüğünün ± 5 sözcüklük eşdizimlilik listelerini alabilirler.

3.1. Sorgulama olanaklarıAraştırmacılar sorgu terimi kutucuğuna aramak istediği sözcüğü yazdıktan sonra yaklaşık 48 milyon milyonsözcükten oluşan TUD veritabanında yayın yılı, medya, metin örneklemi, alan, türev metin biçimi, yazarıncinsiyeti, yazar veya yazarların türü, okuyucu kitlesi ve tür kısıtlaması yapmadan gerçekleştirebilirler (bkz.Resim 1).

) Durağan tasarlanan derlemler örneklem derlemi yaklaşımını (İng. sample corpus approach) (Biber, 1993; Leech, 2007)benimserken dinamik lasarlananlar izleme derlemi yaklaşımının (İng. monitor corpus approach) (Sinclair, 1991)örnekleridir.

r, ru~çe i

LJ '"~tJsorgu Seçenekleri

Vazılı Metın Sorgusu

SÖZLÜMetin Sorgusu(PaSif)

Sıklık usıesı

Kullanıcıya ÖzgüAyarlar

Kullanıcı Ayarlan (PaSif)

Sorgu Geçmişi (Pas1f)

Kaydedilmiş Aramalar

TUD Hakkında

TUD Ekibi

TUD Anasayta

Kullanını Kılavuzu

Vazılı Mebn Sorgusu

Sorgu Terimi ç i {) ş ıl Arama ipuçıarı

sorgu Şeklı Pencere Aralığı

@TemelSorguOSüYUk-ı<üçuk HarfDuyartı

i Sorguyu Gönder IlrS-o-rg-u-yu-T-e-m-iZl-e'l

5

Yayın Yılı Medya

Başlama 1990Yılı ~--'

Bitiş vııı 2010

LJKiıapEl Süreli yayın

_______ .••. ElÇeşıtlı YayınıanmışEl Çeşiti!: Yayınlanmamış------

Metın Örneklemi Alan rürev Metin Biçımı

IEJTüm metinLJMetin başıLJ Metin ortasıEJ Metin sonuLJKanşlk

LEJ Kurgusal duzyazıLEJ Bilgilendiriei: Doğa ve temelmlfım"rLEJ Bilgilendırict Uygulamalı bilimlerIEJBilgılondifl ci: ToplumbilimleriID Bilgilendirici: Dünya sorunlarıLJ Bılgılendirid: Ticaret ve finansLJ Bilgilendirici: SanatLJ Bilgllendirici: Düşünce ve inanç[] Bılgılendıria: Serbest

Resim 1: TUD anasayfasından bir kesit

LJ Bılımsel duzyazıLJ Kurgu ve şiirLEJ Bılımselolmayan düzyazı ve Ö2:\'8şamEl GazeteIE.J Diğer yazılı basılmış metin

El Basılmamış yazılı metin

Örneğin "nesil" sözcugu sorgu terimi kutusuna yazılıp "Sorguyu Gönder" düğmesine basıldığındaaraştırmacıların karşısına TUD veritabanında herhangi bir ölçüte göre kısıtlama yapmadan, 880 farklı sonuçgelecektir. Bu sorgu sonucu TUD Tanıtım Sürümü veritabanının tamamında gerçekleşen sorgunun sonucudur.Nice! betimsel istatistik bilgisi her sorgu sonucu için bağımlı dizin satırlarının üstünde yer alacaktır. Sorgusonuçları bağlam içinde anahtar sözcük görünümündedir ve her bir sonuç ayrı bir bağımlı dizin satırı olarakgösterilmektedir. Araştırmacılar sorgu teriminin üstüne tıkladıkları zaman o sözcüğün solunda ve sağında yeralan 35 sözcüklük bağlama erişebilmektedir. Metin başlığı altında yer alan kodlamalar TUD veritabanındakimetinlerin kodlarıdır. Metin başlığı altında verilen kodlara tıklandığında, ilgili bağımlı dizini içeren metindosyasının veribilgisine erişilebilir.

sıra" Metin

Sorumlu Direktörü Halit Güneş, yeni enforma~ ve komüniklısyon servislerinin bir---"";;;;';;"'--,

torpidotar, gehşmış demzalnlan, karadan ve------------------~

TB04A1B-4331

Menu[ S"'iiniz H

Sayfabaşına E[EL kayıt gösteriliyor. sonuçfardaAraı....:::::;ı;====;;!_~------- ...,sorgUSOnuçlan

doza boğ1t olaı1lk lIzlIlmıştır. Birinci ~razitlemesi ise tüm dozlarda benzer

.....:S;;;E3;;;OO:;;1;;;B-2!!1;;;;'0:....._~~ duzeşde entegre sawnmıı sistemleri, gelecek

4 MF2501S-2156

5

Soutwest Havayollaınının 290 adet Yeni ~ Boeiog n7-700, Korean Air'in ise------için stilimm bozmedık, Ama şimdiki nm para uğruna he_'_ha_fta_9=-"_'eıe'--- --'

Resim 2: TUD bağımlı dizin sonucu

TUD arayüzü araştırmacıların sorgulama yaparken kullanabilecekleri joker karakterlerin kullanımına da izinvermektedir. Sorgu terimi kutusuna yazılabilecek joker karakterler yıldız (*), soru işareti (?) ve tırnak işareti ('''')dir. Joker karakterlerle ilgili ipuçlarına sorgu terimi kutucuğunun hemen yanındaki "Arama İpuçları"bağlantısından erişilebilir. Aşağıda sırasıyla bu karakterlerin anlamı ve bunlar kullanılarak yapılacak sorgularınderlem veritabanından ne tür sonuçlar getirdiği anlatılacaktır.

Yıldız işareti herhangi bir harf dizisinden önce, sonra ya da hem önce hem sonra yer alan diğer harf dizileriylebirlikte bağımlı dizin sonuçlarının üretilmesini sağlar. Örneğin; dilbilim sözcüğü tek başına sorgu terimikutucuğuna yazıldığında yalnızca dilbilim sözcüğünün yer aldığı bağımlı dizin sonuçları listelenir. Bu sorgununsonucu toplamda 160 farklı bağımlı dizindir. dilbilim* yazılarak yapılan aramada ise sorgu sonuç sayısı 448'eçıkacak, "dilbilimsel", "dilbilimciler" gibi sorgu sonuçlarını kapsayan bağımlı dizin sonuçları da araştırmacılarınkarşısına gelecektir.

282

Yaz. metinlerdekı [ o 1 sorgusu '48 sonuç le(126) farldımetinde (47650926 sözcük [4458 toplam metrıde] Ist.lendi;

bır mıJyon sozcuktekı SıkJıI<değen: 9.4 (0.603 sanıye)MenuL.:;;;~:':::"_.ı...

Sonuçlarda Ara-=~~~~----------Sorgu Sonuçlan

~ Sayfa baş". 10 • kayıt gösteriyor.

sr.t ~'etınOH36C4A-0237 alıvor, taser Oluyor. Bu kullandıyor

2 KD02A4A-0303 bilg~i kuralarına bağlı hareket ederken dJlbitimciler dil ilmin sadece dil bilgiSinden

OH02A4A-1416 ortaya çıkan ve ağırlık kazanan dilbilim lşmalarında belr"" görüşler. konu üzerınde3

4 FG03A1B-3188 arasındaki iişki Kısaca özetlemek gerekirse,emı!:>Jatı metntndekı çeşitli di kullanımlarım

_____ -=E=G=03=C=2=A=-1=7~29 bıiıyoruz." diVe btren Jakobson'un br dUbitim Indrgemecısı Olmadıği gün gıbı ortada,

Resim 3: Sözcük sonuna eklenerek yapılan joker karakter aramasıs

*dilbilim* sorgusu yapıldığında ise sonuç sayısı 484 olarak TUD arayüzü tarafından sunulacak ye metindilbilim,ruhdilbilim gibi sorgu sonuçlarının olduğu bağımlı dizin satırlarını araştırmacılar görebilecektir.

_Tıllkl<

~iD Menu Seçiniz

Sonuçlardıı Ara L..-----=::::l

~retmenlJ~1 ve beslenme !amanııgınm kadınlara, si:iıi!!! ,.--'"'_ se_n_.t_t_"_ihi_._Io_nl._n_m_n_ıse ••..•

temmteme-beurtemeee, dız9~. ~irdi değerlerıne do~mıın _~ ,.~l'1!Iııllrtn~~~ı t.!mslıı!.r~.~~,:!rulur. Son

hala olwlhınmızda Iwllanıtıyor. 'türkçe çağdaş ~ ve dilbılgisi yöntemleriyle çôzumlenmeyt bekfiyor.

~şekilde tahlıl eden ~er tercümanın tahsil etmesi gereken ---~--~---'

üencentste tarafından gehştırılmiş, bugun her ~ tanıdık. aŞlkSr, hatta bıraz sıradan

Resim 4: Sözcüğün başına ve sonuna eklenerek yapılan joker karakter araması

UH03A1B-2409

DD02AJA- 2967

ROQ3A1A-0831

Yine yıldız işareti -abilecektir gibi bir harf dizisini aramak için kullanılabilir. Örneğin, sorgu terimi kutusunayazılacak *abilecektir sorgu terimi abilecektir ile biten tüm örnekçeleri (bkz, Resim 5) getirecektir.

Yazılı metınlerdeki L "'aMecektır } sorgusu 1596 sonuç ileYazi Metin Sorqusu {7l!17'l!I!!ı"""""""""--P.!I-tıof'!'!!III","",,'PI'I\!I-~_'rnli;1.:..:====='----====------1 birmIlyonsözcükteki sım değeri: 33.49 (1.545 Sanıye)

_Tuıki:

uıu,,~o,"ıl1'l

Sorgu Terimi "abilecektir

~ij\"o:iip~ytıH~!i:,,:;.ııFiim;:rı------m'":ıışo!ll!' ..L:.::..1'fti;ııf:ıl:J kayıt gostenliyor.

i Sıra· Metin

Sonuçlarda Ara].J

i

i 1 ~

Sorgu SOnuçta" Jölçüde insan bilgisayar etkileşimı yol açab1lecektir. Emr Sevinç Ocak 2006, İstanbul

.._..~~.Iarı ~ra.Slnt!.~ ~_a'~en.erlj ~?pr" iı- oIuşturabilecektir TE. i Babaeski-Dimodic~ {Bulgarig~n.t.~opa-B1!Itum (GOrcistlın),

kriz yonetimi konularında e.tkiliolm nı sağl:ayabier&ktir 19 Amsterdam Antlaşması ile ODGP---- ------------------~yOkü bır parça da Isa azaltRbIecektir. Anc k asıl sağıaya~, fayda awkatlık- - ~---------,~M;;;FO~SA~lB:;-44;;:;:l6;.. _=:etk:isıniazaltmada yaygın bir şe ~e !ınIaoıiabiecektir. Bu ola birlikte., dOVlZ Iwrlanndakı d~ışmerenn iResim 5: Kök sözcüğü bulmak için gerçekleştirilen joker karakter araması

iKFI0A3A-1767

OD02A1B-4535

N002A1HS13

Bir diğer joker karakter olan soru işareti ise kullanıldığı yere herhangi bir karakter gelebilir anlamınıtaşımaktadır. Örneğin röv/şat? şeklinde yapılan sorgunun sonuçlarının içerisinde rövaşata/röveşata sözcükleriningeçtiği bağımlı dizin satırları bulunacaktır. ? işaretinin kullanımı daha çok standart dışı kullanımları derlemsorgusunda bularak (İng. recall) üzerinde araştırma yapılacak yerinin eksiksiz olmasını sağlayacaktır.

283

bit ml

3 Hayır~. hırsızlar da var Tı:ıbutta

2

4

diyorlar. Yarın da niye geUeri ileatmıyarsunuz diyecekfer. Deum'e karşı

6

7

Resim 6: Standart dışı kullanımların çıkarılması için gerçekleştirilen joker karakter araması

Türkçe Ulusal Derlemi Tanıtım Sürümü arayüzünde kullanılabilen bir diğer joker karakter ise tırnak işaretidir.Tırnak işareti içerisinde yapılacak sözcük gruplarının araması iki veya daha fazla sözcüğün mutlaka yan yanakullanıldığı bağımlı dizin satırlarının bulunmasını sağlayacaktır. Tırnak işareti içerisinde yazılan "siyah beyaz"sorgusu, "siyah beyaz" sözcüklerinin her zaman yan yana geldiği bağımlı dizin sonuçlarını listeleyecektir.

Yazı« _nı.,deki '.lı .~YlI:ı'1 sorgusu "<4{lJ/S} farkı' metlnd.

II.Ustalendi;

SQntıçjarda.Arft

SG37EIB~2926 Iyaçotann güler-ağlar yüzleli: dl.fV'<lrlardak:i

mlerde o seçsz kafasından

4 RAt6B2b- 3329 , ri.filmlerı seyredip, akşamları

~ bey•••

Resim 7: Sözcük gruplarını bulmak için gerçekleştirilenjoker karakter araması

Aynı arama tırnak işareti olmadan yapıldığında ise yalnızca siyah veya yalnızca beyaz sözcüklerinin olduğudizilimler arayüz tarafından gösterilecektir. Bu türde yapılan sorgulamaları bir eylemin iki farklı çekimi i biçimile de örneklendirebiliriz. Sorgu terimi kutusuna tırnak işaretleri kullanmadan, aralarında boşluk olacak şekildeyazılacak "geldik gelmiştir" sözcükleri bu iki sözcüğün bağımlı dizin sonuçlarını listeleyecektir.

UE39C4k09Q3

Damarlar

ED'370A-QSSl Mimarlık üôlümü'ne öQret!m üyesi olarak ~ 1936'da_ölünceye dek bu QÔrevin(

Resim 8: Farklı sözcüklerin bağımlı dizin sonuçlarını bulmak için gerçekleştirilen sorgu ve sorgu sonuçları

3.2. Dağılım ve listelemeDerlem dilbilimcilerin derlem aracında sıklıkla kullandıkları "Dağılım" ve "Listeleme" özelliklerine erişim içinsorgu sonuç sayfasının sağ tarafında yer alan aşağı açılır menü kullanılmaktadır. Sorgu sonuç ekranında"Dağılım" düğmesine basıldığında ilgili sözcüğün TUD anasayfasında yer alan ön tanımlı ölçütlere göre eşleşmesayısı, kaç farklı dosyada bu eşleşmenin gerçekleştiği, bir milyon sözcükteki normalleştirilmiş sıklık bilgisi vesözcük sayısına erişilebilir. Sorgu terimi olarak yazdığımız "dilbilim" sözcüğünün sıklıkla Türev MetinBiçimlerinden "Bilimsel Düzyazı"larda, Okuyucu Kitlesi olarak "Yetişkinlerin" seçildiği, Alan olarak ise"Bilgilendirici: Toplurnbilimlerinde" yer alan metinlerde kullanıldığı bu araç ile görüntülenebilir (Bkz. Resim 9).

284

Dağılım işlevi derlem veribilgisi temelinde dile ilişkin bir olgunun dil dışı değişkenlerde ne ölçüdegerçekleştiğini sıklık bilgisini kullanarak göstermektedir. Bu sonuçlara bakarak araştırmacı bir sonraki adımdasorgu terimini sadece en sık geçen alan, türev metin biçimi vb. ile sınırlayarak sorgusunu yenileyip araştırmasınıözelleştirerek sürdürebilir.

~-----------------------------------~~nmoo~u.----------------~-------------------'Sözlü veya vazılı__Suuflandımıa ___ GzC:;53Y:)-~;6JUr-

47650926

<1;_ ..;) _163163Toplam 66/4436

EFtondaF~

3.42

Türev MetinBiçimi

_~_&_nd_~ ~_"_am_"_••~y~~ ~~~~~~ys~ ~~ğ~"'~(~~a~~~roa)~ ~_'_~~_F_reb_~_BiRmseldiizyazı 14018 86_ 32_ 1.B

B15 Sı 31 0.1

5705 35 • 14. 0.73652 41 ------"- 4'"'1;;--------0-.08

0.36

163

Sözcük sayısı lJağılaıı2771

23146

17.

Tümü

142

Total

652 41 ____ 4.66

O.OB

3.4226569 163

Alan

" SÖzcük sa ~ ~sayısı Dağ"'(dosya~roa) BirMFtondaFreb~BlS ---5-' --- 31 0.1

163 ı ıl 0.02

-"13:.:04'----__ ~_- _-_-_-_=-=81;;-_" ---==21 0.ı7ı0432 64 _ 25_ 1.34

---- .. ---------.------- 2445 ısı 11. 0.31

~&ndımıaKurgusal d~_

!Igilendi~~a~~e temelbilimler __~ _Bilgilendirici: Uygulamah bilimler

~i~'lumbilimlert

Bilgilendirici: Dünya sorunları

Resim 9: TUD dağılım ekranı

TUD arayuzunun araştırmacılara sunduğu bir diğer araç ise listeleme aracıdır. Listeleme aracı bağımlı dizinsatırlannı sorgu sözcüğü/sözcüklerinin kendisine, sağında veya solunda yer alan sözcüklere göre alfabetik olarakdizilmesini sağlamaktadır. Listeleme aracında Sağ I/Sol 1 gibi tablo başlıklanna tıklandığında arayüz otomatikolarak alfabetik dizilimi gerçekleştirecektir. Bu sayede araştırmacılar herhangi bir istatistiksel değer olmadansıklık bilgisine göre sorgu terimiyle en çok birlikte olan yani eşdizimli sözcükleri listeleyebilirler. Bağımlı dizinsatırlannın bu biçimde listelenmesi sorgu terimi hakkında en tipik görünümlerin neler olduğu konusundaaraştırmacıya bir fikir verecek ve bu yönde yapılacak çözümlemeler dil örüntülerinin belirlenmesinisağlayacaktır (örn., Sinclair, 1991; Tognini-Bonelli, 200 ı; Hunston, 2002).

Sayfab.,.,_ 10 - lcayıtgôsteriıyor. scnucarda Ara

SOI5 So" SOO SoI2 SoI1 sağ3 sağ-< sağ'

~ aı ele alınmaya ba~andı. Uretıcı olarak adlandınlan bu

L!L1Qk'\L&:140 ~ lstıınbul Üniversitesi Bır Düşünme Biçimı

·49 F ıle kast en im yazan kişilerin dilbilim akademisyenleri, i leme te u r. n

65 ~ kendisine konu edinen bır beşka dilbilim alanı d. nörolingutstik (sinirdilbilim )'tk. BirJ.QBL!

~ ayrılık/arım! değindiklen sonra "Tarıh ve dilbiıim alanında YlIptığımlZ bu gezi henUz.lll<Resim 10: TUD listeleme ekranı

Menu Seçiniz

Git

Yazılı metınterd~ [ dılbılim] sorgusu i60 sonuç ile(64) fıırklı metonde {47650926 sözcuk [445B toplam metinde] lıstetendı;

bır mılyon sOzcülde~ sıkl'< ıj$rı: 3.36(0.116sanoye)

3.3. Eşdizim listeleriEşdizim menüsü, TUD- Tanıtım Sürümü arayüzü penceresinin sağ tarafında yer alan açılır menüde yer alır vesorgu teriminin çoğunlukla hangi sözcüklerle ya da dilbilgisi ulamlarıyla birlikte olduğunu çeşitli istatistikselhesaplamalar (Log-likelihood, MI, MB, T, dice coefficient ve log dice coefficient değerleri) kullanarak listelerinoluşturulmasını sağlar. Eşdizimli sözcüklerin metinlerdeki sıklığı, gözlenen ve beklenen sıkhk değerleri, kaçfarklı metinde geçtikleri TUD- Tanıtim Sürümü arayüzü tarafından otomatik olarak hesaplanmaktadır. Eşdizimlisteleri oluşturulurken kullanıcılar eşdizimli sözcüklerin sorgu terimine yakınlığını (± 5) dabelirleyebilmektedirler. Eşdizim listelerinde varsayılan listeleme Log-likelihood hesaplama yöntemi ilesunulmaktadır. Araştırmacılar hesaplama yöntemlerinin başlıklarına tıklayarak bu listelerneyi istedikleri değere

285

göre değiştirebilirler. Aşağıda sözkonusu ilişki ölçülerinin hesaplama özellikleri ve bunun sonucu oluşan farklılisteler dil araştırmalarında nasıl kullanılması gerektiği üzerinde durulacaktır.

Eşdizim belli bağlamlarda, bir sözcüğün belirli bir aralık içinde en sık ve güçlü biçimde birlikte kullanıldığısözcüktür (Sinclair, 1991)? İstatistiksel ilişki ölçüleri yardımıyla belirlenir. Bu ölçülerinin çoğu, iki sözcükarasındaki istatistiksel ilişkinin miktarını gösteren ilişki puanı formülleriyle tanınır. İlişki puanı, olası tüm sözcükçiftleri için hesaplanır. Yüksek puanh sözcük çiftleri eşdizimli olarak verilir. Üç nicel özellik eşdizimhesaplamalarında kullanılmaktadır: (i) birlikte gözlenme sıklığı: Beklenen ve gözlenen birlikte-gözlenmefrekanslarının incelenmesi; (ii) birlikte görülme anlamlılığı: Bir sözcük çiftinin istatistikselolarak anlamlı bireşdizimlilik gösterip göstermediği; (iii) etki büyüklüğü: Gözlenen frekansın beklenen frekansa oranı (Hoffmann,Evert, Smith, Lee, Prytz, 2008, s.ISO). TUD arayüzüde eşdizim listelernede kullanılan ilişki ölçülerini sözkonusunicel özelliklerle ilişkilendirebiliriz.- Birlikte gözlenme sıklığı, beklenen ve gözlenen görüleme sıklığına göre sözcükleri sıralar.- Log-likelihood istatistiksel anlamlılık ölçüsüyle eşdizim listesi oluşturur.- Mutual information etki büyüklüğünü gözönüne alarak eşdizim listesi oluşturur.- MB, dice katsayısı, Log Dice katsayısı puanları yukardaki ölçütleri kullanan melez ölçüler olarak eşdizimlisteleri yapar.

3.1.1 Birlikte gözlenme frekansına göre sıralama

Eşdizimliliği kabaca belirlemeye olanak sağlar. Bu sayede sorgu terimiyle sık gözlenen eşdizimli sözcüklerigörebiliriz. Eşdizimli sözcükler sıklıklarına göre sıralandığında, en sık gözlenen sözcükler listenin en başında yeralır. Yalnızca frekanslara odaklandığı için güvenilir bir ölçü değildir. Eşdizim listesinde yer alan birlikteliklerinçoğu istatistikselolarak anlamlı değildir. Sorgu sözcüğü ve sıklıkla birlikte olduğu sözcüklerle arasındakibirliktelik gücünü (İng. collocational strength) ölçmek için diğer ilişki ölçülerini kullanmak gerekir. Resim(ll)'de yapay sözcüğünün gözlenen sıklık değerine göre oluşturulmuş eşdizim sonuçlarını görebiliriz. Listeninbaşında yer alan iki sözcük zaten Türkçenin en sık kullanılan iki sözcüğüdür.

EşdlZinllfjkparametreleri Değer (Pencere Aralığı -1 <=> 1)

Sıra Sözcükyazılı Beklenen Gözlenen Yazık log- MI MD T-Sk Dnı log DO!

metinlerdeki eşdizimlilik eşdizimrırı,kmetinlerdeki fikeli/ıood d " - d" - d ".:: ooeffıdent roefficieııttoplam sayı sıklığı sıklığı metin sayısı değeri egen egen eg değeri

II 1268126 44.417 236 186 40~.Z03 2.41 18.175 15.362 O2 !llt 1092075 38.251 149 110 183.729 1.962 16.4 12.206 O

III 2 O O 10.535 0.1334 2imk 210349 7.368 ~ 79 352..132 3.805 17.178 10.149 0.001s ~ 0.003 sz 1 951.292 14.127 2S.58 7.211 O6 lıı.ı 664427 23.272 !.il 40 20.044 1.044 12.214 6.928

ıI2 37S6B5 13.264 ~ 30 1 78 ma 1518 0.053 2!! 20 308.154 9.091 18.807 5.385 o.cıs 8.229 ~ 246 0.009 ;H 2 335.181 11.444 20.614 4.899 0.02:> 8.68210 :ill'i! 56986 1.996 II 21 70.441 3.526 12.574 4.796 0.001 3.684

Resim 11: Yapay sözcüğünün gözlenen değerine göre sıralanmış eşdizim sonuçları

2 Eşdizim alanında yapılan çalışmaların bir kısmını kısaca şu şekilde özetleyebiliriz. Sinclair (1996), Stubbs (2002), Hunstonve Francis (1999), ve Hoey (2005) gibi derlem dilbilimcilerin çalışmalarından oluşan bağlam içinde sözcüklerin anlamı vesözcük seçimleri (İng. phraselogy) üzerine temellenen Yeni-Firth ekolü (Mclsnery ve Hardie, 2012) derlem dilbilim yöntemiiçinde önemli bir yere sahiptir. Bu yaklaşım, deri em çıkışlı bir yöntem benimsemiş ve Firth cı 957)'nin eşdizim kavramınıyorumlayarak soyut anlamda genişletmiştir. Bu bağlamda, sözcüklerin sistematik olarak beraber oldukları sözcüklerle birörüntü oluşturması, çeşitli katmanlarda dilin yapı ve işlevlerinin betimlenmesini sağlamıştır (Örn., Sinclair (1991) deyim-ilkesi, Hunston ve Francis (1999) örüntü dilbilgisi, Hoey (2005) sözcüksel hazırlık).

286

3.1.2 Log-likelihood ölçüsüLog-likelihood istatistisel anlamlılık ölçüsüdür. iki sözcük ne kadar sık eşdizimlilik gösterirse, birliktelik için okadar kanıt var demektir. Bu ölçü yüksek frekans lı eşdizimlilikler yönünde yanlıdır. Log-likelihood (LL) ölçüsükullanılarak küçük ölçekli metin verisi üzerinden de hesap yapılabilir çünkü diğer istatistiksel anlamlılıkölçülerin gerekli gördüğü verinin normal dağılması önvarsayımı bu ölçü için geçerli değildir (Dunning, 1993).LL puanları oldukça gelişmiş istatistiksel sonuçlar sağlar. Bu ölçü özellikle sık eşdizimlilikler için etkibüyüklüğü ölçütünü gözardı eder. LL ölçüsü ile oluşturulan eşdizim listelerinde hem sık hem de seyrek (ing.infrequent) kullanılan sözcükler bulunmaktadır. Resim (12)'de birinci sırada yapay sözcüğüyle eşdizimli olarakgümeç, ikinci sırada bir, dördüncü sırada zekanın, altıncı sırada solunum ve sekizinci sırada gübre sözcüklerinigörüyoruz. Gümeç sözcüğü sadece arıcılıkla ilgili bir bilimsel metinde geçen özel bir sözcüktür ancak LL değerien yüksek seyrek kullanılan sözcük olarak listenin başındadır. Bu liste sonuçları Resim (l2)'deki sonuçlarlakarşılaştırıldığında gümeç sözcüğünün beşinci sırada, zekanın 9. sırada olduğunu ve ilk on sözcük arasındasolunum ve gübre'nin olmadığını belirleyebiliriz. LL ölçüsü genel anlamda dilbilimciler arasında en çok tercihedilen ölçüdür.

8592 16.932 4.24215. .123

1 139.008 9.144 16.545 3.605 0.011

Resim 12. Yapay sözcüğünün Log-likelihood değerine göre sıralanmış eşdizim sonuçları

3.1.3 Mutual information (MI) ölçüsüMI gözlenen sıkhk ve etki büyüklüğünü dengeleyen bir ilişki ölçüsüdür. Yüksek frekansh sözcüklerle birliktegözlenen önemsizieri (anlamlı olsalar da) elernede oldukça etkilidir. Etki büyüklüğü ölçütüne aşırı vurguyapması, düşük frekansh yanhhğa götürür. istatistikselolarak Log-likelihood testi kadar sıkı bir ölçü değildir.MI puanı seyrek kullanılan sözcüklere çok fazla ağırlık verir. Yapay sözcüğünün MI değerine göre sıralanan ilkon sıradaki eşdizim sonuçlarındaki sözcükler hiçbir ilişki ölçüsünün ilk on sıradaki sözcük listesinde yoktur (bkz.Resim 11,12,14, ı5). Bu sözcüklerin seyrek kullanılan sözcükler olduğunu kaç tane metinde geçtiğini gösteren"yazılı metinlerdeki metin sayısı" sütununa bakarak görebiliriz. Resim (13)'teki listedeki sözcüklerin hepsimetinlerde bir kez kullanılmıştır. MI-değeri bir eşdizimliliğin gücünü ölçer ve bu ölçüye göre yapılacak birsıralama, sorgu sözcüğünün daha çok sözlüksel özelliklerini ve daha belirgin biçimde deyim/kalıpeşdizimliliklerini verir (Hunston, 2002, s.73).

287

3.1.4 MI3 ölçüsüMB puanı MI puanını yeniden ayarlamak için kullanılır ve düşük frekanslı yanlılığı azaltınayı amaçlar. Seyrekeşdizimliler için etki büyüklüğüne daha fazla ağırlık verirken, sık eşdizimliler için frekansa ağırlık verir. Geneleşdizimlilik çözümlemeleri için önerilmeyen bir ölçüdür (Hoffmann ve diğerleri, 2008, s. 156). Resim (14)'dekiliste, LL değeri ile hesaplanan listenin eşdizim sonuçlarına yakınlık göstermesine karşın sözcüklerin sayısalsıraları farklılık göstermekte (bir altıncı sırada, olarak sekizinci sırada gibi) ve seyrek kullanılan sözcükler(tatlandırıcılar) !istenin üst sıralarında yer almaktadır.

Eşıfızimlllil<parametreleri Değer (Pencere Aralığı -1 <=> 1)

YaııIı Beklenen Gözlenen Yaııh log- ilim log Diometlnlerdeki eşdlzjmlilik ..,.ıizimlilik met:inlerdeki likeIihood M.I .!"IB J-Skor ooeffıOerıt coeffıdentoplam sayı sıklığı sık\ıöı metln sayısı değeri değeri değei'!' değen değeri değeri

~ra Sözcük

oumec2 zekanın

tatand4 ~

~6 bi'

~8 ~10 mineral

83 0.003 52 1 957.292 14.12725.528 7.211 0.059 9.92246 0.009 ı1 2 335.181 11.44420.614 4.899 0.025 8.68214 O 7 4 124.224 13.80119.416 2.646 0.008 7.09

1518 0.053 12 20 308.154 9.091 18.807 5.385 0.018 8.226 O 4 1 74.437 14.21618.216 2 0.005 6.2

1268126 44.417 ~ 186 405.203 2.41 18.175 15.362 O 2.6061274 0.045 22 14 229.294 8.946 17.864 4.69 0.015 7.93

210349 7.368 ill 79 352.132 3.805 17.178 10.149 0.001 3.9931332 0.047 8 176.73 6.592 16.932 4.242 0.012 7.61656 0.023 U 1 139.098 9.144 16.545 3.605 0.011 7.517

Resim 14: Yapay sözcüğünün MB değerine göre sıralanmış eşdizim sonuçları

3.1.6 Dice katsayısıHem etki büyüklüğünü hem de frekansı dikkate alır. Diğer melez ölçü/erden çok daha aşırı bir ölçüdür. Dicekatsayısı ne yüksek ne de düşük frekanstan yana yanlılık gösterir. Dice katsayısı çok küçük sayılar verdiği içinbunu düzeltmek için LogDice kullanılır. Dice katsayısı ile hesaplanan eşdizim listesinin ilk on sırasında bulunansözcükler hem MI3 hem de LL ölçüleriyle yapılan hesaplanan listelere benzerlik gösterirken sayısal sıralamaDice katsayısı formülünün özelliklerini yansıtmaktadır. Örneğin, gümeç LL ile yapılan hesaplamada birincisıradayken Dice katsayısı listesinden ikinci sırada, tatlandırıcılar MI3 'te üçüncü sıradayken Dice katsayısıdeğeriyle yapılan listede onun cu sırada bulunmaktadır.

EşdiZımluıkparametrelerı Değer (Pencere Aralığı -1 <=> 1)

yazılı Beklenen Gözlenen yazılı Log- MI MB J -Sk ilim Log ()ıcesıra Sözcük metinlerdeki eşdlZimlJljk eşdizimlilik metlnlerdeki likelihood değeri değeri ~ ooe~ ooeffıOerıt

toplam sayı sıklığı sıidığı metln sayısı değeri değeri değeri

ma O III 21 O O O 10.535 0.1332 gÜmec 83 0.003 2z 1 957.292 14.127 25.528 7.211 ·,0.059~nın 246 0.009 4 ı 335.161 11.444 20.614 4.899 0.025.. zeka 1518 0.053 12 20 308.154 9.091 18.807 5.385 0.018

~ 1274 0.045 zz 14 229.294 8.946 17.664 4.69 0.0156 ~ 1332 0.047 ııı 8 178.73 8.592 16.932 4.242 0.012

ııııO.eıaI 656 0.023 1 139.098 9.144 16.545 3.605 0.0118 sinır 2230 0.078 II 8 149.303 7.766 15.941 4.123 0.009

r 196 0.007 8 3 97.316 10.187 16.187 2.826 0.00910 \;ıtlandrodar 14 O Z 4 124.224 13.801 19.416 2.646 0.008

Resim 15: Yapay sözcüğünün Dice Katsayısı değerine göre sıralanmış eşdizim sonuçları

ilişki ölçüleri temelinde hazırlanan eşdizim listeleri için genel bir değerlendirme yapıldığında tek bir doğru ya daen iyi ilişki ölçüsü olmadığı belirtilmektedir. Log-likelihood, MI ve Dice katsayısı genellikle araştırmanınamacına göre önerilen ölçüler olarak görülüyor. Derlem dilbilim alanyazınıda vurgulanan, eşdizimliliğinbulunduğu metin sayısının önemli olduğudur (Evert, 2009). Yine yapılan önemli bir uyarı, farklı olgu türleri içinilişki puanlarının karşılaştırılmaması yönündedir. Örneğin, yapay ve zeka yazılı metinlerde sözlü metinlere göredaha güçlü bir eşdizimli!ik gösterir mi? gibi bir soru ilginç olmasına karşın yanıt bu iki dilortamından alınacakeşdizim sonuçlarının ilişki puanlarını karşılaştırılarak verilemez. Çünkü ilişki ölçüleri için genel bir ölçek yoktur.Tüm ölçüler seçkisiz değişkenliği, derlem büyüklüğünü, sorgu teriminin gözlenen sıklığını ve sağ-sol eşdizimlisözcük sayısını içine alan geniş bir etki aralığındadır. Bu etkilerin kesin matematikleri yoktur ve bu nedenle deilişki ölçüleri arasında karşılaştırma yapmamızı sağlayan istatistiksel testler de bulunmamaktadır. (Hoffmann vediğ., 2008, s.157-8).

288

4. Sonuç

Bu yazıda, TUD- Tanıtım Sürümünün arayüz işlevlerini örnekler üzerinden tanıttık. Joker karakterler kullanılarakyapılacak sorguların derlem veritabanından araştırmacının sorusuna yanıt verebilecek bütün veriyi bulupgetirmedeki etkisini çeşitli örneklerle gösterdik. TUD-Tanıtım Sürümünün dağılım işlevi, araştırmacılara derlemveribilgisi içinde sorguladıkları sözcüğün en sık kullanıldığı metin konu alanı, metin türü, cinsiyet vb.'dekidağılım sıklıklarını vererek, araştırmacıların sorgularını daraltarak yoğunlaşabilecekleri dil dışı ölçütlerisunmaktadır. Bağımlı dizin satırları olarak gösterilen sorgu sonuçları üzerinden uygulanan listeleme işleviylesorgulanan dilsel birim hakkında temel ve tipik dil örüntülerinin saptanabileceğini belirttik. Yine çeşitliistatistiksel ilişki ölçüleri kullanılarak sorgulanan sözcüğün en kuvvetli biçimde eşdizimli olduğu sayısal sıralısözcük listelerinin nasıl değerlendirilmesi gerektiğini örnekler üzerinden açıkladık. Genel anlamda derlemaraçlarının kullanımı, özelde TUD- Tanıtım Sürümü arayüz işlevleri ile yapılacak araştırmalarda Ruhi 'nin (bukitap) sözlü derlemler üzerinden yapılan edimbilim araştırmaları için betimlediği "döngüsel yöntemi" kullanmakçoğu zaman bir gereklilik olarak ortaya çıkmaktadır.

Derlem dilbilim yönteminin ülkemizde daha fazla dilbilirnci tarafından tanınması ve kullanılmasını sağlamaküzere TUD'un belli başlı arayüz özelliklerinin tanıtılmasının, gerçekleşmiş veri kullanarak yapılacak nicel venitel araştırmalar için yararlı olacağını düşünüyoruz.

KaynakçaAijmeir,K., Stenström, A.B. (2004). Discourse patterns in spoken and written corpora. Amsterdam: John

Benjamins.Aksan, Y., Aksan, M., Koltuksuz, A. ve diğerleri (2012). Construction of the Turkish National Corpus (TNC).

Proceedings of eight ınternational conference on language resources and evaiuatian (LREC2012). 25 Ekim2012 tarihinde http://www.lrecconf.org/proceedings/lrec20 12/papers.html adresinden erişildi.

Aston, G., Bumard, L. (1998). The BNC handbook: Exploring the British National Corpus with SARA.Edinburgh: Edbinburgh University Press

Ambati, B., Reddy, S., Kilgarriff, A. (2012). Word sketches for Turkish. Proceedings of the eighth internationalconference on language resources and evaluation (LREC 2012) 25 Ekim 2012 tarihindehttp://www.lrecconf.org/proceedings/lrec2012/papers.html adresinden erişildi.Biber, D. (1993). Representativeness in corpus design. Literary and linguistic computing, 8(2),243-257.

Biber, D., Johansson, S., Leech, G., Conrad, S., Finegan, E. (1999). Longman grammar of spoken and writtenEnglish. London: Longman.

Dalkılıç, G., ve Çebi,Y. (2002). A 300 mb turkish corpus and word analysis. Advances in information systems, s.205-212.

Dunning, T. (1993). Accurate methods for statistics of surprise and coincidence. Computational linguisitcs,19(1),61-74.

Evert, S. (2009). Corpora and collocations. A. Lüdeling, M. Kytö (Ed.), Corpus linguistics: An internationalhandbook, vol. II içinde (ss. 1212-1248). BerlinlNew York: Walter de Gruyter.

Firth, J. R. (1957). Papers in linguistics 1934-1951. Oxford: Oxford University Press.Hoey, M. (2005). Lexical priming: A new theory of words and language. London: Routledge.Hoffmann, S., Evert, S., Smith, N., Lee, D., Prytz, Y.B. (2008). Corpus linguistics with BNCweb-A practical

guide. Frankfurt: Peter Lang.Hunston, S., Francis, G. (1999). Pattern grammar: A corpus-rriven approach of lexical grammar of English.

Amsterdam: John Benjamins.Hunston, S. (2002). Corpora in applied linguistics. Cambridge: Cambirdge University Press.Leech, G. (2007). New resources, or just better old ones? The Holy Grail of representativeness. M. Hundt, N.Nesselhaufve C. Biewer (Ed.), Corpus linguistics and the web içinde (ss. 133-149). Amsterdam!New York:

Rodopi.McEnery, T., Xiao, R., Tono, Y. (2006). Copus-based language studies. London: Routledge.McEnery, T., Hardie, A. (2012). Corpus linguistics. Cambridge: Cambridge University Press.Ruhi, Ş., Aksan, M., Aksan, Y. (bu kitap). Derlem dilbilim yöntemlerinin etkin olarak araştırmalarda kullanımı:

Uygulamalar.Ruhi, Ş. (bu kitap). Sözlü Türkçe Derlemi'rıde temel arama ve edimbilimsel açırnlarna: Yöntem geliştirme.Sak, H., Güngör, T., ve Saraçlar, M. (2008). Turkish language resources: Morphological parser, morphological

disambiguator and web corpus. Advances in naturallanguage processing, 417-427.Say, B., Zeyrek, D., Oflazer, K. ve Özge, U. (2002). Development of a corpus and a treebank for present-day

written Turkish. K. İmer ve G. Doğan (Ed.), Current research in Turkish linguistics: Proceedings of the llthInternational Coriference of Turkish Linguistics içinde (ss. 183-192). Magusa: Eastem MediterraneanUniversity.

289

Sinclair, J. (1996). The search for units ofmeaning. Textus, 9,75-106.Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press.Stubbs, M. (2002). Words and phrases. Oxford: Blackwell.Tognini-Bonelli, E. (2001). Corpus linguistics at work. Amsterdam/Philadelphia: John Benjamins.Wynne, J. (Ed.) (2005). Developing linguistic corpora: A guide to good practice. 30 Nisan 2013 tarihinde

http://www.ahds.ac.uk/guides/linguistic-corpora/appendix adresinden erişildi.

290