Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów...

- 23 -

Marek Łukasik

NARZĘDZIA LINGWISTYKI KORPUSOWEJ

W WARSZTACIE TERMINOLOGA, TERMINOGRAFA

I TŁUMACZA TEKSTÓW SPECJALISTYCZNYCH (CZ. I)

1.

Artykuł jest poszerzoną prezentacją zagadnień poruszonych przez

autora w wystąpieniu wygłoszonym podczas zebrania naukowego Katedry

Języków Specjalistycznych, które odbyło się 18 stycznia 2007 roku.

Przedstawiona w niniejszej publikacji problematyka stanowi ogólny wstęp

do lingwistyki korpusowej i ma na celu zapoznanie Czytelnika

z możliwościami wykorzystania wybranych funkcji programów do obróbki danych korpusowych w warsztacie wymienionych w tytule profesji.

Pierwsza część pracy jest krótkim zarysem teoretycznym przedsta-

wiającym definicje, typologię oraz cechy korpusu tekstowego.

W drugiej części artykułu rozważane są techniczne aspekty gromadzenia

danych korpusowych, zaś trzecia część publikacji przedstawia najważniej-

sze funkcje dwóch programów korpusowych i możliwości ich wykorzysta-

nia w badaniach terminologicznych, terminograficznych i przekładowych.

Inne funkcje programów do obróbki danych korpusowych zostaną

omówione w kolejnym artykule.

1.1. Nie trzeba chyba nikogo przekonywać, że rewolucja informatyczna

ułatwiła pracę w większości dziedzin ludzkiej działalności. Technologie

komputerowe są obecne w każdym aspekcie życia codziennego: od

telefonów komórkowych, urządzeń AGD, samochodów – po promy i sondy

kosmiczne. Oczywiście komputer znalazł również zastosowanie w wielu

dyscyplinach językoznawstwa mimo faktu, iż nie wszystkie aspekty

języka da się w łatwy sposób przenieść na algorytmy „zrozumiałe” dla

maszyny. Na szczególną uwagę, ze względu na specyfikę prowadzonych

badań, zasługuje w tym miejscu interdyscyplinarna dziedzina wiedzy

zajmująca się problematyką automatycznej analizy i opisu naturalnych

języków ludzkich, a mianowicie inżynieria lingwistyczna (ang. NLP – Natural Language Processing)1, która z jednej strony opiera się na

1 Skrótowiec NLP może odnosić się również do angielskiego terminu Neurolingu-istic Programming – tzw. programowania neurolingwistycznego, popularnej

ostatnio, acz kontrowersyjnej dyscypliny będącej zestawem strategii (technik, ćwiczeń) mających na celu zmianę wzorców zachowań (w tym motywacji). Ogólnie na temat NLP m.in.: Bandler R.: 1985; na temat zastosowania NLP w glottodydaktyce np.: Revell J. & Norman S.: 1997 oraz tychże: 1999.

Marek

Tekst maszynowy

Łukasik M. (ed.), 2007, Debiuty Naukowe I. Wiedza - korpus - słownik, Warszawa: Katedra Języków Specjalistycznych, p. 23-47. ISBN 978-83-60770-01-6

- 24 -

badaniach językoznawczych, z drugiej zaś korzysta z osiągnięć informa-

tyki, w tym sztucznej inteligencji. Należy również zauważyć, że jednym

z zagadnień w zakresie NLP jest wykorzystanie rozbudowanych korpusów

tekstowych w analizie języka naturalnego przez maszynę m.in. wynajdywa-

niu schematów językowych oraz wykonywaniu tłumaczenia tzw. maszyno-

wego (ang. machine translation) na podstawie metod statystycznych

i probabilistycznych. Wśród narzędzi NLP znajdują się takie, które nie są

obce użytkownikom programów do obróbki danych korpusowych, np. lista

frekwencyjna wyrazów, wyszukiwanie powtarzalnych połączeń wyrazo-

wych (kolokacji) i in. [zob. m.in. Kay 1997, Young & Bloothooft 1997, Hacken 2001, Hutchins 2005, Wu 2005 i in.].

Z perspektywy niniejszego artykułu na pierwszy plan wysuwa się

natomiast metodologia empirycznych badań lingwistycznych (przez

niektórych uznawana za wyodrębnioną dziedzinę) zwana lingwistyką

korpusową. W najprostszym ujęciu lingwistyka korpusowa (ang. corpus

linguistics) zajmuje się „doborem i elektronicznym przetwarzaniem

określonych zbiorów tekstów, określanych jako korpusy tekstowe” [Grucza

2007: 108]. Warto dodać, że zarówno NLP, w tym tłumaczenie maszynowe,

jak również lingwistyka korpusowa zaliczane są do nadrzędnej dziedziny

językoznawstwa zwanej lingwistyką komputerową (lub informatyczną; ang. computational linguistics).

1.2.

Poniżej zamieszczono kilka definicji korpusu tekstowego:

[korpus to] teksty, dane itp. zgromadzone ze względu na swoją repre-zentatywność, stanowiące podstawę do analizy naukowej [SJP PWN].

Corpus – a collection of materials that has been made for a particular purpose, such as a set of textbooks which are being analyzed and com-pared or a sample of sentences or utterances which are being analyzed for their linguistic features [Richards at al. 1996: 88].

A corpus is a collection of pieces of language that are selected and or-dered according to explicit linguistic criteria in order to be used as a sample of the language [Sinclair 1996].

A large collection of authentic texts that have been gathered in electronic form according to a specific set of criteria [Bowker & Pearson 2002: 9].

The term ‘corpus’ may be defined as a body or collection of linguistic data, especially the one considered complete and representative, from a particular language or languages, in the form of recorded utterances or written texts, which is available for theoretical or/and applied linguistic

investigation [Burkhanov 1998: 50].

- 25 -

Korpus tekstowy to każdy zbiór pisanych lub mówionych tekstów sfor-mułowanych w określonym języku (językach), które zostały zebrane

i wybrane według określonych kryteriów [Grucza 2007: 108].

Na początku warto zwrócić uwagę na przyjętą terminologię. W lin-

gwistyce korpusowej na określenie zbioru tekstów najczęściej przyjmuje się

terminy „korpus”, „korpus językowy” oraz „korpus tekstowy” [ang. corpus,

language corpus, linguistic corpus, text corpus a. corpus of texts].

W niniejszej pracy przyjmiemy ostatni z wymienionych terminów, jako

najbardziej precyzyjny, ponieważ, jak zauważa S. Grucza, „Na pytanie, czy lingwistyka korpusowa zbiera i instrumentalizuje określone języki, trzeba

wyraźnie odpowiedzieć, że nie, ponieważ w tekstach, rozumianych zarówno

jako wyrażenia […], jak i jako denotaty […], nie zawierają się żadne

języki” [podkreślenie moje – MŁ], więc „korpusy tekstowe to zbiory

materialnie zrealizowanych wypowiedzi językowych, a nie języków, nie

zbiorów języków […]” (szerzej na ten temat w: Grucza 2007). Jednak, ze

względów ekonomiki, w niniejszym artykule będziemy również używać

terminu „korpus” w znaczeniu wyrażenia „korpus tekstowy”.

1.3.

Na podstawie powyższych definicji można wymienić podstawowe

cechy korpusu tekstowego. Należą do nich:

a) dobór materiału językowego wg ustalonych kryteriów;

b) reprezentatywność oraz naturalność (autentyczność) materiału języko-

wego (tekstów);

c) objętość korpusu tekstowego; d) elektroniczna postać zgromadzonych danych;

e) cel badawczy.

(a)

Pierwsza z wymienionych cech sugeruje, że korpus tekstowy nie jest przypadkowym zestawem tekstów, a zbiorem powstałym w wyniku

precyzyjnie zaplanowanych działań oraz odpowiednio dobranych wymo-

gów (kryteriów). Oczywiście korpusem tekstowym sensu largo można

nazwać dowolny zbiór tekstów (np. zgromadzony w bibliotece), jednakże

z perspektywy lingwistyki korpusowej taki zbiór nie jest korpusem

tekstowym sensu stricto [Waliński 2005]. Z faktu budowy korpusów na

podstawie różnych kryteriów wynika, że każdy korpus tekstowy jest (może

być) tworzony niejako „na miarę”, w zależności od przyjętego celu

badawczego albo przeznaczenia, zaś same kryteria doboru tekstów mogą

stanowić podstawę typologii korpusów tekstowych.

- 26 -

Wśród wielu takich kryteriów wyróżnić można:

· zakres: korpusy referencyjne, obejmujące wszystkie rodzaje tekstów –

(ang. reference corpora) vs. korpusy specjalne, obejmujące wybrane

rodzaje tekstów np. specjalistyczne – (ang. special/specialized corpora);

· forma tekstów: korpusy tekstów mówionych (transkrybowanych) –

(ang. spoken c.) vs. korpusy tekstów pisanych – (ang. written c.);

· rodzaj lingwalności: korpusy jednojęzyczne (monolingwalne) – (ang.

monoligual c.) vs. korpusy wielojęzyczne (multilingwalne) – (ang.

multilingual c.), które można dalej podzielić na korpusy złożone wy-łącznie z tekstów paralelnych niebędących własnymi translatami – (ang.

comparable c.) oraz złożone z oryginałów i ich translatów w poszcze-

gólnych językach – (ang. parallel c.);

· stopień otwartości: korpusy statyczne (zamknięte), czyli nieposzerzane

o nowe teksty – (ang. closed/ static) vs. korpusy dynamiczne (monitoru-

jące), czyli nieustannie uzupełniane oraz weryfikowane – (ang.

open/monitor c.);

· odniesienie temporalne: korpusy synchroniczne – (ang. synchronic c.)

vs. korpusy diachroniczne – (ang. diachronic c.);

· stopień kompletności: korpusy z pełnymi tekstami – (ang. full-text c.)

vs. korpusy z tekstami o określonej długości, np. zawierające wyłącznie streszczenia, wstępy itd. artykułów naukowych – (ang. sample c.);

· rodzaj opracowania danych: korpusy anotowane – opatrzone

specjalnymi znacznikami (tagami), które mogą definiować dany wyraz

w zakresie informacji gramatycznej (np. części mowy: Part-Of-Speech

tagging), syntagmatycznej czy semantycznej – (ang. annotated/tagged

corpora) vs. korpusy nieanotowane – (ang. raw text/data corpora).

Szczególnym przypadkiem jest tu tzw. korpus lematyzowany – (ang.

lemmatized corpus), w którym wyrazy występujące w tekście w formie

fleksyjnej zostają sprowadzone do postaci podstawowej (słownikowej)

w procesie zwanym lematyzacją (hasłowaniem) [Scherer S. 2006:17

[w:] Grucza S.: 2007: 110-111; Bowker & Pearson 2002; Kuratczyk

2007: 201; Stubbs 2002: 114; Waliński 2005].

(b)

Dany korpus tekstowy nazywamy reprezentatywnym, jeśli wyniki

badań przeprowadzonych na tekstach wchodzących w jego skład można

poddać uogólnieniom w projekcji na cały język. Korpus jest zawsze tylko

„próbką” wszystkich wytworów danego języka, dlatego też warunkiem jego

reprezentatywności jest właściwe zrównoważenie (ang. ballancing) – czyli

dobór odpowiednich (naturalnych) proporcji – różnych typów („gatunków”)

tekstów tworzących korpus. Należy przy tym pamiętać, że proporcje oraz

„gatunki” tekstów będą się zmieniały w zależności od typu korpusu

tekstowego. Ponadto proporcje takie nie zostały nigdzie jednoznacznie

- 27 -

określone i powinny być rozważane wyłącznie w kategoriach względnych

[McEnery 2006: 21]. Dla reprezentatywnego, monitorującego korpusu

tekstów języka ogólnego, np. Brytyjskiego Korpusu Narodowego (ang. BNC

– British National Corpus), którego teksty mają reprezentować dany język

narodowy w całej rozciągłości, ważny będzie (wyrażany procentowo) udział

jak największej liczby różnorodnych typów tekstów, z różnych socjo- oraz

regiolektów, zarówno ogólnych jak i specjalistycznych, pisanych (artykuły,

podręczniki, encyklopedie, słowniki i in.), jak również mówionych (przemó-

wień, wykładów, rozmów telefonicznych i in.)2. W przypadku korpusu

tekstów specjalistycznych, oprócz odpowiedniego doboru materiału ze względu na określoną dziedzinę wiedzy, lub – w przypadku korpusu

interdyscyplinarnego – dziedzin wiedzy, na pierwszy plan wysuwa się

właściwe dobranie proporcji tekstów o różnym stopniu terminologizacji oraz

należących do różnych klas funkcjonalnych, tj. tekstów terminogennych,

tekstów utrwalających terminy, tekstów terminonośnych czy tekstów

popularnonaukowych [Lukszyn 2005: 46].

Korpus uznawany jest za naturalny (autentyczny), jeżeli zebrane tek-

sty stanowią przykłady jak najbardziej naturalnej komunikacji językowej,

przy czym należy podkreślić, że kwestia autentyczności dotyczy zarówno

pisanych, jak i mówionych korpusów tekstowych. W przypadku korpusów tekstów mówionych problemy z naturalnością pojawiają się zarówno na

etapie rejestracji wypowiedzi na nośnik, jak również na etapie późniejszej

ich transkrypcji. Pozyskiwanie materiału badawczego wymaga poinformo-

wania referenta o zamiarze rejestracji (nagrania) jego wypowiedzi.

U niektórych osób informacja taka może negatywnie wpłynąć na jakość

wygłaszanego tekstu, powodując swoistą nienaturalność sytuacji komunika-

cyjnej. Ponadto nawet w przypadku nagrania wideo nie da się oddać

naturalnego kontekstu (konsytuacji). Z kolei transkrypcja nagrania oparta

jest o pewne określone zasady, które dodatkowo ograniczają naturalność

rejestrowanego materiału badawczego.

Co się tyczy tekstów pisanych – należy pamiętać, że już na etapie

projektowania korpusu dokonujemy pewnego doboru tekstów (fragmentów

tekstów). Selekcja taka, przeprowadzona na podstawie subiektywnych

kryteriów, prowadzi do obniżenia jakości próby materiału. Dodatkowym

czynnikiem wpływającym na nieautentyczność zgromadzonych tekstów

jest ich obróbka lingwistyczna (anotacja, lematyzacja itd.). Wymienione

2 Szczegółowe dane liczbowe dotyczące korpusu BNC zawarto na odnośnej stronie internetowej: <http://www.natcorp.ox.ac.uk/corpus/index.xml.ID=numbers>, data dostępu: 20.09.2007.

- 28 -

procedury zmieniają autentyczność choćby o tyle, o ile np. „otagowany”

korpus staje się nieczytelny dla człowieka, a staje się bardziej funkcjonalny

dla maszyny (konkretnego programu/programów komputerowych do

obróbki danych korpusowych). Nie ma wśród badaczy zgody co to tego,

czy większą wartość przedstawiają korpusy tekstów „surowych”, nieanoto-

wanych (nieotagowanych), czy też korpusy anotowane. Należy jednak

zwrócić uwagę na fakt, że automatyczna anotacja może prowadzić do

błędów, które pozostawione „same sobie” z pewnością niekorzystnie

wpłyną na jakość materiału i wyników badań. Z drugiej zaś strony,

komputer nie jest w stanie analizować jednostek języka w zakresie ich znaczeń (jest w stanie wyłącznie badać formy znaków językowych) i tylko

odpowiednie opisanie danych może pomóc w późniejszej szerszej analizie

korpusu tekstowego [Grucza 2007: 112 i n.; McEnery 2006: 30 i n.;

Piotrowski 2004; Stubbs 2004; Waliński 2005 i in.].

(c)

Kolejną cechą korpusu tekstowego, rozważaną w kategoriach

względnych, jest jego objętość. Wielu badaczy podkreśla wymóg zgroma-

dzenia „dużej liczby tekstów” w celu statystycznego wyeliminowania

ewentualnych osobliwości oraz zwiększenia reprezentatywności korpusu

tekstowego. Tymczasem objętość korpusu zależy od liczby kryteriów,

wedle których jest on budowany: im mniej kryteriów doboru tekstów (np. ze względu na ich rodzaje/gatunki), tym potencjalnie większy korpus

(i odwrotnie). Ponadto korpusy tekstowe tworzone są dla realizacji konkret-

nego celu badawczego (pragmatycznego), co dodatkowo może wpływać na

ograniczenia dotyczące gromadzonego materiału [Grucza 2007: 110 i n.].

Znaczna cześć badaczy podkreśla, że na potrzeby własnych badań

korpusowych wystarczy zgromadzić teksty o łącznej objętości od kilkunastu

do kilkudziesięciu tysięcy wyrazów. Natomiast w przypadku korpusów

monitorujących (zob. pkt. b) liczby te wahają się w granicach od kilku do

kilkuset milionów (np. objętość BNC w wersji dostępnej komercyjnie to

100 mln, a w przypadku The Bank of English to 524 mln jednostek leksykalnych)3.

(d)

Potrzeba gromadzenia i przetwarzania danych korpusowych w for-

mie elektronicznej nie dziwi już dziś nikogo. Komputery w zasadniczy

sposób wpłynęły na badania lingwistyczne, w tym korpusowe (mimo, iż

były one niegdyś prowadzone w sposób tradycyjny, np. przy opracowywaniu

3 Szczegóły dotyczące korpusu The Bank of English (COLLINS Cobuild) udostępniono na odnośnej stronie internetowej: <ttp://www.collins.co.uk/books.aspx?group=153>, data dostępu: 10.10.2007.

- 29 -

konkordancji), wykonując zajmujące kiedyś kilka miesięcy lub lat czynności

w kilka chwil. Zasadniczo w dzisiejszej dobie badania z zakresu lingwistyki

korpusowej nie są prowadzone w sposób tradycyjny. W przypadku korpusów

monitorujących oraz korpusów tworzonych na potrzeby leksykografii

(terminografii) na plan pierwszy wysuwa się również aktualność tekstów. Dla

specjalistów wielu dziedzin (szybka) publikacja w wersji elektronicznej jest

warunkiem sine qua non (za)istnienia w społeczności naukowej. Dzięki temu

większość „najbardziej aktualnych” tekstów specjalistycznych dostępna jest

w formie elektronicznej – jeśli nie bezpośrednio w Internecie (zob. np. jedną

z baz artykułów nauk ścisłych: ArXiv.org <http://arxiv.org>), to z pewnością u wydawcy. Warto dodać, że duża część tekstów jest również umieszczana na

nośnikach CD/DVD oraz w tzw. bibliotekach wirtualnych.

(e)

Korpusy tekstowe budowane są dla realizacji określonych celów ba-

dawczych lub pragmatycznych. Ponieważ nie sposób wymienić wszystkich

możliwości wykorzystania korpusów tekstowych, poniżej zamieszczono

skrócony wykaz dziedzin (oraz potencjalnych badań), w których zastosowa-

nie mogą znaleźć metody lingwistyki korpusowej. Do najczęstszych (oprócz

wymienionej już we wstępie inżynierii lingwistycznej) należą:

· lingwistyka: (w szerokim ujęciu), badania zarówno synchroniczne, jak

również diachroniczne: w analizach gramatycznych, syntagmatycznych,

semantycznych, historycznych, porównawczych, socjolingwistycznych,

idiolektalnych, np. „języka” poszczególnych autorów tekstów, stylistycz-nych, w analizie dyskursu, w tym, w badaniach lingwistyki sądowej (ang.

forensic linguistics) i in.;

· terminologia: automatyczna ekscerpcja tekstów standardowych oraz

terminów, półautomatyczne tworzenie baz danych terminologicznych,

wyszukiwanie definicji, kolokacji standardowych, neologizmów i in.;

· leksykografia (terminografia): tworzenie siatki haseł słowników

(leksykonów, glosariuszy) ogólnych, specjalnych (np. gwar, frekwencyj-

nych, cytatów), specjalistycznych (=terminologicznych) – jedno- lub

wielojęzycznych, publikowanie list frekwencyjnych i in.;

· translatoryka: tworzenie baz danych tekstów paralelnych, generowanie

konkordancji równoległych, tworzenie tzw. pamięci tłumaczeniowych (ang. translation memory) wykorzystywanych w programach wspomaga-

jących tłumaczenie (ang. CAT – Computer Assisted/Aided Translation

programs), półautomatyczne wyszukiwanie odpowiedników obcojęzycz-

nych, kontekstów równoległych i in.;

· glottodydaktyka: tworzenie materiałów do nauki języka, np. wyszukiwa-

nie tekstów o określonej zawartości leksykalnej, wyszukiwanie schematów

językowych w układzie paradygmatycznym i syntagmatycznym, monito-

rowanie postępów uczniów przy wykorzystaniu tzw. korpusu uczniow-

skiego (ang. learner’s corpus) i in.

- 30 -

1.4.

Należy zdać sobie sprawę, że analiza danych korpusowych nie jest

w stanie zapewnić badaczom wszystkich informacji o języku, podobnie jak

dane obserwacyjne, choćby w astronomii, nie są w stanie dostarczyć

wszystkich parametrów badanego obiektu. „Podejście korpusowe” jest

metodą obiektywizacji badań, szczególnie w przypadku jakościowo dobrze

dobranych danych spełniających wymogi próby statystycznej. Fakt, że

mamy do czynienia z wytworami językowymi, a nie samym językiem,

(który jest „dostępny” wyłącznie samym mówcom-słuchaczom, gdyż

istnieje wyłącznie w ich umysłach i jest ich inherentną właściwością) oznacza, że nie da się zupełnie wyłączyć introspekcji z badań językoznaw-

czych. Jednak nie da się zaprzeczyć, że w niektórych badaniach stosowanie

metod lingwistyki korpusowej, opartych na reprezentatywnych zbiorach

tekstów i wykorzystujących potencjał obliczeniowy współczesnych

komputerów jest dziś nieodzownym warunkiem.

2.

W kolejnym rozdziale omówione zostaną podstawowe zagadnienia

techniczne związane z gromadzeniem tekstów oraz kompilacją własnego,

jednojęzycznego korpusu tekstowego. O korpusach równoległych (wieloję-

zycznych) będzie mowa w kolejnym artykule, jednak kwestie techniczne związane z tego typu korpusami są niemal identyczne, jak w przypadku

korpusu jednojęzycznego.

2.1.

Przed przystąpieniem do pracy z jakimkolwiek korpusem należy

w pierwszej kolejności określić cel badania. W ten sposób będzie można

adekwatnie ograniczyć zbiór tekstów przeznaczonych do analizy.

W przypadku „gotowych” korpusów opracowanych w sposób profesjonalny

(np. BNC w wydaniu World Edition 2007) istnieje możliwość „preselekcji”

tekstów. Ponadto wykorzystanie takich korpusów rozwiązuje wiele kwestii

natury technicznej, z którymi badacze spotykają się przy gromadzeniu i opracowywaniu danych do własnego korpusu. Tu, oprócz zdefiniowania

celu badania, należy określić wszystkie niezbędne parametry korpusu

tekstów: zakres dziedzin/gatunków oraz rodzaj tekstów (zob. kryteria

doboru tekstów), objętość korpusu dostępność danych (tekstów), sposób

rejestrowania danych, techniczne parametry danych elektronicznych,

sposoby „wzbogacenia” korpusu, czy sposoby weryfikacji tekstów. Ponadto

nie należy zapominać o monitorowaniu „jakości technicznej” już zgroma-

dzonych danych.

- 31 -

Pozyskiwanie tekstów w dobie Internetu i publikacji elektronicz-

nych nie stanowi większego problemu (oczywiście pomijając w tym

miejscu kwestie dotyczące ich jakości merytorycznej). Są one dostępne

zarówno na stronach WWW (mogą być „zbierane” zarówno przez

użytkownika, jak i przez oprogramowanie do automatycznego pozyskiwa-

nia tekstów – tzw. crawlery), jak również – co już podkreślono – udostęp-

niane na nośnikach optycznych CD/DVD (dotyczy to szczególnie wydań

archiwalnych czasopism). Jednakże z bezpośrednim wykorzystaniem takich

materiałów wiążą się pewne problemy techniczne, które uniemożliwiają

przeprowadzanie badań na tym etapie budowy korpusu (np. programy służące analizie korpusów nie są w stanie analizować lub analizują

nieprawidłowo zebrane dane). Zebrany materiał należy w pierwszej

kolejności poddać obróbce technicznej, tj. pliki źródłowe należy odpowied-

nio przygotować (teksty „wyczyścić” z ewentualnego „szumu”, uzgodnić

akapity w korpusie paralelnym – wielojęzycznym itd.) i zapisać do

wybranego formatu pliku docelowego.

2.2.

Jeszcze do niedawna duża część programów do obróbki danych kor-

pusowych wymagała wykorzystania formatu pliku, który niejednokrotnie

mógł być odczytany wyłącznie przez konkretny program korpusowy. Obecnie coraz szerzej stosuje się „uniwersalne” formaty plików, które

w zasadzie mogą być odczytane przez większość programów (przykładowe

rozszerzenia popularnych formatów to np. .xml, .txt). Bardzo istotną kwestią

w przypadku alfabetów języków „wykorzystujących” znaki diakrytyczne

jest zapisanie odpowiedniego dla nich kodowania. Jednym z najbardziej

rozpowszechnionych standardów umożliwiających kodowanie znaków

diakrytycznych jest Unicode, który może być stosowany bez względu na

wykorzystywany system operacyjny, program do obróbki danych czy język.

Najpopularniejszym systemem kodowania w tym standardzie jest UTF-8

(UTF – ang. Unicode Transformation Format), który jest wstecznie

kompatybilny z wcześniejszym standardem ASCII (ang. American Standard Code for Information Interchange) [Waliński 2005: 10]. Programy, takie

jak np. Notatnik pozwalają na bezpośrednie kodowanie plików tekstowych

(rozszerzenie .txt) do standardu Unicode UTF-8.

Pliki źródłowe występują w różnych formatach i dlatego przed

przystąpieniem do pracy z korpusem należy je przekonwenterować do

przyjętego formatu pliku docelowego (np. txt). I tak na przykład teksty

zgromadzone w postaci plików pdf można w prosty sposób zapisać

w formacie tekstowym (funkcja taka jest dostępna bezpośrednio

w programie Acrobat Reader). Jednak, po pierwsze, teksty umieszczone

w kolumnach, zawierające formatowania, ilustracje, wzory matematyczne,

- 32 -

odnośniki internetowe – będą wprowadzały „szum” (tu rozumiany

wyłącznie z punktu widzenia technicznej obróbki tekstu, zob. Ryc. 1) do

pliku docelowego, stanowiąc o obniżeniu jego jakości. Po drugie, nie

wszystkie pliki pdf są plikami z zapisanym tekstem; jeśli są to zeskanowane

strony jakiejś publikacji, program (np. wspomniany Acrobat Reader) „nie

poradzi” sobie z zapisem pliku źródłowego do pliku w formacie tekstowym.

Pozostaje ewentualnie zeskanowanie wydrukowanego dokumentu (lub

zapisanie go w formacie pliku graficznego) i przetworzenie takiego

zeskanowanego obrazu (pliku graficznego) za pomocą oprogramowania

OCR (zob. niżej). Z kolei zapisywanie stron internetowych bezpośrednio z poziomu przeglądarki internetowej do pliku txt (wraz z odpowiednim

kodowaniem znaków diakrytycznych) jest już szeroko dostępną funkcją,

dzięki czemu nie ma potrzeby oczyszczenia dokumentu z wszelkich

znaczników (np. znaczników html w przypadku dostępu wyłącznie do kodu

źródłowego danej strony). Alternatywą jest wykorzystanie komendy

„kopiuj-wklej”, dzięki której możemy przenieść tekst do dowolnego edytora

tekstów, a następnie zapisać w wybranym formacie pliku docelowego.

2.3.

W przypadku dostępu do tekstów występujących jedynie w wersji

drukowanej należy dokonać ich dygitalizacji. Wiąże się to z zeskanowa-niem danego tekstu oraz przetworzeniem go przez odpowiedni program do

rozpoznawania pisma/druku (ang. OCR – Optical Character Recognition).

Procedura taka stwarza jednak sporo problemów, a jej skuteczność zależy

od jakości technicznej zeskanowanego tekstu: jeśli druk jest poplamiony,

wyblakły, nierównomiernie rozłożony, zapisany rzadko występującymi

czcionkami, litery są niewyraźne, tekst zawiera dużo grafiki – wówczas

program OCR popełni znaczną liczbę błędów przy zapisie tekstu w formie

elektronicznej. Dlatego też po każdej takiej operacji należy zapisany tekst

przejrzeć i dokonać (już ręcznie) korekty. Niekiedy liczba błędów dys-

kwalifikuje tę procedurę z powodu czasochłonności przedsięwzięcia. Jeżeli

jednak tekst jest niezbędnym elementem prowadzonych/planowanych badań – a jest np. starodrukiem, rękopisem czy stwarza opisane powyżej problemy

– należy rozważyć wprowadzenie tekstu z klawiatury.

2.4.

Zebrane dane korpusowe należy rejestrować tak, aby móc do nich dotrzeć w łatwy i szybki sposób. Plikom należy nadać czytelne nazwy (np.

en_astron_20102006.txt – tj. tekst w języku angielskim z dziedziny

astronomii zarejestrowany 20 października 2006), należy je pokatalogować

(np. wg typów tekstów, daty wydania itp.) oraz sporządzić kartotekę

(zawierającą takie dane jak np.: nazwa języka, nazwisko autora, tytuł i data

publikacji dzieła, nazwa dziedziny (specjalistycznej), objętość, nazwa pliku

- 33 -

w bazie danych korpusowych). Z technicznego punktu widzenia warto

również przechowywać oryginalne pliki źródłowe, gdyż każde „wzbogace-

nie” tekstów znacznikami (tagami) zmienia jego naturalność. Ponadto

teksty oryginalne mogą zawierać informację pozajęzykową (np. graficzną)

lub zapisaną w innym kodzie (np. w języku matematyki), która może

warunkować poprawną analizę tekstu.

2.5.

Korpus tekstowy wymaga ciągłej weryfikacji. W przypadku tek-

stów specjalistycznych zgromadzonych na potrzeby słownika terminolo-

gicznego (np. ciągle aktualizowanego słownika komputerowego) będzie

to oznaczało usuwanie (archiwizację) plików zawierających teksty

„przestarzałe” lub nieadekwatne w stosunku do bieżącego poziomu

wiedzy przedmiotowej i uzupełnianie korpusu tekstami „nowymi”. Weryfikacja będzie dotyczyła również tekstów, które w wyniku kolejnych

formatowań i „wzbogacania” (np. anotacji, lematyzacji itd.) uległy

znacznemu zniekształceniu (szum). Więcej o metodach „wzbogacania”

korpuów tekstowych w kolejnym artykule.

3. Ostatnia część niniejszej publikacji koncentruje się na zagadnie-

niach, z którymi styka się użytkownik programów do obróbki korpusowej.

Na przykładzie dwóch programów komputerowych przedstawiono tu

podstawowe funkcje takiego oprogramowania i możliwości jego

wykorzystania w pracy terminologa, terminografa oraz tłumacza tekstów

Ryc. 1 Przykład „szumu” w pliku tekstowym (txt) po konwersji

z formatu pdf fragmentu artykułu z dziedziny kosmologii (widoczne

„sklejenie” tekstu oraz „źle” zakodowane działanie matematyczne).

- 34 -

specjalistycznych. Funkcje te zostały zilustrowane zrzutami ekranowymi

dwóch programów korpusowych: nieodpłatnego AntConc w wersji 3.2.1.

oraz odpłatnego MonoConc Pro w wersji 2.2. Ilustracje te zamieszczono za

zgodą autorów odnośnych aplikacji (zob. bibliografia odpowiednio:

AntConc oraz MonoConc Pro). Autor niniejszego artykułu nie podejmuje

się oceny żadnego z prezentowanych programów.

Większość programów komputerowych do obróbki danych korpu-

sowych (niesłużących wzbogacaniu korpusu) można podzielić na dwie

kategorie: programy do analizy frekwencyjnej oraz programy konkor-

dancyjne, tzw. konkordancery (ang. concordancers), z tym, że większość

dostępnych programów łączy w sobie oba powyższe moduły, czego

doskonałym przykładem są omawiane tu programy.

3.1.1.

Programy do analizy frekwencyjnej pozwalają w pierwszej kolejno-ści na generowanie list frekwencyjnych, czyli wykazów częstości

występowania poszczególnych (unikatowych) wyrazów w korpusie (tzw.

typów, ang. types). Część programów jest w stanie również podać liczbę

zdań, średnią liczbę liter w wyrazach, liczbę n-wyrazowych połączeń itp.

Wygenerowane listy frekwencyjne mogą ponadto przedstawiać procentowy

udział poszczególnych typów w stosunku do objętości całego korpusu, czyli

wszystkich wyrazów w tekście (tzw. okazów, ang. tokens). Poniżej (Ryc. 2)

przedstawiono listę frekwencyjną wygenerowaną dla niewielkiego korpusu

składającego się z fragmentów angielskojęzycznych tekstów popularno-

naukowych z dziedziny astronomii.

Listy frekwencyjne można porządkować na wiele sposobów. Lista

przedstawiona poniżej uszeregowana jest wg kolejności częstości występo-

wania wyrazów (frekwencji). Zazwyczaj możliwe jest również uszeregowa-

nie alfabetyczne oraz a tergo wszystkich typów (zob. Ryc. 3 oraz Ryc. 5 i 6).

W niektórych programach można ponadto określić wartość progową

frekwencji (np. 3 wystąpienia), poniżej której wyraz-typ nie znajdzie się na

liście frekwencyjnej.

- 35 -

Liczba okazów

Możliwości sortowania: tu wg frekwencji

Pliki w korpusie

Liczba typów Częstość Wyrazy (typy)

Ryc. 2 Przykładowa lista frekwencyjna dla minikorpusu tekstów astronomicznych w języku

angielskim. Objętość: 93283 okazy. Program AntConc 3.2.1.

Ryc. 3 Przykładowa lista frekwencyjna uszeregowana alfabetycznie.

Zaznaczono formę bezokolicznikową oraz przeszłą czasownika to

accumulate (razem 6 wystąpień), liczbę pojedynczą i mnogą rzeczownika

accumulation (razem 8 wystąpień). Program AntConc 3.2.1.

- 36 -

Z listami frekwencyjnymi wygenerowanymi na podstawie niezlema-

tyzowanych korpusów tekstowych w językach bogatych fleksyjnie (jak np.

języku polskim) wiąże się pewien problem: programy do obróbki korpuso-

wej nie są w stanie odróżnić poszczególnych form fleksyjnych wyrazów

i umieszczają je w różnych miejscach wykazu jako osobne typy (np.

gwiazda, gwiazd, gwiazdy itd.). Dlatego też istotną procedurą wzbogacania

korpusu jest hasłowanie (lematyzacja), w której hasło sprowadzane jest do

postaci słownikowej (bezokolicznika, mianownika liczby pojedynczej itd.).

W przypadku języków analitycznych o nierozbudowanej fleksji (np. język

angielski) brak lematyzacji można częściowo rozwiązać przez zsumowanie wystąpień form fleksyjnych po uporządkowaniu zbioru w kolejności

alfabetycznej (Ryc. 3). Jednak za każdym razem należy postępować

rozważnie i posiłkować się kontekstem, a to za sprawą występującej

homonimii (homografii). Niekiedy kwestia ta może okazać się jeszcze

bardziej skomplikowana, gdyż bez kontekstu nie wiadomo, czy forma –ing

jest pochodną zastosowanego czasu Continuous, formą gerundialną, czy

może rzeczownikiem. W przypadku języków fleksyjnych trudności te

nawarstwiają się – szczególnie w procesie automatycznej lematyzacji

korpusu tekstowego (np. w przypadku formy fleksyjnej gwiazdy nie

wiadomo, czy forma ta jest dopełniaczem liczby pojedynczej czy mianow-

nikiem liczby mnogiej).

Jak wynika z listy frekwencyjnej przedstawionej na Ryc. 2 najczęst-

szymi typami w korpusie tekstowym są wyrazy „gramatyczne”.

W niektórych przypadkach niezbędne jest wyeliminowanie tego typu

wyrazów za pomocą funkcji Stop List, która umożliwia umieszczenie na

oddzielnej liście wyrazów/znaków pomijanych przez program korpusowy

podczas obliczania frekwencji. Funkcja taka pozwala także „oczyścić” tekst

z niepożądanego „szumu”, np. znaków-pozostałości po wzorach matema-

tycznych, chemicznych itp. (zob. poniżej np. „c” – od stałej fizycznej

prędkości światła). W kontekście terminologii funkcja Stop List może

służyć wyłączeniu wyrazów języka ogólnego podczas ekscerpcji jednowy-razowych terminów. Jednak jej zastosowanie jest o wiele szersze. W ciągle

aktualizowanym i weryfikowanym korpusie tekstów specjalistycznych, tzw.

monitorującym (zob. wyżej); funkcja Stop List może być wykorzystana do

wyłączenia wszystkich zarejestrowanych już jednostek leksykalnych w celu

odnalezienia w nowych tekstach jednostek niezarejestrowanych, które mogą

być nowymi terminami lub neologizmami.

Poniżej zamieszczono przykładowy wykaz wyrazów-znaków

umieszczonych na takiej liście (Tabela 1). Z kolei Ryc. 4 przedstawia listę

frekwencyjną minikorpusu tekstów astronomicznych uzyskaną po

zastosowaniu funkcji Stop List.

- 37 -

Tabela 1 Przykładowy (skrócony) wykaz Stop List.

the have its where and an may would in than o e a they more some is or because um that these their however with we most over

by was also b are it within our from has about if s not into at but c as been i this were less on between only be such during which can

3.2.

W kontekście języków specjalistycznych listy frekwencyjne mogą

ponadto okazać się przydatne w badaniu proporcji terminologicznych

(w tym stopnia terminologizacji danego tekstu), przy określaniu zakresu

tematycznego tekstu (tekstów), wyszukiwaniu serii terminologicznych oraz

terminolelementów, a dzięki temu przy budowie słowników jedno- i wielo-

języcznych, przygotowywaniu materiałów dydaktycznych z konkretnego

zakresu dziedzinowego oraz na odpowiednim poziomie leksykalnym (np.

wg częstości występowania: od leksyki występującej często, np. ogólno-

naukowej, po wąskospecjalistyczną) itd.

Ryc. 4 Lista frekwencyjna wygenerowana dla

korpusu tekstów specjalistycznych z wykorzysta-niem funkcji Stop List. Program: AntConc 3.2.1.

- 38 -

Tabela 2 Określenie zakresu tematycznego tekstów za pomocą listy

frekwencyjnej. Wykaz przedstawia 10 pierwszych terminów

pojawiających się na listach frekwencyjnych dwóch porównywalnych

wielkością korpusów (pominięto wyrazy „ogólne”).

3.2.1.

Przy określaniu proporcji terminologicznych czy stopnia terminolo-

gizacji tekstów należy pamiętać, że lista frekwencyjna nie udzieli bezpo-

średniej odpowiedzi na pytanie dotyczące np. stosunku wyrazów ogólnych

do konwencjonalnych. Wynika to choćby z faktu istnienia dużej liczby

wielowyrazowych jednostek terminologicznych, których ekscerpcja

wymaga równoległego zastosowania innych procedur (np. funkcji

kolokacji). Jednak na początkowym etapie prac można dokonać szacunko-

wych obliczeń tego parametru poprzez np. porównanie list frekwencyjnych

tekstów ogólnych, popularnonaukowych oraz wąskospecjalistycznych, które z kolei mogą rzutować na dalszą analizę tych tekstów. Lista frekwen-

cyjna opracowana na podstawie reprezentatywnego korpusu tekstów

specjalistycznych może stanowić swoistą matrycę porównawczą dla

dalszych badań kwantytatywnych kolejnych zestawów tekstów.

3.2.2.

Listy frekwencyjne umożliwiają określenie zakresu tematycznego

zebranego korpusu (lub pojedynczego tekstu). Ponadto w połączeniu

z funkcją dystrybucji (zob. 3.4.3.) ułatwiają właściwe dobranie tekstów do

rozbudowywanego korpusu, dobór tematycznie spójnych materiałów

(tekstów) dydaktycznych i in. Tabela 2 przedstawia porównanie 10 pierwszych terminów pojawiających się w dwóch porównywalnych

wielkością korpusach, które uwidaczniają tematykę zbioru tekstów.

KORPUS 1 KORPUS 2

Nr Termin Nr Termin

1. mass 1. field

2. solar 2. boundary

3. Saturn 3. sound

4. field 4. energy

5. star 5. time

6. planet 6. frequency

7. magnetic 7. acoustic

8. energy 8. noise

9. stars 9. diffraction

10. system 10. wave

Korpus tekstów z zakresu

astronomii

Korpus tekstów z zakresu

akustyki

- 39 -

3.2.3.

Uszeregowanie listy frekwencyjnej w porządku alfabetycznym (lub

a tergo) umożliwia odnalezienie potencjalnych serii terminologicznych,

a na jej podstawie wyekscerpowanie terminoelementów konkretnego

zestawu tekstów. Dzięki jednoczesnemu ukazaniu frekwencji funcja ta staje

się niezastąpionym narzędziem przy ustalaniu klucza terminologicznego

danego korpusu, będącego ważnym elementem pracy terminologów

stanowiącym istotę tworzenia słowników asocjacyjnych. Poniżej zamiesz-

czono materiał ilustrujący serie terminologiczne pojawiające się na listach

frekwencyjnych uszeregowanych alfabetycznie oraz a tergo (Ryc. 5 oraz 6).

3.2.4.

Jak wspomniano, większość jednostek o najwyższej frekwencji

(Ryc. 2) to wyrazy gramatyczne, podstawowe łączniki zdań oraz przyimki.

Kolejne pozycje na liście to czasowniki modalne, posiłkowe oraz zaimki

wskazujące. Dane z listy frekwencyjnej mogą więc być podstawą ustalania

kolejności nauczanych treści w zakresie dydaktyki gramatyki języka obcego

(oraz specjalistycznego) oraz w zakresie dydaktyki leksyki (w tym spec-

jalnej), której kolejność nauczania ma istotne znaczenie z perspektywy

tworzenia nowego systemu pojęciowego w umyśle.

Ryc. 6 Lista frekwencyjna uszeregowana

a tergo. Seria terminologiczna: R+logy. Program AntConc 3.2.1.

Ryc. 5 Lista frekwencyjna uszeregowa-

na alfabetycznie. Seria terminologiczna: exo+R. Program AntConc 3.2.1.

- 40 -

3.3.

Wiele programów umożliwia odnajdywanie kolokacji (bezpośred-

nich lewo- i prawostronnych połączeń wyrazowych (w językoznawstwie

korpusowym: powtarzających się wzorów występowania słów w swoim

sąsiedztwie [Waliński 2005: 8]) o określonej przez użytkowania liczbie

jednostek leksykalnych w szeregu) dla danego zapytania (Ryc. 7) oraz daje

możliwość określenia częstości ich występowania z podziałem na konteksty

lewo- i prawostronne (Ryc. 8 i 9). Niektóre programy umożliwiają odnale-

zienie i uszeregowanie wg częstości wszystkich połączeń wyrazowych

o określonej liczbie jednostek leksykalnych (funkcja N-gram; Ryc.10).

Ryc. 8 Przykładowa lista jednostek wchodzących w kolokacje z zapytaniem star. „Długość

kolokacji” 2L – 2R (dwie jednostki na lewo- i dwie jednostki na prawo od wyrazu-zapytania. Program MonoConc Pro 2.2.

Ryc. 7 Przykładowa lista kolokacji dla zapytania star. Funkcja Word Clusters. Liczba jednostek leksykalnych w kolokacji: 2. Program AntConc 3.2.1.

Kolokacje uszeregowane wg częstości

Okno zapytania

„Długość” kolokacji =

liczba kolokujących jednostek leksykalnych

- 41 -

Ryc. 10 Przykładowa lista kolokacji występujących w korpusie. Funkcja-algorytm n-gram. Liczba kolokujących jednostek leksykalnych: od 2 do 3. Program AntConc 3.2.1.

Kolokacje występujące

w całym korpusie (funkcja n-gram).

„Długość” kolokacji: od 2 do 3

jednostek leksykalnych

Ryc. 9 Przykładowa lista jednostek wchodzących w kolokacje z zapytaniem star. „Długość”

kolokacji 1L – 1R (pierwsza jednostka na lewo- i pierwsza jednostka na prawo od wyrazu-zapytania). Funkcja Collocates. Program AntConc 3.2.1.

Jednostki wchodzące

w kolokacje z wyrazem star (wg częstości)

Minimalna liczba wystąpień

Rozpatrywany kontekst

(„długość kolokacji”) dla kolokacji: 1L-1R.

- 42 -

3.3.1

Nietrudno wyobrazić sobie możliwości zastosowania funkcji koloka-

cji w terminologii, terminografii czy tłumaczeniu. W pierwszej kolejności

wykazy takie mogą służyć odnalezieniu wielowyrazowych jednostek

terminologicznych (funkcja n-gram). Dzięki możliwości ograniczenia ciągu

można wyszukiwać i opisywać w kategoriach częstości jednostki termino-

logiczne o określonej liczbie elementów składowych (np. terminy

5-wyrazowe). Ponadto wykazy kolokacji (i kolokatów) dla określonego

wyrazu-terminu stanowią podstawowe narzędzie przy budowie słowników

w układzie gniazdowym, a w kontekście terminologii oraz terminografii mogą ujawniać łączliwość terminów z innymi terminami i wyrazami języka

ogólnego, co jest nie bez znaczenia wobec braku na rynku terminologicznych

słowników kolokacji [zob. Łukasik 2007; Michta – w niniejszym tomie].

3.4.

Konkordancje to zbiory przykładów użycia danego wyrazu (zapy-

tania) w jego bezpośrednich lewo- i prawostronnych otoczeniach teksto-

wych (kontekstach = KWIC = ang. Key-Word-In-Context) w całym

korpusie. Jak wspomniano powyżej, programy do wyświetlania konkordan-

cji są bardzo często modułami wielofunkcyjnych programów do obróbki

danych korpusowych. Ryc. 11 ilustruje przykładową konkordancję dla terminu star. Program MonoConc Pro w wersji 2.2. wyświetla niejako

„przy okazji” najczęstsze kolokacje z szukanym wyrazem (tu: kolokacje

zostały podkreślone). Funkcja ta w prezentowanym programie łączy więc w

sobie moduł konkordancyjny z analizą statystyczną kolokacji. Ponadto

konteksty lewo- czy prawostronne można porządkować alfabetycznie (wg

kolejnych lewo- lub prawostronnych miejsc w ciągu – zob. Ryc. 12).

Ryc. 11 Przykładowa konkordancja dla wyrazu star. Podkreślone wyrazy to najczęstsze

kolokacje. „Długosć kolokacji”: 2-L / 2-R. Program MonoConc Pro 2.2.

- 43 -

3.4.1. Dzięki konkordancjom możliwe jest badanie wyrazów w związkach

syntagmatycznych oraz, przy zastosowaniu stałych ram, w związkach

paradygmatycznych. W pracy terminologa, terminografa i tłumacza

umożliwia odszukanie kontekstów (na potrzeby np. tłumaczenia przy

poszukiwaniu wzorca składniowego w języku docelowym), przykładowych

zdań (na potrzeby np. słownika kontekstowego), definicji,

a w przypadku konkordancji dwujęzycznych stosowanych w korpusach

paralelnych – pozwala odnaleźć odpowiedniki i konteksty w dwóch języ-

kach, umożliwiając tym samym korpusowe badania konfrontatywne.

Poniżej przedstawiono przykładowe wykorzystanie omawianej funkcji

w pracy terminologia/terminografa.

3.4.2.

Obligatoryjnym elementem mikrostruktury branżowych słowników

terminologicznych, tworzonych wg obowiązujących zasad pracy termino-

graficznej, jest obecność definicji. „Klasyczne” rodzaje definicji, podające

najbliższe pojęcie nadrzędne, a następnie cechę (cechy) wyróżniające

(Definito fit per genus proximum et differentiam specificam), zawierają

w swojej budowie zazwyczaj tzw. spójki (spójniki) definicyjne, czyli

wyrażenia, których celem jest wykazanie równości między definiendum

(tego co ma być zdefiniowane) a definiensem (wyrażeniem/członem

definiującym). Znajomość tych wyrażeń (np. „jest to”; „to”; „znaczy tyle,

co”, „to tyle co”; ang. An X is a … // Xs are … oraz …is called an X)

Ryc. 12 Przykładowa konkordancja dla wyrazu star z uporządkowanym alfabetycznie

kontekstem lewostronnym 1-L (pierwszy wyraz po lewej stronie od wyrazu-zapytania). Program MonoConc Pro 2.2.

- 44 -

umożliwia odnalezienie potencjalnych definicji w dowolnym korpusie

tekstów specjalistycznych. Narzędziem wspomagającym tego typu pracę

jest konkordancja, dzięki której możliwe staje się dotarcie do istotnych

charakterystyk definiowanego pojęcia. Ryc. 13 przedstawia konkordancję

ukazującą potencjalne definicje (charakterystyki) pojęcia z dziedziny

kosmologii – ciemnej energii, ang. dark energy.

3.4.3.

Z funkcją konkordancji związana jest funkcja dystrybucji (w pro-

gramie AntConc: Concordance plot), czyli częstości i miejsca występo-

wania danego wyrazu-zapytania w poszczególnych tekstach (plikach)

poddanego analizie korpusu tekstowego. Umożliwia ona odnalezienie

tekstów zgodnych tematycznie z danym pojęciem, co nabiera szczególne-

go znaczenia w procesie rozbudowy własnego, dziedzinowego korpusu tekstowego. Poniższy przykład (Ryc. 14) ilustruje możliwość wykorzy-

stania tej funkcji. Dla terminu-zapytania black hole program odnalazł 45

linii konkordancyjnych, z czego 34 pochodzą z pliku o nazwie

S_07012005_76_80.txt o objętości 16908 znaków. Plik taki zostałby

z pewnością włączony do angielskojęzycznego, wąskospecjalistycznego

korpusu tekstów z dziedziny obiektów astronomicznych zwanych

czarnymi dziurami.

Ryc. 13 Przykładowa konkordancja przedstawiającą definicję pojęcia (charakterystyki obiektu) dla zapytania dark energy. Program AntConc 3.2.1.

- 45 -

4. Współczesne podejście korpusowe niewątpliwie zmieniło charakter

pracy językoznawców oraz specjalistów w różnych dziedzinach lingwistyki

stosowanej. Z warsztatu zniknęły kartoteki robocze pełne papierowych

fiszek, które zastąpiono komputerami oraz elektronicznymi bazami danych.

Dostarczyło ono również metod badań ukierunkowanych na obiektywizm,

niemogących zastąpić człowiekaw procesie introspekcji, lecz w ogromnej

mierze przyczyniających się do zautomatyzowania pewnych czynności,

skracając czas ich wykonywania nawet do kilku sekund. Metody lingwisty-

ki korpusowej stały się więc komplementarnym narzędziem w formułowa-

niu sądów o języku.

W niniejszym artykule przedstawiono tylko niektóre z możliwych

funkcji dwóch programów do obróbki danych korpusowych. W następnym

artykule omówione zostaną kolejne funkcje tego typu oprogramowania.

Ryc. 14 Przykładowa lista dystrybucji dla terminu-zapytania black hole w plikach korpusu tekstów astronomicznych. Program AntConc 3.2.1.

Dla zapytania black hole

program wyświetlił 45 linii

z kontekstami.

Termin black hole najczęściej

pojawił się w tekście zapisanym

w pliku S_07012005_76_80.txt.

- 46 -

Bibliografia:

AntConc, wersja 3.2.1., autor programu: Laurence Anthony, dostępny

nieodpłatnie na stronie domowej autora: mmmmmmmmmmm

<http://www.antlab.sci.waseda.ac.jp/>.

Bandler R., 1985, Using Your Brain for a Change, Moab: Real People Press.

Bowker L, Pearson J., 2002, Working with Specialized Language.

A practical guide to Using corpora, London: Routledge.

Burkhanov I., 1998, Lexicography. A Dictionary of Basic Terminology,

Rzeszów: Wydawnictwo Wyższej Szkoły Pedagogicznej. Grucza S., 2007, O konieczności tworzenia korpusów tekstów specjali-

stycznych, [w:] S. Grucza et al. [red.], W kręgu teorii i praktyki lingwi-

stycznej, Warszawa: WUW, s. 103-122.

Hacken T. P., 2001, Has There Been a revolution in Machine Translation,

„Machine Translation”, Vol. 16, Dordrecht: Kluwer Academic

Publishers, s. 1-19.

Hutchins J., 2005, Example-based machine translation: a review and

commentary, „Machine Translation”, Vol. 19, Dordrecht: Kluwer Aca-

demic Publishers, s. 197-211.

Kay M., 1997, The Proper Place of Men and Machines in Language

Translation, „Machine Translation”, Vol. 12, Dordrecht: Kluwer Academic Publishers, s. 3-23.

Kuratczyk M., 2007, Nowe narzędzia w leksykografii dwujęzycznej

(rosyjsko-polskiej i polsko-rozyjskiej), [w:] S. Grucza et al. [red.],

W kręgu teorii i praktyki lingwistycznej, Warszawa: WUW, s. 197-211.

Lukszyn J. [red.], 2005, Języki specjalistyczne. Słownik terminologii

przedmiotowej, Warszawa: KJS.

Łukasik M., 2007, Angielsko-polskie i polsko-angielskie słowniki

terminologiczne (1990-2005) – analiza kwantytatywna, [w:] M. Kornac-

ka [red.], Języki Specjalistyczne 7. Teksty specjalistyczne jako nośniki

wiedzy fachowej, Warszawa: KJS, s. 163-176.

McEnery T. [et al.], 2006, Corpus-Based Language Studies. An advanced resource book, London-New York: Routledge.

MonoConc Pro, wersja 2.2., autor programu: Michael Barlow, program

dostępny za opłatą. Na podanej poniżej stronie internetowej znajduje się

wersja demonstracyjna programu: <http://www.athel.com/mono.html>.

Piotrowski T., 2004, Komputerowe korpusy tekstowe polszczyzny, ze strony

domowej autora:

<http://www.tadeuszpiotrowski.neostrada.pl/krak2004.pdf>, data dostę-

pu: 20 sierpnia 2007.

Revell J., Norman S., 1997, Handling Over: NLP based activities for language

learning, London: Saffire Press.

Revell J., Norman S., 1999, In Your Hands: NLP in ELT, London:

Saffire Press.

- 47 -

Richards J.C., 1996, Longman Dictionary of Language Teaching

& Applied Lingusistics, Harlow: Longman.

Sinclair J., 1996, EAGLES: Preliminary recommendations on Corpus

Typology. EAG-TCWG-CTYP/P. Pisa: ILC-CNR.

SJP PWN – Słownik Języka Polskiego PWN [wersja online]:

<http://sjp.pwn.pl>, data dostępu: 20 września 2007.

Stubbs M., 2004, Language Corpora, [w:] A. Davies, C. Elder [red.],

The handbook of Applied Linguistics, Malden-Oxford-Carlton: Blac-

kwell Publishing.

Young S., Bloothooft G., 1997, Corpus-based Methods in Language and speech Processing, Dordrecht: Kluwer Academic Publishers.

Waliński J., 2005, Typologia korpusów oraz warsztat informatyczny

lingwistyki korpusowej, [w:] B. Lewandowska-Tomaszczyk [red.],

Podstawy językoznawstwa korpusowego, Łódź: Wydawnictwo UŁ;

wersja elektroniczna:mmmmmmmmmmmmmmmmmmmmmmmm

<http://www.filolog.uni.lodz.pl/elise/emodule/files/Typologia_korpusow.doc>

data dostępu: 20 września 2007.

Wu D., 2005, MT model space: statistical versus compositional versus

exxample-based machine translation, „Machine Translation”, Vol. 19,

Dordrecht: Kluwer Academic Publishers, s. 213-227.

Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów...

Documents

Transcript of Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów...