Створення спеціального корпусу медичних текстів

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ

НУ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»

ІНСТИТУТ КОМП’ЮТЕРНИХ НАУК ТА

ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ

КАФЕДРИ ПРИКЛАДНОЇ ЛІНГВІСТИКИ

Створення спеціального корпусу

медичних текстів

Виконала:

студентка групи ФЛ-43

Бичик Катерина

Прийняв:

доцент Кульчицький І.М.

1

Львів - 2013

Зміст

Вступ

1.Теоретична частина.

1.1 Корпус як пошукова система

1.2 Способи використання корпусів

1.3 Значення ТЕІ та нормативи ТЕІ

2.Практична частина

3.Додатки

3.1 Додаток 1

Використана література

2

Вступ

У сучасній лінгвістиці створюють і використовують

корпуси текстів (КТ) для вирішення найрізноманітніших

завдань: від дослідження морфології та лексичного

значення слів до лінгвістичної експертизи тексту і

метафор. Проте розвиток КТ окремих авторів перебуває на

початковій стадії. Твори конкретних письменників в

комп’ютерному варіанті існують швидше як електронні

бібліотеки (Бібліотека української літератури, The

online books page («Онлайнова книжкова сторінка»).

Така форма представлення робить легшим доступ до

текстів, уможливлює створення частотних списків

словоформ, дає можливість знаходити конкретні слова,

словосполуки чи фразеологізми. Але вона не може

замінити КТ як “машиночитане, стандартно організоване

зібрання репрезентативних для певної мови, діалекту або

іншої підмножин мови писемних або усних текстів,

призначених для лінгвістичного аналізу й опису,3

відібраних і впорядкованих згідно з експліцитними

екстра- та інтралінгвальними критеріями”. “Довільне

зібрання електронних текстів не можна вважати корпусом

у термінах корпусного мовознавства, якщо таке зібрання

не має певних ознак, а саме: репрезентативності,

збалансованості, автентичності, комп’ютерної підтримки,

документованості та стандартності” .Як правило, у КТ

розрізняють представлення позамовної інформації

(зовнішнє анотування: дані про автора (стать, вік,

освіта тощо) та твір (час написання, виходу друком,

редакцію тощо)) та внутрішньомовної інформації

(внутрішнє анотування: морфологічні, лексико-

семантичні, синтаксичні дані). Таким чином, КТ- це

необхідне джерело для сучасних академічних видань і

перевидань повного зібрання творів письменника, для

укладання словника мови письменника, для порівняння

різних (у т. ч. прижиттєвих) варіантів того самого

твору і т. д.

Теоретична частина

1.1 Корпус як пошукова система

Корпусна лінгвістика - розділ комп'ютерної

лінгвістики, що займається розробкою загальних

принципів побудови та використання лінгвістичних4

корпусів (корпусів текстів) із застосуванням

комп'ютерних технологій. Під лінгвістичним або мовним

корпусом текстів розуміють великий, представлений в

машинному вигляді, уніфікований, структурований,

розмічений, філологічно компетентний масив мовних

даних, призначений для вирішення конкретних

лінгвістичних завдань. В даний час існує безліч

визначень поняття «корпус».

За визначенням Е. Фінегана, корпус - це

репрезентативне зібрання текстів, що містить інформацію

про ситуацію про текст, автора, адресата або аудиторію.

Вікіпедія ж характеризує корпуси як великі і

структуровані набори текстів (тепер звичайно в

електронному вигляді), які використовують для

статистичного аналізу та перевірки гіпотез і теорій або

обгрунтування мовних правил. Т. МакЕнері і Е. Вілсон

пояснюють, що корпус - це зібрання мовних фрагментів,

відібраних згідно з чіткими мовними критеріями.

У наведених визначеннях підкреслюють основні риси

сучасного текстового корпусу - мета («логічна ідея»),

репрезентативність як результат особливої ??процедури

відбору, наявність металінгвістичної інформації.

Доцільність створення і зміст використання корпусів

визначається такими передумовами:

5

1) досить великий (репрезентативний) обсяг корпусу

гарантує типовість даних і забезпечує повноту

представлення всього спектру мовних явищ;

2) дані різного типу знаходяться в корпусі у своїй

природній контекстної формі, що створює можливість їх

всебічного та об'єктивного вивчення;

3) одного разу створений і підготовлений масив даних

можна використовувати декілька разів, різними

дослідниками і в різних цілях.

У поняття «корпус текстів» входить також система

управління текстовими та лінгвістичними даними, яку

останнім часом найчастіше називають корпусним

менеджером (або корпус-менеджером) (англ. corpus

manager). Це спеціалізована пошукова система, що

включає програмні засоби для пошуку даних в корпусі,

отримання статистичної інформації та надання

користувачу результатів у зручній формі.

Пошук в корпусі дозволяє по будь-якому слову

побудувати конкорданс - список всіх вживань даного

слова в контексті з посиланнями на джерело. Корпуси

можуть використовуватися для отримання різноманітних

довідок і статистичних даних про мовних і мовленнєвих

одиницях. Зокрема, на основі корпусів можна отримати

дані про частоту словоформ, лексем, граматичних6

категорій, простежити зміну частот і контекстів в різні

періоди часу, отримати дані про спільну зустрічальності

лексичних одиниць і т.д. Представницький масив мовних

даних за певний період дозволяє вивчати динаміку

процесів зміни лексичного складу мови, проводити аналіз

лексико-граматичних характеристик у різних жанрах і у

різних авторів. Корпуси служать не лише інструментом,

але джерелом багатоаспектних лексикографічних робіт з

підготовки різноманітних історичних і сучасних

словників. Дані корпусів можуть бути використані для

побудови та уточнення граматик і в цілях навчання мови.

Сьогодні корпусна лінгвістика - це відносно новий

підхід у лінгвістиці, який має справу з вивченням

використання мови в «реальному житті» за допомогою

комп'ютерів і електронних корпусів. Корпусні

лінгвістика має, принаймні, дві риси, що дають їй

підставу претендувати на становище самостійної

дисципліни: 1) характер словесного матеріалу; 2)

специфіка інструментарію.

Е. Фінеган визначає корпусну лінгвістику як

діяльність, що вимагають для складання та використання

корпусу, спрямовану на дослідження природнього вживання

мови. У цьому визначенні підкреслюють творчий аспект

корпусної лінгвістики.

7

Існує проблема, пов'язана з термінологією корпусної

лінгвістики в російській мові, яку поки не виявили

через низку причин: її відносно недавнє походження і її

зародження в США і Великобританії зумовили той факт, що

термінологія продовжує складатися в надрах англійської

мови. В цілому, російські терміни ЁC це запозичення

англійських термінів. Так, російське слово «корпус»

стало багатозначним задовго до своєї появи в якості

терміна корпусної лінгвістики.

1.2 Способи використання корпусів

Емпірична підтримка: Багато лінгвістів

використовують корпус як «банк прикладів», тобто

намагаються знайти емпіричну підтримку для своїх

гіпотез, закономірностей і правил, над якими вони

працюють. Підхід корпусної лінгвістики забезпечує

репрезентативність і збалансованість мовного матеріалу,

а також пошуковий інструмент, який зазвичай дає

можливість гарної вибірки в корпусі.

Інформація по частотності: Корпуси також надають

інформацію по частотності для слів, фраз і конструкцій,

яка може бути використана для кількісних досліджень.

Кількісні дослідження використовуються в багатьох

сферах теоретичної та комп'ютерної лінгвістики. Вони

показують подібності та відмінності між різними групами

8

мовців або між різними типами текстів, забезпечують

дані про частотність для психолінгвістичних досліджень

тощо.

Метаінформація: Окрім лінгвістичного контексту, корпус

надає екстралінгвістичну інформацію, або

метаінформацію, за такими параметрами, як вік або стать

мовця і жанр тексту.

1.3 Значення ТЕІ

Один із методів подання лінгвального ресурсу в IT-

середовищі є корпусний метод, який передбачає

організацію реального мовного матеріалу з наступним

його кодуванням на рівні структури тексту і

граматичної, лексичної, дискурсної тощо семантики

конститутивних одиниць тексту, тобто побудови корпусу

текстів природної мови як певної лінгвістичної моделі

організації природномовного матеріалу для лінгвістичних

досліджень і програмного застосування.

Базовим, вихідним стандартом, тут є SGML (Standard

Generalized Markup Language) як першостандарт та

документи, які збудовані на принципі застосування

концепції описової розмітки SGML, TEI (Text Encoding

Initiative) і CES (Corpus Encoding Standard), створені

спеціально для кодування корпусних ресурсів незалежно

від мови текстів, які входять до корпусу [1, 2].

9

Вибираючи між форматом ТЕІ та CES кодування

первинних даних, схиляємося до принципів ТЕІ, оскільки

цей стандарт забезпечує оптимальну збалансованість між

загальною моделлю подання природної мови і нескладною

реалізацією кодування. Крім того, що ТЕІ оперує великим

набором засобів для подання як лінгвальної, так і

металінгвальної інформації, його застосовують у

найбільших проектах побудови корпусів національного

типу, що дозволяє використовувати уже наявні засоби,

призначені для обробки корпусних даних, поданих у цьому

форматі.

Загалом TEI як ініціатива кодування тексту є

міжнародним і міждисциплінарним стандартом подання усіх

типів текстів, функціональних у бібліотечній, музейній,

видавничій справах, мовознавстві, шляхом використання

максимально виразної і мінімально застарілої схеми

кодування. Сумісність прийнятої схеми кодування

корпусу і загальної системи ТЕІ визначають принципи

кодування і обміну електронними текстами (Guidelines

for Electronic Text Encoding and Interchange). Схема

кодування ТЕІ використовує стандартну мову узагальненої

розмітки, тобто SGML.

Принципи ТЕІ розроблені для різних застосувань та

дисциплін і тому можуть обробляти не лише великі

10

текстові одиниці, але й бути максимально

узагальнювальними і гнучкими. Принципове призначення

ТЕІ ЁC забезпечити коректний обмін текстової

інформації, яка має електронний вигляд.

Передумовою розробки системи ТЕІ стало існування

великої кількості несумісних систем кодування і

розширення сфери застосування електронних текстів.

Базовими принципами системи визначено:

можливість досягати у тексті ефектів, необхідних

для наукових досліджень різного типу;

простота, чіткість і конкретність;

нескладність для використання без спеціалізованого

програмного забезпечення;

можливість точного визначення та ефективного

програмного оброблення текстів;

можливість розширень, визначених користувачем;

Уперше принципи системи ТЕІ опубліковано у 1994

році. Впродовж 1990ЁC92 років з’явився ряд драфтів про

принципи ТЕІ: 1990, 1990, 1992 (P 2) 1990, а з 1994 по

2002 рік їх опубліковали як стандарти кодування і

обміну електронними текстами (Guidelines for Electronic

Text Encoding and Interchange

11

Першим кроком застосування стала електронна

лексична картотека Інституту української мови НАНУ.

Виходячи із концепції ТЕІ, кодування первинних

даних повинно мати структурований характер і

передбачатиме кодування :

1) глобальної структури первинних даних;

2) типографської розмітки і редакторських правок;

3) одиниць рівня абзацу;

4) одиниць рівня речення.

Зауважимо, що схема кодування списку ТЕІ не

дозволяє одному і тому самому спискові використовувати

різні стилі кодування одночасно. Але довільний список

може мати як завгодно глибоко вкладену структуру.

11.5.1 Вільний простір

Автор або переписувач може залишати вільний простір

для слова, або першої великої букви, та через певні

причини слово чи велика літера не вписуються і вільний

простір залишається порожнім. Присутність значного

вільного місця в тексті позначають елементом <space> .

<space> вказує на місце розташування вільного місця в

скопійованому тексті.

12

@resp (responsible party) вказує на особу,

відповідальну за виявлення і вимір вільного простору.

Слід зазначити, що даний елемент не використовують

для позначення простору між словами або чогось схожого.

У лінії 694 “Прологу дружини Бата” Чосера в рукописі

Холькхама автор залишив вільний простір для слова, де в

інших рукописах написано preestes:

By god if wommen had writen storyes As <space

quantity="7" unit="chars"/> han within her oratoryes

Елемент <supplied> , про який сказано в

попередньому розділі, можна використовуватися для того,

щоб вказати на імовірний пропуск в тексті:

By god if wommen had writen storyes As <supplied

reason="space" resp="#ETD"

source="#Hg">preestes</supplied> han within her

oratoryes

Тут присутність вільного простору усередині

рукопису вказують у значенні атрибуту причини. Джерело

тексту вказують у значенні атрибуту джерела, як в

рукописі Hengwrt. Переписувач, відповідальних за

спорядження тексту - це ES.

11.5.2 Лінії

13

Одна з найпоширеніших форм модифікації в письмових

документах будь-якого виду ЎЄ це наявність ліній під,

поруч, безпосередньо у тексті. Ці лінії можуть бути

різних типів: вони можуть бути суцільними, пунктирними

чи точковими, подвійними чи потрійними, хвилястими чи

прямими, або комбінаціями цих та інших видів. Лінії

можуть використовувати для наголошення, або для

позначення іноземного чи спеціального терміна, чи, щоб

позначити цитату чи заголовок, тощо. Для цього

використовують елементи <emph>, <foreign>, <term>,

<mentioned> або <title>. Там, де лінія виконує

паратекстуальну функцію, більш доцільм є елемент

<metamark>. Часто, вчений може вирішити, що лінія

використовується для видалення тексту, тоді, щоб це

позначити, використовують елемент <del>. У всіх цих

випадках, атрибут розриву використовують для опису

додаткової інформації про стиль лінії. Отже, видалення

Лоуренса, що представлене перекресленим my в автографі

Eloi, Eloi, lama sabaсhthani може бути закодоване:

For I hate this <del rend="strikethrough"

hand="#dhl">my</del> body, which is so dear to me

Проте, можуть бути й інші випадки, коли науковець

хоче лише відмітити наявність ліній в тексті, не

зазначуючи того, що означають лінії. У цих випадках

14

використовуюто елемент <hi> з атрибутом розриву, щоб

вказати стиль лінії. У рукописі листа Роберта Браунінга

Джорджу Мултон-Барре підкреслення фрази had obtained

all the leъ|ers to Mr Boyd може бути позначене таким

чином:

I have once ЎЄ by declaring I would prosecute by

law ЎЄ hindered a man's proceedings who <hi

rend="underline">had obtained all the letters to Mr

Boyd</hi>

Приклади, наведені вище, показують поширений

випадок, коли одне слово або фраза відзначені лінією,

коли немає сумнівів щодо того, де маркування

починається чи закінчується і воно не накладається на

марковані області тексту. Там, де є сумніви,

використовують елемент <certainty> щоб показати цей

сумнів. У прикладі Браунінга, наведеному вище

підкреслення, фактично починається на половині під who,

і ця невизначеність можна зазначети так:

I have once ЎЄ by declaring I would prosecute by law ЎЄ

hindered a man's proceedings who <hi xml:id="cstart1"

rend="underline">had obtained all the letters to Mr

Boyd</hi>



15

<certainty target="#cstart1" locus="start"

degree="0.70">

<desc>may begin with previous word</desc>

</certainty>

Якщо маркована область тексту перекривається іншими

областями тексту, наприклад перетин структурною

одиницею, потрібно використовувати один з механізмів

протяжності, наприклад, де задумана лінія, що вказує на

видалення, потрібно використовувати елемент <delSpan>.

Якщо потрібно просто розмаркувати уривок тексту в

умовах де це не можливо ввести в текст елементи <hi>,

можна використовувати елемент <span> з атрибутами

розриву чи типу, що вказують на стиль лінії маркування.

Багато ще належить зробити щоб з'ясувати обробку

інших текстових функцій відзначених лініями, що можуть

перекриватися чи вставлятися. Наприклад, в багатьох

рукописах центральної Англії (наприклад, збірки віршів

Ісуса і Дігбі), бічні панелі можуть вказувати на

метричну структуру: куплети можуть бути пов'язані в

пари, а пари, у свою чергу, - в строфи. Або, бічні

панелі можуть вказуватина наголошення, чи область

тексту з анотацією. У багатьох рукописах “Прологу

дружини Бата” Чосера лінії 655-8 позначені надписом nota

у круглих дужках.16

Такі особливості можуть бути записані за допомогою

елемента <note> , що містить опис рукопису в цьому

місці та визначається посиланням на візуальне

представлення (або факсиміле) в питанні. Наприклад, в

щойно наведеному прикладі Чосера, дехто, можливо,

захоче записати цю nota з рукопису Hengwrt у правому

полі, а не в одних великих дужках на 4 лінії, з двома

правими дужками у правому полі з двома парами ліній, що

перекриваються: перша і третя, друга і четверта.

Елемент <note> дозволяє нам занотувати, що автор написв

nota, але він не достатньо добре адаптований, щоб

показати, що nota вказує як на всі чотири лінії,так і на

дві пари ліній в чотирьох лініях. Елемент <metamark>,

описаний в розділі 11.3.4.2. Метамаркування вище, надає

більше можливостей для такого роду складних анотацій.

11.6 Верхні і нижні колонтитули, і т.ін.

Така інформація як номери сторінок, підписи, або

реєстрові слова записують в спеціалізованих елементах

<fw>. Не зважаючи на те,що назва походить від терміна

forme work (формальна робота), використовувані в описі

стародруків документів (“форма” використовується для

блокування рухомого типу), елемент <fw> можна

використовувати для таких особливостей будь-яких

документів, рукописних чи друкованих. Слід зазначити,

17

що цей елемент призначений для запису номеру сторінок і

т.д., якщо фактична присутність елемента в документі

кодується, тоді не обов'язково забезпечувати повну чи

точну його розбивку.

Інформація про розбивки на сторінки і т.д. можна

надавати використовуючи атрибути елементів <pb> або

<gb>, чи інші відповідні елементи <milestone>, як

показано в розділі 3.10. Система посилань. Оскільки ця

інформація зазвичай надається при кодуванні, то вона

може і не бути включена, якщо її текстуально немає у

вихідному кодуванні. У важких випадках варто

забезпечити як нормовану версію розбивки сторінок і

представлення реєстрових слів чи нумерації, особливо

коли це має велике значення при читанні чи для

визначення композиції.

<fw> (формальна робота) містить колонтитул (наприклад,

верхній і нижній колонтитули), реєстрове слово або

аналогічні матеріали, що з'являються на поточній

сторінці.

Елемент <fw> використовують для того, щоб

закодувати будь-яку з незмінних частин сторінкової

форми, такі як:

• колонтитули (які повторюватися чи змінюються на

кожній сторінці)18

• нижні колонтитули

• номери сторінок

• реєстрові слова

• інші матеріали, що повторюються на кожній сторінці,

які випадають з головного потоку тексту

Він не використовується для пояснення на полях,

анотації, чи текстових варіантів, які слід зазначити за

допомогою <gloss>, <note>, або текстово-критичних

тегів, що описані в розділі 12. Критичний апарат,

відповідно.

Наприклад:

<fw type="head" place="top-centre"> вірші. </ FW>

<fw type="pageNum" place="top-right"> 29 </ FW>

<fw type="sig" place="bot-centre"> E3 </ FW>

<fw type="catch" place="bot-right"> ХРАМ </ FW>

11.7 Зміни

Основна мета генетичного редагування ЎЄ визначення

"операції змін” або, більш загально, зміни. Редактор

може запропонувати певні зміни (видалення, додавання,

заміни, транспозиції і т.д.), щоб вказати, на те, що

одне чи кілька явищ передує чи наслідує інше, і також

19

вказати на те, що вони певним чином пов'язані,

наприклад, що одне є наслідком іншого. Вони також

можуть запропонувати згрупувати певні зміни, незалежно

від того, коли вони могли статися, базованих на інших

спільних характеристиках (наприклад, виправлення

фактичних помилок або змін, які включають пропозиції,

висловлені читачем). Для документації цього нам

потрібно:

• система щоб присвоїти явище до певної зміни

• сам спосіб характеристики зміни по відношенню до

інших змін.

Елемент <creation> (разом з описом заголовку TEI)

містить всю інформацію, що стосується походження чи

створення тексту. Він може містити елемент

<listChange>, який містить ряд елементів <change>, по

одному для кожної визначеної зміни:

<listChange> об'єднує ряд змін, пов'язаних або з

створенням вихідного тексту або з змінами закодованого

тексту. @ordered вказує чи порядок дочірніх елементів

<change> важливий

<change> документує зміну чи ряд змін, зроблених при

створенні вихідного документа, або під час перевірки

електронного файлу.

20

У наступному прикладі редактор визначив чотири

різні зміни:

<profileDesc>

<creation>

<listChange ordered="true">

<Change Xml:id="ST-1"> First stage, written in ink

</change>

<Change Xml:id="ST-2"> Second stage, with revisions

written in the author's hand using pencil

</change>

<change xml:id="ST-3">Fixation of the pencilled

revisions together with further revisions in the

author's hand using ink</change>

<change xml:id="ST-4">Additions in a different hand,

probably at a later stage</change>

</listChange>

</creation>

</profileDesc>

Елемент <listChange> вміщує впорядковані атрибути,

які може приймати значення true чи false (за

замовчуванням). Атрибут визначає, чи порядок дочірніх21

визначає порядок операцій змін, які вони документують.

У наведеному вище прикладі, редактор стверджував, що

чотири виділені етапи відсортовані хронологічно

відповідно до порядку елементів <change>. При

необхідності елементи <listChange> можна розприділяти

згідно ієрархії. Це може бути корисним в двох випадках.

По-перше, можна будувати гіпотези про перевірки крок за

кроком, починаючи з етапу меншого радіусу, члени якого,

безумовно, пов'язані між собою, а потім, при наступних

перевірках, угруповувати ці етапи, тим самим розширюючи

їхню протяжність.

<profileDesc>

<creation>

<listChange>

<change xml:id="o">An unrelated change

note</change>

<listChange xml:id="m">

<change xml:id="m1">Alterations on one manuscript

page, certainly

related</change>

<change xml:id="m2">Alterations on another

manuscript page, certainly

22

related</change>

</listChange>

<change xml:id="p">Another unrelated change

note</change>

</listChange>

</creation>

</profileDesc>

Вкладені елементи <listChange> використовують для

того, щоб вказати часткове впорядкування операцій змін.


<change xml:id="ST1">The first stage</change>

<listChange>



<change xml:id="ST-rev1">A revision of the first

stage</change>

<change xml:id="ST-rev2">Another revision of the

first stage</change>

</listChange>

23

<change xml:id="STX">The last stage</change>

</listChange>

На додаток до можливості впорядкування стадій

тексту стосовно один одного, елементи <change> можуть

нести ряд атрибутів з класу att.datable (period, when,

notBefore, notAъyer, from, і to), які дозволяють

датувати кожну стадію точно або неточно в міру

необхідності, таким же чином, як це можливо в елементі

TEI <date>.

<profileDesc>

<creation>

<date notAfter="1816-07-18"/>


<change xml:id="mod1" when="1816-07-16">The first

draft of

<title>Persuasion</title>, completed by the date

<date>July 16 1816</date> which is written after

the word <q>Finis</q> at <ref target="#pers-

30">page 30</ref>.</change>

<change xml:id="mod2" notBefore="1816-07-16">After

the <date>16th of July</date> Austen starts

revision of the two final chapters, by 24

rewriting the end and adding a new zone (<ref

target="#transp-1">pages 32-35</ref>) to be

inserted at

<ref target="#insertion-p1">page 19</ref>. This

stage is documented by the deletion of the

date (<date>July 16 1816</date>) at <ref

target="#pers-30">page 30</ref>, and the addition

of more text and of a new date (<date>July 18.

1816</date>) at <ref target="#pers-31">page 31</ref>

</change>

<change notBefore="1816-07-18">Before publication,

after <date>July 18th, 1816</date> chapters

10-11 were broken into three chapters, 10, 11, 12,

as witnessed by the print.</change>

</listChange>

</creation>

</profileDesc>

Кожен елемент <change>, крім оголошення окремих

змін у створенні документа, можуть також містити

посилання на інші анотації, що містяться в <teiHeader>

або в документі (як показано в попередньому прикладі).

Такі посилання, разом із змістом тексту, є чисто

документальні та не впливають на рівні тексту,25

пов'язані з будь-яким елементом. Сукупність компонентів

тексту з змінами завжди робиться чітко, або

використовуючи цільовий атрибут елементу <change>, щоб

вказати на один або більше елементів, або шляхом

виокремлення елементу або елементів, пов'язаних з

елементом <change> за допомогою атрибута зміни. Якщо

елемент <change> пов'язаний з деяким елементом, він

зв'язаний з усіма дочірніми елементами, якщо не вказано

інше, наприклад, нове значення атрибуту зміни.

У наступному простому прикладі, текст на одному

етапі звучить “Це - миша”, і на наступному “Це - хатня

миша”:

<line change="#firstStage">This is a

<add change="#secondStage">house</add> mouse.</line>

У цьому прикладі, однак, текст спочатку звучав “Це

- будинок”, а згодом “Це - миша”

<line change="#firstStage">This is a <mod type="subst"

change="#secondStage">

<del>house</del>

<add>mouse</add>

</mod>.</line>

26

Зазначимо, що в цьому випадку як видалення і

додавання пов'язані з другою стадією. Слово 'будинок',

оскільки воно було видалене на другій стадії, повинне

бути бути присутнім на першому етапі, в той час як

слово “миша” повинне було бути доданим під час другого

етапу.

Такі елементи як <add> і <del> та інші несуть

неявну семантику щодо порядку, в якому відбувалися

події при написанні документа: щось видалене записують

перед видаленням, щось додане зобов'язаний записують на

пізнішому етапі. Навіть коли використовують комбінацію

таких елементів, зазвичай можна зробити висновок щодо

хронології (див. далі 11.3.3.2. Використання елементів <gap>,

<del>, <damage>, <unclear> і <supplied> у комбінації). Явна

вказівка на стадію, до якої належить та чи інша зміна,

стає у пригоді коли зміни в документі потрібно

посортувати, наприклад в хронологічному порядку.

Тлумачення завдання зміни певного фрагмента тексту

базується на ряді неявних припущень та обмежень, що

мають ефект мінімізації кількості необхідних тегів.

Системи також досить гнучка підтримати явне розходження

між актами написання і зміни тексту, так як будь-який

з них може бути пов'язаний з зміною, описаною в

кодуванні. Наступний приклад показує кодування, в якому

27

один і той самий уривок транскрибується двічі, один раз

з документального точки зору, а інший ЎЄ з

текстуальної:

<profileDesc>

<creation> <listChange ordered="true">

<change target="#zone_1 #subst_3">First stage,

written in ink by a scribe</change>

<change target="#zone_2 #mod_1 #line_1 #line_2

#subst_1 #subst_2 #subst_4 #delSpan_1">Revised by

Goethe using pencil</change>

<change target="#redo_1 #redo_2 #redo_3 #subst_1

#subst_2 #delSpan_1 #add_1">Fixation of the revised

passages and further revisions by Goethe using

ink</change>

</listChange>

</creation>

</profileDesc>

<sourceDoc>

<surface>

<zone xml:id="zone_1">

<line xml:id="line_1">

28

<handShift new="#g_bl"/>

<retrace hand="#g_t" xml:id="redo_1">Nun</retrace>

</line>

<line>

<handShift new="#jo_t"/>Ihr wanstige Schuften mit

den Feuerbacken</line>

<line xml:id="line_2">

<handShift new="#g_bl"/>

<retrace hand="#g_t"

xml:id="redo_2">feist</retrace>

</line>

<line>Ihr glьht so recht vom Hцllen Schwefel

satt.</line> [...] </zone>

</surface>

</sourceDoc>

<text>

<body> <l n="11656">

<subst xml:id="subst_1">

<del>Ihr</del>

<add>Nun</add>29

</subst> wanstige Schuften mit den

Feuerbacken</l> <l n="11657">Ihr glьht so recht vom

Hцllen Schwefel <subst xml:id="subst_2">

<del>satt</del>

<add>feist</add>

</subst>.</l>

</body>

</text>

Документальна транскрипція охоплює процес запису, в

той час як текстова транскрипція підкреслює текстові

зміни. У кожному разі, зміна писемної діяльності,

пов'язана з особливістю в транскрибуванні чітко

вказана. З документальної точки зору, шляхом присвоєння

окремих модифікацій до певної зміни, ми описуємо процес

написання, тут вказується, який сегмент і коли був

написаний. З текстової точки зору, розмітка зосереджена

лише на існуванні змін в тексті і не дає ніякої явної

інформації про порядок написання.

11.8 Інші особливості первинних джерел, не охоплених в

цьому нормативі

Ми повторимо порада з початку роздалу, що ці

рекомендації не призначені для застосування у всіх

30

випадках транскрибування, з якими можуть стикнутися

вчені. Вони призначені скоріше в якості бази для

кодування найпоширеніших явищ, виявлених в ході

опрацювання першоджерела. Ці рекомендації не включають

кодування фізичного опису текстів: матеріали

передавача, спосіб запису, організацію передачі самих

матеріалів (такі як вимоги, сортування і т.д.),

авторські інструкції або письмова розмітки тощо,

оскільки вони залучені у ширше питання опису рукопису.

Модуль msdescription описаний в розділі 10. Опис рукописів.

11.9 Модуль для транскрипції першоджерел

Модуль, описаний в цьому розділі робить доступними

наступні компоненти:

Модуль: Транскрибування первинних джерел

• визначені елементи : addSpan am damage damageSpan

delSpan ex facsimile fw handNotes handShi line

listTranspose metamark mod redo restore retrace

sourceDoc space subst substJoin supplied surface

surfaceGrp surplus transpose undo zone

• визначені класи: att.coordinated att.global.change

att.global.facs

Вибір і комбінація модулів для формування схеми

TEI, описані в розділі 1.2. Визначення схеми TEI.

31

3.1 Додаток 1

У <у, прийменник> одної <один, числівник> молодої

<молодий, прикметний> людини <людина, іменник>

ствердили <створджувати, дієслово> докторі <доктор,

іменник> цю <цей, вказівний займенник> недугу <недуга,

іменник> міхуря <міхур, іменний> й <й, сполучник

сурядності> перли <перла, іменник> до <до, прийменник>

операції <операція, іменник>, але <але, сполучник

підрядності> вона <вона, займенник> почала <починати,

дієслово> природне <природний, прикметник> лікування32

<лікування, іменник>. Щодня <щодня, прислівник>

кладено <класти, дієслово> на <на, прийменник> недуже

<недужий, прикметник> місце <місце, іменник> кілька

<кілька, числівник> разів <раз, іменник> зволожену

<зволожений, діеприкметник> хустку <хустка, іменник>,

змочену <змочений, дієприкметник> у <у, прийменник>

відварі <відвар, іменник> сосонки <сосонка, іменник> й

<й, сполучник сурядності> покрито <покривати, дієслово>

вовняним <вовняний, прикметник> коцом <коц, іменник>.

Внутрішно <внутрішно, прислівник> давано <давати,

прислівник> три <три, числівник> рази <раз, іменник>

денно <денно, прислівник> мале <малий, прикметник>

горнятко <горнятко, іменник> чаю <ай, іменник> з <з,

обєднувальний сполучник> ялівцевих <ялівець, іменник>

ягід <ягода, іменник> і <і, сполучник сурядності>

сосонки <сосонка, іменник>. І <і, сполучник сурядності>

опарену <опарений, дієприкметник> теплу <теплий,

прикметник> сосонку <сосонка, іменник> кладено <класти,

дієслово> кілька <кілька, числівник> разів <раз,

іменник> на <на, прийменник> день <день, іменник> на

<на, прийменник> хоре <хорий, присметний> місце <місце,

іменник>, а <а, сполучник підрядності> по <по,

прислівник> пять <пять, числівник> тижнях <тиждень,

іменник> розпустився <розпускатися, дієслово> камінь

33

<камінь, іменник> і <і, сполучник сурядності> вийшов

<виходити, дієслово> кусничками <кусничок, іменник>.

Використана література:

1. Sperberg-McQueen C. M., Burnard L. Guidelines for

Electronic Text Encoding and Interchange. ЁC

http://www.hcu.ox.ac.uk/TEI/P4X/index.html, 2001.

2. Ide N. Corpus Encoding Standard. ЁC

http://lpl.univ.-aix.fr/projects/multext/CES, 2000.

3. Демськяа-Кульчицкая О.М., Перевозчикова О.Л.,

Сичкаренко В.А. Организация и ведение лексической

картотеки

украинского языка // Проблемы программирования. ЁC

2002. - ?1-2. ЁC С.512-516.

4. Перевозчикова О.Л. Сучасні інформаційні технології.

ЁC К.: Інститут економіки і права “КРОК”, 2000. ЁC 124

с.

5. Перевозчикова О.Л. Стандартизація і сертифікація

інформаційних технологій. ЁC К.: Університет економіки

і

права „КРОК”. ЁC 2003. ЁC 215 с.

34

Створення спеціального корпусу медичних текстів

Documents

Transcript of Створення спеціального корпусу медичних текстів