ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ...

10
Ш 0202—2400 Структурная ■ .......... и прикладная лингвистика

Transcript of ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ...

Ш 0202—2400

Структурная ■..........и прикладнаялингвистика

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА

СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА

Межвузовский сборник

В ы п у с к 2

ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА

1983

Печатается по постановлению Редакционно-издательского совета

Ленинградского университета

Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные во­просы семантики предложения, применения математических мето­дов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспе­чения автоматических систем обработки текста.

1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.

Сборник предназначен для филологов, специалистов по при­кладной и математической лингвистике.

Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богда­нов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Горо­децкий.

Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).

ИБ № 1462

Структурная и прикладная лингвистика

Межвузовский сборник

В ы п у с к 2

Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.

Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.

1593000000—933 С 076(02)—83 68-83 .

Издательство Ленинград- С) ского университета,

1983 г.

ш

В. Д. Бутороб

ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ ЛИНГВИСТИКЕ

При решении актуальных задач прикладной лингвистики, связанных с автоматической обработкой текстовой (речевой) информации, используются различные методы анализа языка, часто весьма специфичные, и в силу своей специфичности или ограниченности отвергаемые теоретической лингвистикой, а ча­ще всего вообще неизвестные в последней. Кроме того, в самой прикладной лингвистике статус этих методов недостаточно опре­делен. Во всяком случае среди лингвистов-прикладников в на­стоящее время весьма силен комплекс своеобразной «теоре­тической неполноценности», выражающийся в том, что либо частные методы автоматической обработки текстов, вполне успешно решающие конкретные задачи, обязательно подводятся их авторами под «прочную теоретическую базу» путем привязки этих методов к той или иной, чаще просто к самой модной научной концепции, либо эти частные методы выдаются за уни­версальные, претендующие на теоретическую значимость для описания естественного языка в целом.

Между тем значимость частных методов анализа языка в прикладной лингвистике достаточно велика сама по себе и легко может быть обоснована без привлечения блестящих и престиж­ных «теоретических доспехов».

Общепринятым является мнение, что теоретическую базу при­кладной лингвистике обеспечивает лингвистика структурная н математическая. Не отрицая этого в принципе, обратим внима- НИе на одно хорошо известное обстоятельство. До 50-х годов структурная лингвистика и примерно до 60-х годов математиче- ская лингвистика черпали свою научную проблематику и науч- ныг идеи в основном в «самих себе», поскольку современные спекты прикладной лингвистики в то время еше не были до- таточно актуальными. Методы анализа языка, разрабатывав*

в е в структурной и (на первых норах) математической линг- сгике, преследовали «глобальную» цель — описание естествен­но языка в целом как сложной самоорганизованной системы —

9*131

в полном соответствии с тезисом Ф. де Соссюра: «...единствен­ным и истинным объектом лингвистики является язык, рассмат­риваемый в самом себе и для себя».1

Рассматривая язык как семиотическую систему, теоретиче­ская лингвистика в центр исследований прежде всего ставила такие аспекты этой системы, как синтаксис (в широком смысле слова — в применении к различным уровням языковой струк­туры) и семантику (в довольно абстрактном виде — в плане со­отношения языка, мышления и действительности). Прагматика языка, признаваемая теоретически важным и необходимым аспектом при описании семиотической системы, практически оставалась за пределами исследований. Это и не удивительно, если учесть, что прагматика языка — это сфера использования языка. Здесь недостаточно рассматривать язык «в самом себе и для себя», здесь приходится рассматривать язык направленным «вовне», включенным в непосредственную практическую деятель­ность человека.

Современная прикладная лингвистика вплотную столкнулась е задачами, связанными с практическим использованием языка ’ как специфического инструмента человеческой деятельности в системах типа «человек — машина», когда привлекаются раз­личные технические устройства (ЭВМ, радио-, телесвязь и др.). Накопленный опыт решения таких задач показывает, что функ­ционирование языка, используемого даже в очень конкретных и ограниченных областях человеческой деятельности, невозможно описать и объяснить без удовлетворительного описания самой этой деятельности. Это особенно очевидно в задачах, где тре­буется знать ответ на вопрос, что такое понимание естествен­ного языка человеком.

Таким образом, из всех аспектов семиотики — синтаксиса, семантики и прагматики — в прикладной лингвистике приходится иметь дело прежде всего с прагматикой языка.

Действительно, постановка любой прикладной лингвистиче- I ской задачи начинается с рассмотрения конкретной прагмати- ; ческой языковой ситуации. Только такой анализ позволяет очертить множество необходимых в данной ситуации языковых | средств и правил их использования при решении человеком какой-либо конкретной задачи. Только такой анализ позволяет ' сформулировать требования и к результатам анализа языка, обеспечивающим решение поставленной задачи. Выполнение этих требований является основным критерием оценки любого метода, который будет применен для анализа языка. Здесь при­ходится сознательно принять прагматическую точку зрения. При- кладная лингвистика предъявляет к методам анализа языка не I абстрактное требование адекватности описания языка, которое верифицируется в основном лингвистической интроспекцией ис- ’

I С о с с ю р Ф. д е. Курс общей лингвистики. М., 1978.

следователя, а конкретное требование полезности (эффектив­ности) для решения конкретной лингвистической задачи, для до­стижения поставленной цели. Кроме этого, применяемые методы анализа языка должны быть в определенном смысле оптималь­ными, а именно — они должны обеспечивать анализ с точностью «не большей и не меньшей», чем требуется для решения прежде всего данной конкретной задачи.2 Это требование диктуется как самой задачей, так и внешними (нелингвистическими) ограни­чениями на условия ее решения (объем используемой памяти ЭВМ, скорость обработки языкового материала и др.).

Все эти факторы необходимо учитывать при оценке методов анализа языка, применяемых в прикладной лингвистике.

Поскольку использование естественного языка для обеспече­ния взаимодействия человека с различными техническими устройствами, обычно включающими ЭВМ, расширяется с каж­дым годом, программы обработки текстовой информации созда-' ются во многих организациях как с участием лингвистов, так и без их участия. Применяемые при этом методы обработки (чаще всего эта обработка сводится к анализу языковых дан­ных) настолько разнообразны, что полезно дать предваритель­ный их обзор, выделив некоторые существенные их свойства, прежде всего с лингвистической точки зрения, с точки зрения анализа языка. Можно надеяться, что выводы, которые могут быть сделаны из такого рассмотрения, окажутся полезными не только для прикладной лингвистики.

Для оценки различных методов анализа языка являются су­щественными следующие свойства:

а) у н и в е р с а л ь н о с т ь анализа (независимость от кон­кретного подъязыка, независимость от конкретной грамматики);

б) применяемая п р о ц е д у р а анализа (тривиальные методы1 «сравнения со словарем», последовательный или параллельный многоуровневый анализ, «прямой» семантический анализ, раз­личные стратегии синтаксического анализа — «сверху вниз», «снизу вверх» и др.);

в) г л у б и н а анализа (в зависимости от уровней языка, охватываемых анализом: от графического уровня до различной степени глубины семантического уровня);

г) п о л но т а анализа (методы частичного (локального) син­таксического анализа, например, распознавание структуры толь-1 ко именных групп, а не всего предложения, частичный семан­тический анализ, полный синтаксический и семантический1 анализ).

Методы, применяемые в прикладной лингвистике, могут быть охарактеризованы как п р и б л и ж е н н ы е . Это такие методы,'

2 Ср. требование «минимальности» к анализу естественного языка у Г В. Сенина ( С е н и н Г. В. Анализ естественного языка в диалоговой ин­формационно-логической системе (ДИЛОС). — В кн.: Семиотика и информа-’ тика, вып. 12 М., 1079).

133

которые обеспечивают анализ с точностью, достаточной для ре­шения конкретной задачи.

Эти методы являются обычно приближенными по всем пере­численным выше параметрам: по универсальности, по применяе­мым процедурам, по глубине и полноте анализа.

В то же время термин «приближенные методы» не противо­поставляется термину «точные методы». Методы являются при­ближенными с точки зрения требований теоретического лингви­стического анализа, но они должны быть строгими с матема­тической точки зрения. В противном случае они не применимы для автоматической обработки текста вообще.

В определенном смысле подходы к описанию языка в при­кладной лингвистике начинают противоречить сложившимся принципам функционального моделирования «языка в целом». Обычный подход к построению модели предполагает: фиксиро­вание фактов, требующих объяснения; выдвижение гипотез для объяснения фактов; реализацию гипотез в виде моделей, не только объясняющих исходные факты, но и предсказывающих новые, еще не наблюдавшиеся факты; экспериментальную про­верку модели.3

Если экспериментальная проверка устанавливает, что некото­рые факты языка «не охвачены» моделью, последняя допол­няется, «достраивается» в надежде, что когда-нибудь будет по­строена модель, адекватно описывающая «язык в целом» или «сходящаяся к языку». Этот глобальный подход в настоящее время вызывает большие сомнения. Не исключено, что подобная глобальная модель для языка никогда не будет построена.4

На практике, в прикладной лингвистике, особенно заметно, что «язык в целом» не представляет собой целого, «единого организма». Здесь мы сталкиваемся чаще всего с достаточно обособленными и ограниченными языковыми подсистемами. И хотя принято всячески подчеркивать универсальность есте­ственного языка, никто не установил, чем эта универсальность обеспечивается — наличием универсальных закономерностей, вы­полняющихся во всех языковых подсистемах (это с оговорками можно допустить для низших уровней языка — фонетического, морфологического, но уже сомнительно для синтаксиса и тем более — для семантики), или эта универсальность состоит в на­личии особых и не вскрытых пока языковых механизмов, обес­печивающих хорошее взаимодействие между этими обособлен­ными языковыми подсистемами. Структура же самих подсистем может быть весьма специфична и разнообразна, в каждой из них, выполняющей определенную функцию в деятельности чело-

3 А п р е с я н Ю. Д. Идеи и методы современной структурной лингви­стики. М., 1966.

4 Ц е й т и а Г. С. Черты естественного языка и формальной модели. — Б кн.: Вопросы кибернетики. Общение с ЭВМ на естественном языке. М., 1982.

134

века, используются специфические закономерности, наилучшим образом обеспечивающие именно эти функции.

Разработка конкретных частных моделей для отдельных язы- ■ ковых подсистем — это практика современной прикладной линг­вистики. В методологическом плане такой подход характери­зуется по крайней мере следующим. «Модель освобождается от бремени неполноценности. Никакая часть модели не претендует на отражение языка целиком и поэтому не требует оговорок, что она лишь приблизительно отвечает своему назначению. Модель может быть далека от охвата всех фактов языка и быть тем не менее вполне компетентной в пределах своего функциониро­вания, аналогично тому, как мы не отказываем в компетент­ности живому носителю языка, хотя ему заведомо незнакома значительная часть словарного запаса и, возможно, даже неко­торые из грамматических средств. Разрабатывая модель языка для конкретного применения, мы не должны ждать завершения разработки общей формальной системы, а можем приступать к разработке частных подсистем; если в процессе расширения модели окажется удобным заменить одну из уже созданных подсистем, есть возможность провести эту замену безболез­ненно».5

Заметим, что при моделировании ограниченной языковой подсистемы не исключено построение достаточно полного и точ­ного ее описания, так что термин «приближенные методы» в данном случае будет применим с учетом, что не рассматри­вается «язык в целом».

В прикладной лингвистике существует много задач, для ко­торых использование глобальных моделей языка (напр., кон­текстно-свободная модель), разрабатываемых в структурной лингвистике, не является рациональным, поскольку часто ре­шить задачу можно более простыми и эффективными методами (достаточен приближенный анализ).

С другой стороны, мы сталкиваемся с задачами настолько сложными, что становится очевидной недостаточность самих гло­бальных моделей (например, полный, универсальный синтакси­ческий анализ в машинном переводе, задача автоматического распознавания слитной речи и др.).

Рассмотрим некоторые методы анализа языка с точки зре­ния указанных выше свойств: универсальности, применяемой процедуры анализа, его глубины и полноты.

Практически все известные методы, реально используемые для решения конкретных прикладных задач, не являются универ­сальными. Универсальные алгоритмы синтаксического анализа (алгоритм Кока-Янгера, алгоритм Эрли) не могут обеспечить

даже для ограниченного естественного языка обработку данных в реальном времени и потому практически не применимы.

5 Там же.

135

С точки зрения используемой процедуры анализа, существуют методы лингвистически тривиальные, но они применяются, по­скольку обеспечивают решение ограниченных задач. К таким «неинтересным» лингвистически методам следует отнести все случаи решения задач путем простого «сравнения со слова­рем»,6 когда распознаваемые элементы языка задаются списком (список может включать элементы любого уровня языка — от графем до целых высказываний). Объем памяти современных ЭВМ позволяет все чаще прибегать к таким методам. Здесь обычно встают лишь технические и программистские, но ие лингвистические проблемы.

Метод «сравнения со словарем» иногда позволяет триви­ально решать достаточно сложные лингвистические задачи пу­тем их снятия. Так, морфологическая обработка языковых дан­ных (нетривиальная задача для флективных языков) может быть вообще «обойдена», если все формы слов заданы в сло­варе. Если же определенным образом заданы все допустимые в некоторой ситуации словосочетания (например, терминологиче­ские словосочетания, дескрипторы) или даже предложения, то может быть исключен как лингвистическая проблема и синтак­сический анализ в обычном его понимании.

Очевидно, подобные методы могут быть использованы лишь в достаточно простых и ограниченных языковых подсистемах, но их особенность состоит.в том, что таким путем удается умень­шить число уровней анализа и, исключая нижние ярусы языка, мы получаем возможность выиграть во времени обработки дан­ных, проводя непосредственный, или прямой, семантический анализ. Семантический анализ — это обычно основная цель обра­ботки текстовой информации.

По глубине анализа методы различаются прежде всего охва­тываемым уровнем языка. Достаточно просто решаются задачи, требующие обращения лишь к «внешним» атрибутам текста, к его графической форме: составление частотных словоуказате­лей, конкордансов с формально ограниченной длиной выдавае­мых контекстов для слов. «Извлечение» из текста содержатель­ной информации требует более глубокой и сложной его обра­ботки. Однако и здесь мы сталкиваемся с задачами, требую­щими различного по глубине семантического анализа. Большин­ство информационно-поисковых систем, основанных на дескрип- торных языках, требуют при автоматической обработке текста (в процессе индексирования) в основном частичного лингвисти­ческого анализа — распознавания именных словосочетаний. Се­мантический анализ здесь состоит в сведении многообразных текстовых форм терминов (или терминологических словосочета­ний) к их каноническим формам — дескрипторам. Известны

6 Р. Г. Пиотровский называет такой подход «иконическим». ( П и о т р о в ­с к и й Р. Г. Текст, машина, человек. Л., 1975).

136

различные методы такого анализа.7 Более глубокий семантиче­ский анализ используется в фактографических информационно- поисковых системах при обработке входного естественного' языка, используемого в качестве языка запросов.8

При анализе естественного языка в прикладных задачах часто можно не проводить полный анализ на том или ином уровне языка. Мы не имеем здесь в виду случаи, когда некото­рые уровни языка при анализе вообще игнорируются (см. вы­ше). Речь идет о неполном, или частичном, синтаксическом и семантическом анализе. Действительно, если решение задачи требует всего лишь распознавать в тексте именные словосочета­ния, совсем не обязательно восстанавливать полную синтаксиче­скую структуру целого предложения, достаточно описать и ана­лизировать синтаксическую структуру только этих словосочета­ний (локальный синтаксический анализ). То же имеет г ото­при семантическом анализе: смысл целых предложений беспо­лезно анализировать, если в задаче используется ограниченная семантическая модель, требующая частичного семантического анализа (ср. дескрипторные модели семантики в ИПС).

Таким образом, приближенные методы анализа языка, ши­роко используемые в прикладной лингвистике, позволяют вскры­вать н экспериментально проверять механизмы языка в отдель­ных его подсистемах. Не претендуя на описание языка в целом, эти методы имеют самостоятельную ценность, поскольку с их помощью решаются конкретные лингвистические задачи, связан­ные с практическим использованием языка человеком. И, ви­димо, в прикладной лингвистике еще не кончился период эди­соновского изобретательства, когда без «глобальных теорий», но на основе глубоких частных идей могут быть получены нетри­виальные практические результаты. В будущем надежная экспе­риментальная база, какой является прикладная лингвистика,, позволит прийти к серьезным теоретическим обобщениям в опи­сании естественного языка.

7 С эл то н Г. Автоматическая обработка, хранение и поиск информации. М., 1973; Б е л о н о г о в Г. Г., Б о г а т ы р е в В. И. Автоматизированные информационные системы. М., 1973; Б у т о р о в В. Д., П а в л о в а И. В. Распознавание многокомпонентных терминов при индексировании документов по тезаурусу. — В кн.: Структурная и прикладная лингвистика. Вып. 1. Л., 1978.

« Б р я б р и н В. М. Структурные описания как основа семантической интерпретации естественно-языковых текстов. — В кн.: Взаимодействие с ЭВМ на естественном языке. Новосибирск, 1978; Б у т о р о в В. Д., А з а р о в а И. В. Использование терминологической сети для анализа запросов на огра­ниченном естественном языке. — Наст, сборник, с. 154; Л е в и н Д. Я., На - р и н ь я н и А. С. Экспериментальный минипроцессор: семантически ориенти­рованный анализ. — В кн.: Взаимодействие с ЭВМ на естественном языке. Новосибирск, 1978.

137