ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ...
Transcript of ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ...
ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА
СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Межвузовский сборник
В ы п у с к 2
ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА
1983
Печатается по постановлению Редакционно-издательского совета
Ленинградского университета
Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные вопросы семантики предложения, применения математических методов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспечения автоматических систем обработки текста.
1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.
Сборник предназначен для филологов, специалистов по прикладной и математической лингвистике.
Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богданов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Городецкий.
Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).
ИБ № 1462
Структурная и прикладная лингвистика
Межвузовский сборник
В ы п у с к 2
Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.
Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.
1593000000—933 С 076(02)—83 68-83 .
Издательство Ленинград- С) ского университета,
1983 г.
ш
В. Д. Бутороб
ПРИБЛИЖЕННЫЕ МЕТОДЫ АНАЛИЗА ЯЗЫКА В ПРИКЛАДНОЙ ЛИНГВИСТИКЕ
При решении актуальных задач прикладной лингвистики, связанных с автоматической обработкой текстовой (речевой) информации, используются различные методы анализа языка, часто весьма специфичные, и в силу своей специфичности или ограниченности отвергаемые теоретической лингвистикой, а чаще всего вообще неизвестные в последней. Кроме того, в самой прикладной лингвистике статус этих методов недостаточно определен. Во всяком случае среди лингвистов-прикладников в настоящее время весьма силен комплекс своеобразной «теоретической неполноценности», выражающийся в том, что либо частные методы автоматической обработки текстов, вполне успешно решающие конкретные задачи, обязательно подводятся их авторами под «прочную теоретическую базу» путем привязки этих методов к той или иной, чаще просто к самой модной научной концепции, либо эти частные методы выдаются за универсальные, претендующие на теоретическую значимость для описания естественного языка в целом.
Между тем значимость частных методов анализа языка в прикладной лингвистике достаточно велика сама по себе и легко может быть обоснована без привлечения блестящих и престижных «теоретических доспехов».
Общепринятым является мнение, что теоретическую базу прикладной лингвистике обеспечивает лингвистика структурная н математическая. Не отрицая этого в принципе, обратим внима- НИе на одно хорошо известное обстоятельство. До 50-х годов структурная лингвистика и примерно до 60-х годов математиче- ская лингвистика черпали свою научную проблематику и науч- ныг идеи в основном в «самих себе», поскольку современные спекты прикладной лингвистики в то время еше не были до- таточно актуальными. Методы анализа языка, разрабатывав*
в е в структурной и (на первых норах) математической линг- сгике, преследовали «глобальную» цель — описание естественно языка в целом как сложной самоорганизованной системы —
9*131
в полном соответствии с тезисом Ф. де Соссюра: «...единственным и истинным объектом лингвистики является язык, рассматриваемый в самом себе и для себя».1
Рассматривая язык как семиотическую систему, теоретическая лингвистика в центр исследований прежде всего ставила такие аспекты этой системы, как синтаксис (в широком смысле слова — в применении к различным уровням языковой структуры) и семантику (в довольно абстрактном виде — в плане соотношения языка, мышления и действительности). Прагматика языка, признаваемая теоретически важным и необходимым аспектом при описании семиотической системы, практически оставалась за пределами исследований. Это и не удивительно, если учесть, что прагматика языка — это сфера использования языка. Здесь недостаточно рассматривать язык «в самом себе и для себя», здесь приходится рассматривать язык направленным «вовне», включенным в непосредственную практическую деятельность человека.
Современная прикладная лингвистика вплотную столкнулась е задачами, связанными с практическим использованием языка ’ как специфического инструмента человеческой деятельности в системах типа «человек — машина», когда привлекаются различные технические устройства (ЭВМ, радио-, телесвязь и др.). Накопленный опыт решения таких задач показывает, что функционирование языка, используемого даже в очень конкретных и ограниченных областях человеческой деятельности, невозможно описать и объяснить без удовлетворительного описания самой этой деятельности. Это особенно очевидно в задачах, где требуется знать ответ на вопрос, что такое понимание естественного языка человеком.
Таким образом, из всех аспектов семиотики — синтаксиса, семантики и прагматики — в прикладной лингвистике приходится иметь дело прежде всего с прагматикой языка.
Действительно, постановка любой прикладной лингвистиче- I ской задачи начинается с рассмотрения конкретной прагмати- ; ческой языковой ситуации. Только такой анализ позволяет очертить множество необходимых в данной ситуации языковых | средств и правил их использования при решении человеком какой-либо конкретной задачи. Только такой анализ позволяет ' сформулировать требования и к результатам анализа языка, обеспечивающим решение поставленной задачи. Выполнение этих требований является основным критерием оценки любого метода, который будет применен для анализа языка. Здесь приходится сознательно принять прагматическую точку зрения. При- кладная лингвистика предъявляет к методам анализа языка не I абстрактное требование адекватности описания языка, которое верифицируется в основном лингвистической интроспекцией ис- ’
I С о с с ю р Ф. д е. Курс общей лингвистики. М., 1978.
следователя, а конкретное требование полезности (эффективности) для решения конкретной лингвистической задачи, для достижения поставленной цели. Кроме этого, применяемые методы анализа языка должны быть в определенном смысле оптимальными, а именно — они должны обеспечивать анализ с точностью «не большей и не меньшей», чем требуется для решения прежде всего данной конкретной задачи.2 Это требование диктуется как самой задачей, так и внешними (нелингвистическими) ограничениями на условия ее решения (объем используемой памяти ЭВМ, скорость обработки языкового материала и др.).
Все эти факторы необходимо учитывать при оценке методов анализа языка, применяемых в прикладной лингвистике.
Поскольку использование естественного языка для обеспечения взаимодействия человека с различными техническими устройствами, обычно включающими ЭВМ, расширяется с каждым годом, программы обработки текстовой информации созда-' ются во многих организациях как с участием лингвистов, так и без их участия. Применяемые при этом методы обработки (чаще всего эта обработка сводится к анализу языковых данных) настолько разнообразны, что полезно дать предварительный их обзор, выделив некоторые существенные их свойства, прежде всего с лингвистической точки зрения, с точки зрения анализа языка. Можно надеяться, что выводы, которые могут быть сделаны из такого рассмотрения, окажутся полезными не только для прикладной лингвистики.
Для оценки различных методов анализа языка являются существенными следующие свойства:
а) у н и в е р с а л ь н о с т ь анализа (независимость от конкретного подъязыка, независимость от конкретной грамматики);
б) применяемая п р о ц е д у р а анализа (тривиальные методы1 «сравнения со словарем», последовательный или параллельный многоуровневый анализ, «прямой» семантический анализ, различные стратегии синтаксического анализа — «сверху вниз», «снизу вверх» и др.);
в) г л у б и н а анализа (в зависимости от уровней языка, охватываемых анализом: от графического уровня до различной степени глубины семантического уровня);
г) п о л но т а анализа (методы частичного (локального) синтаксического анализа, например, распознавание структуры толь-1 ко именных групп, а не всего предложения, частичный семантический анализ, полный синтаксический и семантический1 анализ).
Методы, применяемые в прикладной лингвистике, могут быть охарактеризованы как п р и б л и ж е н н ы е . Это такие методы,'
2 Ср. требование «минимальности» к анализу естественного языка у Г В. Сенина ( С е н и н Г. В. Анализ естественного языка в диалоговой информационно-логической системе (ДИЛОС). — В кн.: Семиотика и информа-’ тика, вып. 12 М., 1079).
133
которые обеспечивают анализ с точностью, достаточной для решения конкретной задачи.
Эти методы являются обычно приближенными по всем перечисленным выше параметрам: по универсальности, по применяемым процедурам, по глубине и полноте анализа.
В то же время термин «приближенные методы» не противопоставляется термину «точные методы». Методы являются приближенными с точки зрения требований теоретического лингвистического анализа, но они должны быть строгими с математической точки зрения. В противном случае они не применимы для автоматической обработки текста вообще.
В определенном смысле подходы к описанию языка в прикладной лингвистике начинают противоречить сложившимся принципам функционального моделирования «языка в целом». Обычный подход к построению модели предполагает: фиксирование фактов, требующих объяснения; выдвижение гипотез для объяснения фактов; реализацию гипотез в виде моделей, не только объясняющих исходные факты, но и предсказывающих новые, еще не наблюдавшиеся факты; экспериментальную проверку модели.3
Если экспериментальная проверка устанавливает, что некоторые факты языка «не охвачены» моделью, последняя дополняется, «достраивается» в надежде, что когда-нибудь будет построена модель, адекватно описывающая «язык в целом» или «сходящаяся к языку». Этот глобальный подход в настоящее время вызывает большие сомнения. Не исключено, что подобная глобальная модель для языка никогда не будет построена.4
На практике, в прикладной лингвистике, особенно заметно, что «язык в целом» не представляет собой целого, «единого организма». Здесь мы сталкиваемся чаще всего с достаточно обособленными и ограниченными языковыми подсистемами. И хотя принято всячески подчеркивать универсальность естественного языка, никто не установил, чем эта универсальность обеспечивается — наличием универсальных закономерностей, выполняющихся во всех языковых подсистемах (это с оговорками можно допустить для низших уровней языка — фонетического, морфологического, но уже сомнительно для синтаксиса и тем более — для семантики), или эта универсальность состоит в наличии особых и не вскрытых пока языковых механизмов, обеспечивающих хорошее взаимодействие между этими обособленными языковыми подсистемами. Структура же самих подсистем может быть весьма специфична и разнообразна, в каждой из них, выполняющей определенную функцию в деятельности чело-
3 А п р е с я н Ю. Д. Идеи и методы современной структурной лингвистики. М., 1966.
4 Ц е й т и а Г. С. Черты естественного языка и формальной модели. — Б кн.: Вопросы кибернетики. Общение с ЭВМ на естественном языке. М., 1982.
134
века, используются специфические закономерности, наилучшим образом обеспечивающие именно эти функции.
Разработка конкретных частных моделей для отдельных язы- ■ ковых подсистем — это практика современной прикладной лингвистики. В методологическом плане такой подход характеризуется по крайней мере следующим. «Модель освобождается от бремени неполноценности. Никакая часть модели не претендует на отражение языка целиком и поэтому не требует оговорок, что она лишь приблизительно отвечает своему назначению. Модель может быть далека от охвата всех фактов языка и быть тем не менее вполне компетентной в пределах своего функционирования, аналогично тому, как мы не отказываем в компетентности живому носителю языка, хотя ему заведомо незнакома значительная часть словарного запаса и, возможно, даже некоторые из грамматических средств. Разрабатывая модель языка для конкретного применения, мы не должны ждать завершения разработки общей формальной системы, а можем приступать к разработке частных подсистем; если в процессе расширения модели окажется удобным заменить одну из уже созданных подсистем, есть возможность провести эту замену безболезненно».5
Заметим, что при моделировании ограниченной языковой подсистемы не исключено построение достаточно полного и точного ее описания, так что термин «приближенные методы» в данном случае будет применим с учетом, что не рассматривается «язык в целом».
В прикладной лингвистике существует много задач, для которых использование глобальных моделей языка (напр., контекстно-свободная модель), разрабатываемых в структурной лингвистике, не является рациональным, поскольку часто решить задачу можно более простыми и эффективными методами (достаточен приближенный анализ).
С другой стороны, мы сталкиваемся с задачами настолько сложными, что становится очевидной недостаточность самих глобальных моделей (например, полный, универсальный синтаксический анализ в машинном переводе, задача автоматического распознавания слитной речи и др.).
Рассмотрим некоторые методы анализа языка с точки зрения указанных выше свойств: универсальности, применяемой процедуры анализа, его глубины и полноты.
Практически все известные методы, реально используемые для решения конкретных прикладных задач, не являются универсальными. Универсальные алгоритмы синтаксического анализа (алгоритм Кока-Янгера, алгоритм Эрли) не могут обеспечить
даже для ограниченного естественного языка обработку данных в реальном времени и потому практически не применимы.
5 Там же.
135
С точки зрения используемой процедуры анализа, существуют методы лингвистически тривиальные, но они применяются, поскольку обеспечивают решение ограниченных задач. К таким «неинтересным» лингвистически методам следует отнести все случаи решения задач путем простого «сравнения со словарем»,6 когда распознаваемые элементы языка задаются списком (список может включать элементы любого уровня языка — от графем до целых высказываний). Объем памяти современных ЭВМ позволяет все чаще прибегать к таким методам. Здесь обычно встают лишь технические и программистские, но ие лингвистические проблемы.
Метод «сравнения со словарем» иногда позволяет тривиально решать достаточно сложные лингвистические задачи путем их снятия. Так, морфологическая обработка языковых данных (нетривиальная задача для флективных языков) может быть вообще «обойдена», если все формы слов заданы в словаре. Если же определенным образом заданы все допустимые в некоторой ситуации словосочетания (например, терминологические словосочетания, дескрипторы) или даже предложения, то может быть исключен как лингвистическая проблема и синтаксический анализ в обычном его понимании.
Очевидно, подобные методы могут быть использованы лишь в достаточно простых и ограниченных языковых подсистемах, но их особенность состоит.в том, что таким путем удается уменьшить число уровней анализа и, исключая нижние ярусы языка, мы получаем возможность выиграть во времени обработки данных, проводя непосредственный, или прямой, семантический анализ. Семантический анализ — это обычно основная цель обработки текстовой информации.
По глубине анализа методы различаются прежде всего охватываемым уровнем языка. Достаточно просто решаются задачи, требующие обращения лишь к «внешним» атрибутам текста, к его графической форме: составление частотных словоуказателей, конкордансов с формально ограниченной длиной выдаваемых контекстов для слов. «Извлечение» из текста содержательной информации требует более глубокой и сложной его обработки. Однако и здесь мы сталкиваемся с задачами, требующими различного по глубине семантического анализа. Большинство информационно-поисковых систем, основанных на дескрип- торных языках, требуют при автоматической обработке текста (в процессе индексирования) в основном частичного лингвистического анализа — распознавания именных словосочетаний. Семантический анализ здесь состоит в сведении многообразных текстовых форм терминов (или терминологических словосочетаний) к их каноническим формам — дескрипторам. Известны
6 Р. Г. Пиотровский называет такой подход «иконическим». ( П и о т р о в с к и й Р. Г. Текст, машина, человек. Л., 1975).
136
различные методы такого анализа.7 Более глубокий семантический анализ используется в фактографических информационно- поисковых системах при обработке входного естественного' языка, используемого в качестве языка запросов.8
При анализе естественного языка в прикладных задачах часто можно не проводить полный анализ на том или ином уровне языка. Мы не имеем здесь в виду случаи, когда некоторые уровни языка при анализе вообще игнорируются (см. выше). Речь идет о неполном, или частичном, синтаксическом и семантическом анализе. Действительно, если решение задачи требует всего лишь распознавать в тексте именные словосочетания, совсем не обязательно восстанавливать полную синтаксическую структуру целого предложения, достаточно описать и анализировать синтаксическую структуру только этих словосочетаний (локальный синтаксический анализ). То же имеет г отопри семантическом анализе: смысл целых предложений бесполезно анализировать, если в задаче используется ограниченная семантическая модель, требующая частичного семантического анализа (ср. дескрипторные модели семантики в ИПС).
Таким образом, приближенные методы анализа языка, широко используемые в прикладной лингвистике, позволяют вскрывать н экспериментально проверять механизмы языка в отдельных его подсистемах. Не претендуя на описание языка в целом, эти методы имеют самостоятельную ценность, поскольку с их помощью решаются конкретные лингвистические задачи, связанные с практическим использованием языка человеком. И, видимо, в прикладной лингвистике еще не кончился период эдисоновского изобретательства, когда без «глобальных теорий», но на основе глубоких частных идей могут быть получены нетривиальные практические результаты. В будущем надежная экспериментальная база, какой является прикладная лингвистика,, позволит прийти к серьезным теоретическим обобщениям в описании естественного языка.
7 С эл то н Г. Автоматическая обработка, хранение и поиск информации. М., 1973; Б е л о н о г о в Г. Г., Б о г а т ы р е в В. И. Автоматизированные информационные системы. М., 1973; Б у т о р о в В. Д., П а в л о в а И. В. Распознавание многокомпонентных терминов при индексировании документов по тезаурусу. — В кн.: Структурная и прикладная лингвистика. Вып. 1. Л., 1978.
« Б р я б р и н В. М. Структурные описания как основа семантической интерпретации естественно-языковых текстов. — В кн.: Взаимодействие с ЭВМ на естественном языке. Новосибирск, 1978; Б у т о р о в В. Д., А з а р о в а И. В. Использование терминологической сети для анализа запросов на ограниченном естественном языке. — Наст, сборник, с. 154; Л е в и н Д. Я., На - р и н ь я н и А. С. Экспериментальный минипроцессор: семантически ориентированный анализ. — В кн.: Взаимодействие с ЭВМ на естественном языке. Новосибирск, 1978.
137