О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В...

11
Ш 0202—2400 Структурная ■ .......... и прикладная лингвистика

Transcript of О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В...

Ш 0202—2400

Структурная ■..........и прикладнаялингвистика

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА

СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА

Межвузовский сборник

В ы п у с к 2

ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА

1983

Печатается по постановлению Редакционно-издательского совета

Ленинградского университета

Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные во­просы семантики предложения, применения математических мето­дов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспе­чения автоматических систем обработки текста.

1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.

Сборник предназначен для филологов, специалистов по при­кладной и математической лингвистике.

Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богда­нов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Горо­децкий.

Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).

ИБ № 1462

Структурная и прикладная лингвистика

Межвузовский сборник

В ы п у с к 2

Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.

Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.

1593000000—933 С 076(02)—83 68-83 .

Издательство Ленинград- С) ского университета,

1983 г.

В. Г. Войскунский, В. П. Захаров, П. Г. Мордовченко, Л. И. Сороколетова

О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В „БЕСТЕЗАУРУСНЫХ” ИПС

В настоящее время в теории информационного поиска вновь усилилось внимание к вопросам ввода информации в автома­тизированные информационно-поисковые системы. В данной статье обсуждаются проблемы, возникшие в процессе разра­ботки и эксплуатации АИПС «РАСПРИ-1» (Республиканская Автоматизированная Система Поиска н Распространения Ин­формации) .

Информационно-поисковый язык АИПС «РАСПРИ-1» мож­но определить как ИПЯ дескрипторного типа с нефиксирован­ным словарем. Для ИПЯ подобного типа, ведущих свое нача­ло от системы «Унитерм»,1 характерно отсутствие лексического контроля на входе в систему. При формировании поисковых образов документов (ПОДов) и поисковых образов запросов (ПОЗов) в подобных ИПС используются все лексические еди­ницы текста или произвольный набор терминов, сформирован­ный по усмотрению индексатора. Такие произвольные наборы терминов применяются, как правило, при обработке запросов.

Особо следует подчеркнуть, что в большинстве систем, ис-

1 Т а и Ь е М., О и 11 С. О., \У а с Ь е1 I. 5. 1М1 {егтз т соогсНпа1е Щйехтд. — Атепсап ВоситепЫюп, 1952, уо1. 3, N0 4, р. 213—218.

170

пользующих ИПЯ с неконтролируемой лексикой, в том числе в АИПС «РАСПРИ-1», процедура индексации документов опе­рирует с текстами, записанными на естественном языке, таки­ми, как текст реферата или его наиболее информативные ча­сти (например, заглавие). Это дает основание говорить о та­ких системах, что они базируются на естественном языке.

Системы с неконтролируемой лексикой, подобные АИПС «РАСПРИ-1», обладают рядом преимуществ по сравнению с системами «тезаурусного» типа. В результате некоторых ис­следований было установлено, что в ряде поисковых ситуаций такие системы обеспечивают более высокие показатели поиска, чем «тезаурусные» ИПС.2 Так, при поиске с использованием ИПЯ с неконтролируемой лексикой более полно используется лексическая специфика документов.

Никакой тезаурус не в состоянии охватить всю многообраз­ную лексику естественного языка, поэтому можно утверждать, что процесс индексации документов ведет к обеднению, а в ряде случаев — к искажению содержания документов. Кроме того, состав и структура традиционного тезауруса весьма ста­тичны и плохо отражают динамику языка, в частности терми­нологии, особенно в развивающихся отраслях знания.

Непрерывное развитие технических и программных средств, обеспечивающих диалог потребителя информации с системой также стимулирует создание АИПС на базе естественного языка, особенно в случаях, когда в АИПС используются поли- тематические поисковые массивы. Специалисты, освоившие работу с терминалом информационно-вычислительной системы, вряд ли смогут (и захотят) пользоваться, причем с необходи­мой эффективностью, дескрипторными словарями.

Появление и рост количества машиночитаемых баз данных по различной тематике и использование их для поиска инфор­мации по запросам из разных отраслей науки и производства являются одним из главных факторов, обусловливающих пер­спективность «бестезаурусного» подхода к информационному поиску. Многие базы данных, лексика которых часто не нор­мирована, трудности, встающие при разработке политемати- ческого тезауруса, свидетельствуют о целесообразности отка­за от нормирования лексики при обработке больших политема- тических потоков документов.

Не последнюю роль в развитии «бестезаурусиых» систем играет экономический фактор. Во многих случаях эксплуата­ция «бестезаурусиых» АИПС обходится просто дешевле. Но главное, на наш взгляд, преимущество заключается в том, что практически во всех системах подобного типа имеет место эко-

2 С 1 е у е г ( 1 о п С. \У., М 1 115 О., К е е п М. Рас1ог (Ыегппшпд 1Ье регкитпапсе о{ шс1ех1п@ зуз^етз. Со11еде о{ АегопаиЦсз. СгапНеЫ. Еп^1ап(1, 1966; Ь а п с а з ^ е г Р. \У. УосаЬи1агу соп!го1 {ог тГогтакоп геШеуак 1п1ог- тпаИоп гезоигсез ргезз. АУазЫпдкт, б . С., 1972.

номия человеческого интеллектуального труда. В частности, ... внедрение «бестезаурусных» И ПС оказывается намного проще и не требует длительного подготовительного периода.

При всех преимуществах, которыми обладают системы с не­контролируемой лексикой, в их развитии имеется ряд лингви­стических проблем, от успешного решения которых зависит качество выдаваемых системой результатов.

Можно (достаточно условно и упрощенно) выделить два типа таких задач: во-первых, приведение словоформ к некото­рому каноническому виду, во-вторых, целый комплекс проблем лексико-семантического плана, о которых в основном и пойдет речь.

Предварительно вкратце остановимся на задаче нормали- $ зации словоформ входного текста. В ее решении имеется три возможных направления: 1) морфологический анализ слов и последующая генерация канонической формы,3 2) использова­ние механизма «усечения» (например, в запросе приводится только часть слова и указано, с какого конца оно усечено),4 3) замена словоформы некоторым кодом. В АИПС «РАСПРИ-1» используется последний подход.

Концепция автоматического кодирования на базе позицион- но-окрестностных статистических моделей разрабатывалась в АрмНИИНТИ.5

Алгоритмы кодирования лексических единиц в АИПС «РАСПРИ-1», результаты экспериментальной проверки и их лингвистическое обоснование приводятся в работе В. П. Заха­рова, П. Г. Мордовченко и Л. В. Сахарного.6

В АИПС «РАСПРИ-1» используются также синтагматиче­ские связи между терминами, однако, при введении синтагма­тики непосредственно в ИПЯ (в частности, в виде указателей связи) возникают значительные трудности при разработке процедур автокодирования. Поэтому в данном случае была реализована следующая схема: на уровне запроса вводится понятие устойчивого словосочетания; в процедуре поиска ис-

3 Б е л о н о г о в Г. Г., К о т о в Р. Г. Автоматизированные информацион­но-поисковые системы. М., 1968.

4 Ш П П а т з М. Е. Ехрепепсез о! ПТ КезеагсЬ тзШ Д е т орегаНоп а сотрШеп'гес! ге1пеуа1 зуз1ет Сот зеагсЫп§; а уапе1у о? <1а1а Ьазез. — 1п?огта- Ноп 81ога§е апб Ке1пеуа1, 1972, уо1. 8, р. 57—75.

5 С а р у х а н я н Л. Ф., А в е т и с я н Д. О., А в е т и с я н Г. В. и др. Вопросы статистической морфологической сегментации слов естественных язы­ков в автоматизированных информационных системах. Ереван, 1972.

6 З а х а р о в В. П., М о р д о в ч е н к о П. Г., С а х а р н ы й Л. В. Со­вершенствование лингвистического обеспечения в ИПС «бестезаурусного» ти­п а .— Научно-техническая информация, сер. 2, 1980, № 5, с. 14— 19.

172

пользуется некоторый вероятностный, полученный эксперимен­тально критерий устойчивости словосочетаний. Данный крите­рий заключается в проверке параметра, который представ­ляет собой длину и направление интервала в тексте, в кото­ром могут находиться элементы словосочетаний. Использова­ние этого критерия возможно, поскольку ПОД содержит лек­сические единицы (коды) для каждой словоформы входного текста.

* *

*

Основные трудности, которые появляются при эксплуата­ции АИПС «РАСПРИ-1», связаны с проблемой моделирования содержания запроса лексическими единицами ИПЯ. Пренебре­жение этой стороной ведет к значительному снижению показа­телей полноты и точности.

Запрос, сформулированный на естественном языке, при пе­реводе на ИПЯ записывается на специальном бланке («бланк поискового предписания»). Поисковое предписание представ­ляет собой конъюнктивную нормальную форму на множестве поисковых признаков (терминов). Бланк разделен на несколь­ко столбцов, которые можно интерпретировать как члены конъюнкции. В один столбец рекомендуется записывать тер­мины, которые находятся, с точки зрения составителя запроса, в отношении «поисковой» синонимии.7 Между терминами в одном столбце подразумевается операция дизъюнкции. Фор­мально <Поисковое предписание> (А \/В )Д (С \/-0 \/Е ) Л (Р \/К ), где А, В, С, Б, Е, Р, К — лексические единицы (см. рис.).

А С Р

В Б КЕ

Рис. Лексика поискового предписания

В состав поискового предписания входит также специальная матрица.

7 В о й с к у н с к и й В. Г. Поисковая синонимия и способы ее выявления.— В кн.: Семантика естественных и искусственных языков в специализирован­ных системах. Тезисы докладов конф. (Ленинград, 1—2 окт. 1979 г.). Л., 1979, с. 4 2 -4 3 .

173

Использования для заполнения поискового предписания только знаний и опыта индексатора, как показала практика, оказывается явно недостаточно (хотя такие рекомендации иног­да даются). Более того, выяснилось, что даже при использова­нии для этой цели традиционных терминологических пособий не удается получить достаточную лексическую наполненность по­искового предписания. В частности, при использовании тезауру­сов не ясно, какие лексические единицы из каких дескрипторов включать в поисковое предписание, а какие не включать. Кро­ме того, при составлении поискового предписания для конкрет­ного запроса в ряде случаев полезно использовать лексические единицы, которые в тезаурус просто не включены, потому ;что лексический состав тезауруса ориентируется .на оптимальную обработку совокупности запросов, а не отдельного запроса.

ИПЯ системы «РАСПРИ-1», напротив, позволяет ориенти­ровать методы выбора лексических единиц для составления по­искового предписания на индивидуальные запросы.

Немало трудностей связано с распределением лексических единиц по столбцам поискового предписания. (Напомним, что каждый столбец представляет собой раскрытие с помощью лек­сических единиц одного из понятий темы запроса, т. е. смыс­лового аспекта.)

Основное направление исследований было связано с разра­боткой методики формирования поисковых предписаний. Основ­ным содержанием методики является использование для отбора лексических единиц тех документов, о которых заведомо извест­но, что они пертннентны. Использование таких документов позволяет:

1) включать в поисковое предписание лексику пертинентных документов,

2) увеличивать лексическую наполненность поисковых пред­писаний,

3) предъявлять менее жесткие требования к формулированию запросов.

При формулировании поискового предписания в системе ти­па АИПС «РАСПРИ-1» необходимо максимально возможное раскрытие содержания запроса лексическими единицами. Экспе­рименты, проведенные в Ленинградском межотраслевом терри­ториальном центре научно-технической информации (ЛенЦНТИ), позволили установить, что с этой целью достаточно использо­вать 6—10 рефератов пертинентных документов. В процессе формулировки запроса и набора лексики следует отбирать та­кие слова и словосочетания, которые являются значимыми, то есть раскрывающими содержание запроса. Опыт эксплуатации АИПС «РАСПРИ-1» показывает, что наиболее предпочтитель­ными лексическими единицами для формулирования поиско­вого предписания являются двухсловные словосочетания.

На основании приведенных положений в ЛенЦНТИ разра-174

ботана «Временная методика по отбору лексики для составле­ния поисковых предписаний в ИПС „РАСПРИ-1”».

Если в дальнейшем удастся формализовать понятие «зна­чимая лексическая единица», то, вероятно, процесс отбора лексики можно будет алгоритмизировать. Как нам представ­ляется, для формализации этого понятия можно использовать один из многочисленных частотных критериев, описанных в литературе по информатике.

В качестве примера рассмотрим формализацию указанного понятия с использованием частотного критерия.8

Пусть /, — число встречаемости I-й лексической едини­цы в пертинентных документах, п — число встречаемости 1-й лексической единицы в документах поискового массива, р — общее число лексических единиц в пертинентных докумен­тах, Н — общее число лексических единиц в документах по­искового массива. Лексическая единица будет значимой, если

где Е -— некоторый установленный «порог».Предложенная формализация понятия «значимая лекси­

ческая единица» позволяет алгоритмизировать процесс отбора лексики. При построении алгоритма этого процесса нет прин­ципиальных сложностей, однако для реализации установлен­ного алгоритма необходимо решить задачу, связанную с под­счетом встречаемости всех лексических единиц в документах поискового массива. Вопросы алгоритмизации процесса отбо­ра лексики предполагается решить па следующем этапе ис­следований.

Исследования, которые ведутся в настоящее время, направ­лены на выработку рекомендаций по распределению лексиче­ских единиц по столбцам поискового предписания. Этот про­цесс тесно связан с используемым в системе критерием вы­дачи. В АИПС «РАСПРИ-1» используется следующий крите­рий выдачи: документ подлежит выдаче на запрос, если хотя бы одна лексическая единица из каждого столбца поискового предписания входит в поисковый образ документа. Для совер­шенствования стратегии поиска предполагается модифициро­вать данный критерий выдачи. В связи с этим осуществляется экспериментальная проверка нескольких модификаций.

В процессе исследований, связанных с выработкой рекомен­даций по распределению лексических единиц по столбцам по­искового предписания, прежде всего была поставлена задача

* С э л т о н Г. Автоматическая обработка, хранение и поиск информа­ции. М., 1973, с. 442.

нахождения формального способа, который позволил бы опти­мизировать выдачу по количеству документов. (Попытка реше­ния этой задачи на интуитивном уровне приводила к непомер­но большим выдачам, что естественно вело к неудовлетвори­тельным показателям точности поиска.)

С этой целью в ЛенЦНТИ был проведен ряд эксперимен­тов по выяснению влияния количества столбцов в эшелоне поискового предписания и видов лексических единиц, исполь­зующихся для их заполнения, на объем выдачи. Оптимальной по количеству документов считалась выдача, содержащая не более 50 и не менее 10 документов при поиске в массиве 500— 600 документов. В результате экспериментов было установлено, что в поисковом предписании целесообразно использовать не менее двух и не более трех столбцов операндов конъюнкции. Если используются два столбца, необходимо, чтобы по крайней мере один из них состоял только из словосочетаний. В случае использования трех столбцов два из них должны включать в качестве лексических единиц одиночные термины (не словосо­четания).

Что касается режимов поиска, в которых не требуется опти­мального количества документов в выдаче, для них еще не по­лучено достаточно экспериментальных данных для определе­ния оптимального количества столбцов в эшелоне и видов лек­сических единиц, необходимых для наполнения столбцов.

Общее количество столбцов в поисковом предписании опре­деляется в соответствии со смысловыми аспектами запроса. Количество заполненных столбцов в поисковом предписании, как правило, должно соответствовать количеству смысловых аспектов запроса. Например, имеется запрос: «Управлениепромышленными роботами». В нем выделяется два аспекта: «промышленные роботы» и «управление». В запросе «Приме­нение вычислительных устройств и управляющих машин в проектировании систем «электропривода» таких аспектов три— «вычислительные устройства и управляющие машины», «про­ектирование», «системы электропривода». Опыт эксплуатации АИПС «РАСПРИ-1» позволил установить, что в запросах в большинстве случаев содержится не более четырех смысловых аспектов.

В некоторых случаях при наборе лексики выясняется, что часть имеющихся терминов раскрывает дополнительный смы­словой аспект запроса. Этот аспект в явном виде в формули­ровке запроса не присутствует. Так, для запроса «Управление промышленными роботами» значимыми лексическими едини­цами могут оказаться термины, раскрывающие (или допол­няющие) аспект «управление» в плане способов его осущест­вления: «команда», «перемещения», «движения», «ориентация» и т. п. Эти лексические единицы являются более узкими поня­тиями по отношению к термину «управление». Поэтому для176

получения более точной выдачи подобная лексика, относящая­ся к «неявным» смысловым аспектам запроса, включается в отдельный столбец поискового предписания.

Следует отметить, что в ряде случаев целесообразно обра­зовать не один, а несколько поисковых эшелонов. Так, если имеется четыре столбца терминов, относящихся к четырем смысловым аспектам запроса, то поиск, как отмечалось выше, целесообразно проводить не более, чем по трем столбцам одно­временно, иными словами, следует создать несколько поиско­вых эшелонов в предписании. Термины, относящиеся к кон­кретному смысловому аспекту, записываются в один столбец. В первую очередь в столбец следует заносить термины, кото­рые в данном наборе лексики имеют максимальную частоту встречаемости (если такая частота подсчитывается).

На основании изложенных рекомендаций была разработа­на «Временная методика по выполнению текстовой части по­искового предписания в АИПС „РАСПРИ-1”», которая в на­стоящее время проходит экспериментальную проверку.

Более сложной задачей, чем алгоритмизация отбора лек­сики, представляется алгоритмизация распределения лексиче­ских единиц по столбцам поискового предписания. Пути реше­ния этой задачи еще только намечаются, и обсуждать их в дан­ной работе нецелесообразно.

В заключение отметим, что на ближайшее время намечены исследования по формализации и алгоритмизации использова­ния данных обратной связи с целью лексической и логической коррекции поисковых предписаний. В настоящее время этот процесс осуществляется индексаторами при анализе результа­тов поиска, полученных от абонентов, без каких-либо фор­мальных рекомендаций.

Полученные нами экспериментальные данные подтвержда­ют перспективность применения ИПЯ с неконтролируемой лек­сикой при разработке и реализации информационно-поисковых систем.

СПИСОК СОКРАЩЕНИЙ

АИПС— автоматизированная информационно-поисковая система.ИПС — информационно-поисковая система.ИПЯ — информационно-поисковый язык.АрмНИИНТИ— Армянский научно-исследовательский институт научно-тех­

нической информации.ЛенЦНТИ — Ленинградский центр научно-технической информации.ПОД — поисковый образ документа.ПОЗ — поисковый образ запроса.РАСПРИ — республиканская автоматизированная система поиска и распро­

странения информации.

12 Зак. № 250 177