О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В...
Transcript of О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В...
ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА
СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Межвузовский сборник
В ы п у с к 2
ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА
1983
Печатается по постановлению Редакционно-издательского совета
Ленинградского университета
Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные вопросы семантики предложения, применения математических методов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспечения автоматических систем обработки текста.
1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.
Сборник предназначен для филологов, специалистов по прикладной и математической лингвистике.
Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богданов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Городецкий.
Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).
ИБ № 1462
Структурная и прикладная лингвистика
Межвузовский сборник
В ы п у с к 2
Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.
Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.
1593000000—933 С 076(02)—83 68-83 .
Издательство Ленинград- С) ского университета,
1983 г.
В. Г. Войскунский, В. П. Захаров, П. Г. Мордовченко, Л. И. Сороколетова
О НЕКОТОРЫХ ЛЕКСИКО-СЕМАНТИЧЕСКИХ ПРОБЛЕМАХ В „БЕСТЕЗАУРУСНЫХ” ИПС
В настоящее время в теории информационного поиска вновь усилилось внимание к вопросам ввода информации в автоматизированные информационно-поисковые системы. В данной статье обсуждаются проблемы, возникшие в процессе разработки и эксплуатации АИПС «РАСПРИ-1» (Республиканская Автоматизированная Система Поиска н Распространения Информации) .
Информационно-поисковый язык АИПС «РАСПРИ-1» можно определить как ИПЯ дескрипторного типа с нефиксированным словарем. Для ИПЯ подобного типа, ведущих свое начало от системы «Унитерм»,1 характерно отсутствие лексического контроля на входе в систему. При формировании поисковых образов документов (ПОДов) и поисковых образов запросов (ПОЗов) в подобных ИПС используются все лексические единицы текста или произвольный набор терминов, сформированный по усмотрению индексатора. Такие произвольные наборы терминов применяются, как правило, при обработке запросов.
Особо следует подчеркнуть, что в большинстве систем, ис-
1 Т а и Ь е М., О и 11 С. О., \У а с Ь е1 I. 5. 1М1 {егтз т соогсНпа1е Щйехтд. — Атепсап ВоситепЫюп, 1952, уо1. 3, N0 4, р. 213—218.
170
пользующих ИПЯ с неконтролируемой лексикой, в том числе в АИПС «РАСПРИ-1», процедура индексации документов оперирует с текстами, записанными на естественном языке, такими, как текст реферата или его наиболее информативные части (например, заглавие). Это дает основание говорить о таких системах, что они базируются на естественном языке.
Системы с неконтролируемой лексикой, подобные АИПС «РАСПРИ-1», обладают рядом преимуществ по сравнению с системами «тезаурусного» типа. В результате некоторых исследований было установлено, что в ряде поисковых ситуаций такие системы обеспечивают более высокие показатели поиска, чем «тезаурусные» ИПС.2 Так, при поиске с использованием ИПЯ с неконтролируемой лексикой более полно используется лексическая специфика документов.
Никакой тезаурус не в состоянии охватить всю многообразную лексику естественного языка, поэтому можно утверждать, что процесс индексации документов ведет к обеднению, а в ряде случаев — к искажению содержания документов. Кроме того, состав и структура традиционного тезауруса весьма статичны и плохо отражают динамику языка, в частности терминологии, особенно в развивающихся отраслях знания.
Непрерывное развитие технических и программных средств, обеспечивающих диалог потребителя информации с системой также стимулирует создание АИПС на базе естественного языка, особенно в случаях, когда в АИПС используются поли- тематические поисковые массивы. Специалисты, освоившие работу с терминалом информационно-вычислительной системы, вряд ли смогут (и захотят) пользоваться, причем с необходимой эффективностью, дескрипторными словарями.
Появление и рост количества машиночитаемых баз данных по различной тематике и использование их для поиска информации по запросам из разных отраслей науки и производства являются одним из главных факторов, обусловливающих перспективность «бестезаурусного» подхода к информационному поиску. Многие базы данных, лексика которых часто не нормирована, трудности, встающие при разработке политемати- ческого тезауруса, свидетельствуют о целесообразности отказа от нормирования лексики при обработке больших политема- тических потоков документов.
Не последнюю роль в развитии «бестезаурусиых» систем играет экономический фактор. Во многих случаях эксплуатация «бестезаурусиых» АИПС обходится просто дешевле. Но главное, на наш взгляд, преимущество заключается в том, что практически во всех системах подобного типа имеет место эко-
2 С 1 е у е г ( 1 о п С. \У., М 1 115 О., К е е п М. Рас1ог (Ыегппшпд 1Ье регкитпапсе о{ шс1ех1п@ зуз^етз. Со11еде о{ АегопаиЦсз. СгапНеЫ. Еп^1ап(1, 1966; Ь а п с а з ^ е г Р. \У. УосаЬи1агу соп!го1 {ог тГогтакоп геШеуак 1п1ог- тпаИоп гезоигсез ргезз. АУазЫпдкт, б . С., 1972.
номия человеческого интеллектуального труда. В частности, ... внедрение «бестезаурусных» И ПС оказывается намного проще и не требует длительного подготовительного периода.
При всех преимуществах, которыми обладают системы с неконтролируемой лексикой, в их развитии имеется ряд лингвистических проблем, от успешного решения которых зависит качество выдаваемых системой результатов.
Можно (достаточно условно и упрощенно) выделить два типа таких задач: во-первых, приведение словоформ к некоторому каноническому виду, во-вторых, целый комплекс проблем лексико-семантического плана, о которых в основном и пойдет речь.
Предварительно вкратце остановимся на задаче нормали- $ зации словоформ входного текста. В ее решении имеется три возможных направления: 1) морфологический анализ слов и последующая генерация канонической формы,3 2) использование механизма «усечения» (например, в запросе приводится только часть слова и указано, с какого конца оно усечено),4 3) замена словоформы некоторым кодом. В АИПС «РАСПРИ-1» используется последний подход.
Концепция автоматического кодирования на базе позицион- но-окрестностных статистических моделей разрабатывалась в АрмНИИНТИ.5
Алгоритмы кодирования лексических единиц в АИПС «РАСПРИ-1», результаты экспериментальной проверки и их лингвистическое обоснование приводятся в работе В. П. Захарова, П. Г. Мордовченко и Л. В. Сахарного.6
В АИПС «РАСПРИ-1» используются также синтагматические связи между терминами, однако, при введении синтагматики непосредственно в ИПЯ (в частности, в виде указателей связи) возникают значительные трудности при разработке процедур автокодирования. Поэтому в данном случае была реализована следующая схема: на уровне запроса вводится понятие устойчивого словосочетания; в процедуре поиска ис-
3 Б е л о н о г о в Г. Г., К о т о в Р. Г. Автоматизированные информационно-поисковые системы. М., 1968.
4 Ш П П а т з М. Е. Ехрепепсез о! ПТ КезеагсЬ тзШ Д е т орегаНоп а сотрШеп'гес! ге1пеуа1 зуз1ет Сот зеагсЫп§; а уапе1у о? <1а1а Ьазез. — 1п?огта- Ноп 81ога§е апб Ке1пеуа1, 1972, уо1. 8, р. 57—75.
5 С а р у х а н я н Л. Ф., А в е т и с я н Д. О., А в е т и с я н Г. В. и др. Вопросы статистической морфологической сегментации слов естественных языков в автоматизированных информационных системах. Ереван, 1972.
6 З а х а р о в В. П., М о р д о в ч е н к о П. Г., С а х а р н ы й Л. В. Совершенствование лингвистического обеспечения в ИПС «бестезаурусного» тип а .— Научно-техническая информация, сер. 2, 1980, № 5, с. 14— 19.
172
пользуется некоторый вероятностный, полученный экспериментально критерий устойчивости словосочетаний. Данный критерий заключается в проверке параметра, который представляет собой длину и направление интервала в тексте, в котором могут находиться элементы словосочетаний. Использование этого критерия возможно, поскольку ПОД содержит лексические единицы (коды) для каждой словоформы входного текста.
* *
*
Основные трудности, которые появляются при эксплуатации АИПС «РАСПРИ-1», связаны с проблемой моделирования содержания запроса лексическими единицами ИПЯ. Пренебрежение этой стороной ведет к значительному снижению показателей полноты и точности.
Запрос, сформулированный на естественном языке, при переводе на ИПЯ записывается на специальном бланке («бланк поискового предписания»). Поисковое предписание представляет собой конъюнктивную нормальную форму на множестве поисковых признаков (терминов). Бланк разделен на несколько столбцов, которые можно интерпретировать как члены конъюнкции. В один столбец рекомендуется записывать термины, которые находятся, с точки зрения составителя запроса, в отношении «поисковой» синонимии.7 Между терминами в одном столбце подразумевается операция дизъюнкции. Формально <Поисковое предписание> (А \/В )Д (С \/-0 \/Е ) Л (Р \/К ), где А, В, С, Б, Е, Р, К — лексические единицы (см. рис.).
А С Р
В Б КЕ
Рис. Лексика поискового предписания
В состав поискового предписания входит также специальная матрица.
7 В о й с к у н с к и й В. Г. Поисковая синонимия и способы ее выявления.— В кн.: Семантика естественных и искусственных языков в специализированных системах. Тезисы докладов конф. (Ленинград, 1—2 окт. 1979 г.). Л., 1979, с. 4 2 -4 3 .
173
Использования для заполнения поискового предписания только знаний и опыта индексатора, как показала практика, оказывается явно недостаточно (хотя такие рекомендации иногда даются). Более того, выяснилось, что даже при использовании для этой цели традиционных терминологических пособий не удается получить достаточную лексическую наполненность поискового предписания. В частности, при использовании тезаурусов не ясно, какие лексические единицы из каких дескрипторов включать в поисковое предписание, а какие не включать. Кроме того, при составлении поискового предписания для конкретного запроса в ряде случаев полезно использовать лексические единицы, которые в тезаурус просто не включены, потому ;что лексический состав тезауруса ориентируется .на оптимальную обработку совокупности запросов, а не отдельного запроса.
ИПЯ системы «РАСПРИ-1», напротив, позволяет ориентировать методы выбора лексических единиц для составления поискового предписания на индивидуальные запросы.
Немало трудностей связано с распределением лексических единиц по столбцам поискового предписания. (Напомним, что каждый столбец представляет собой раскрытие с помощью лексических единиц одного из понятий темы запроса, т. е. смыслового аспекта.)
Основное направление исследований было связано с разработкой методики формирования поисковых предписаний. Основным содержанием методики является использование для отбора лексических единиц тех документов, о которых заведомо известно, что они пертннентны. Использование таких документов позволяет:
1) включать в поисковое предписание лексику пертинентных документов,
2) увеличивать лексическую наполненность поисковых предписаний,
3) предъявлять менее жесткие требования к формулированию запросов.
При формулировании поискового предписания в системе типа АИПС «РАСПРИ-1» необходимо максимально возможное раскрытие содержания запроса лексическими единицами. Эксперименты, проведенные в Ленинградском межотраслевом территориальном центре научно-технической информации (ЛенЦНТИ), позволили установить, что с этой целью достаточно использовать 6—10 рефератов пертинентных документов. В процессе формулировки запроса и набора лексики следует отбирать такие слова и словосочетания, которые являются значимыми, то есть раскрывающими содержание запроса. Опыт эксплуатации АИПС «РАСПРИ-1» показывает, что наиболее предпочтительными лексическими единицами для формулирования поискового предписания являются двухсловные словосочетания.
На основании приведенных положений в ЛенЦНТИ разра-174
ботана «Временная методика по отбору лексики для составления поисковых предписаний в ИПС „РАСПРИ-1”».
Если в дальнейшем удастся формализовать понятие «значимая лексическая единица», то, вероятно, процесс отбора лексики можно будет алгоритмизировать. Как нам представляется, для формализации этого понятия можно использовать один из многочисленных частотных критериев, описанных в литературе по информатике.
В качестве примера рассмотрим формализацию указанного понятия с использованием частотного критерия.8
Пусть /, — число встречаемости I-й лексической единицы в пертинентных документах, п — число встречаемости 1-й лексической единицы в документах поискового массива, р — общее число лексических единиц в пертинентных документах, Н — общее число лексических единиц в документах поискового массива. Лексическая единица будет значимой, если
где Е -— некоторый установленный «порог».Предложенная формализация понятия «значимая лекси
ческая единица» позволяет алгоритмизировать процесс отбора лексики. При построении алгоритма этого процесса нет принципиальных сложностей, однако для реализации установленного алгоритма необходимо решить задачу, связанную с подсчетом встречаемости всех лексических единиц в документах поискового массива. Вопросы алгоритмизации процесса отбора лексики предполагается решить па следующем этапе исследований.
Исследования, которые ведутся в настоящее время, направлены на выработку рекомендаций по распределению лексических единиц по столбцам поискового предписания. Этот процесс тесно связан с используемым в системе критерием выдачи. В АИПС «РАСПРИ-1» используется следующий критерий выдачи: документ подлежит выдаче на запрос, если хотя бы одна лексическая единица из каждого столбца поискового предписания входит в поисковый образ документа. Для совершенствования стратегии поиска предполагается модифицировать данный критерий выдачи. В связи с этим осуществляется экспериментальная проверка нескольких модификаций.
В процессе исследований, связанных с выработкой рекомендаций по распределению лексических единиц по столбцам поискового предписания, прежде всего была поставлена задача
* С э л т о н Г. Автоматическая обработка, хранение и поиск информации. М., 1973, с. 442.
нахождения формального способа, который позволил бы оптимизировать выдачу по количеству документов. (Попытка решения этой задачи на интуитивном уровне приводила к непомерно большим выдачам, что естественно вело к неудовлетворительным показателям точности поиска.)
С этой целью в ЛенЦНТИ был проведен ряд экспериментов по выяснению влияния количества столбцов в эшелоне поискового предписания и видов лексических единиц, использующихся для их заполнения, на объем выдачи. Оптимальной по количеству документов считалась выдача, содержащая не более 50 и не менее 10 документов при поиске в массиве 500— 600 документов. В результате экспериментов было установлено, что в поисковом предписании целесообразно использовать не менее двух и не более трех столбцов операндов конъюнкции. Если используются два столбца, необходимо, чтобы по крайней мере один из них состоял только из словосочетаний. В случае использования трех столбцов два из них должны включать в качестве лексических единиц одиночные термины (не словосочетания).
Что касается режимов поиска, в которых не требуется оптимального количества документов в выдаче, для них еще не получено достаточно экспериментальных данных для определения оптимального количества столбцов в эшелоне и видов лексических единиц, необходимых для наполнения столбцов.
Общее количество столбцов в поисковом предписании определяется в соответствии со смысловыми аспектами запроса. Количество заполненных столбцов в поисковом предписании, как правило, должно соответствовать количеству смысловых аспектов запроса. Например, имеется запрос: «Управлениепромышленными роботами». В нем выделяется два аспекта: «промышленные роботы» и «управление». В запросе «Применение вычислительных устройств и управляющих машин в проектировании систем «электропривода» таких аспектов три— «вычислительные устройства и управляющие машины», «проектирование», «системы электропривода». Опыт эксплуатации АИПС «РАСПРИ-1» позволил установить, что в запросах в большинстве случаев содержится не более четырех смысловых аспектов.
В некоторых случаях при наборе лексики выясняется, что часть имеющихся терминов раскрывает дополнительный смысловой аспект запроса. Этот аспект в явном виде в формулировке запроса не присутствует. Так, для запроса «Управление промышленными роботами» значимыми лексическими единицами могут оказаться термины, раскрывающие (или дополняющие) аспект «управление» в плане способов его осуществления: «команда», «перемещения», «движения», «ориентация» и т. п. Эти лексические единицы являются более узкими понятиями по отношению к термину «управление». Поэтому для176
получения более точной выдачи подобная лексика, относящаяся к «неявным» смысловым аспектам запроса, включается в отдельный столбец поискового предписания.
Следует отметить, что в ряде случаев целесообразно образовать не один, а несколько поисковых эшелонов. Так, если имеется четыре столбца терминов, относящихся к четырем смысловым аспектам запроса, то поиск, как отмечалось выше, целесообразно проводить не более, чем по трем столбцам одновременно, иными словами, следует создать несколько поисковых эшелонов в предписании. Термины, относящиеся к конкретному смысловому аспекту, записываются в один столбец. В первую очередь в столбец следует заносить термины, которые в данном наборе лексики имеют максимальную частоту встречаемости (если такая частота подсчитывается).
На основании изложенных рекомендаций была разработана «Временная методика по выполнению текстовой части поискового предписания в АИПС „РАСПРИ-1”», которая в настоящее время проходит экспериментальную проверку.
Более сложной задачей, чем алгоритмизация отбора лексики, представляется алгоритмизация распределения лексических единиц по столбцам поискового предписания. Пути решения этой задачи еще только намечаются, и обсуждать их в данной работе нецелесообразно.
В заключение отметим, что на ближайшее время намечены исследования по формализации и алгоритмизации использования данных обратной связи с целью лексической и логической коррекции поисковых предписаний. В настоящее время этот процесс осуществляется индексаторами при анализе результатов поиска, полученных от абонентов, без каких-либо формальных рекомендаций.
Полученные нами экспериментальные данные подтверждают перспективность применения ИПЯ с неконтролируемой лексикой при разработке и реализации информационно-поисковых систем.
СПИСОК СОКРАЩЕНИЙ
АИПС— автоматизированная информационно-поисковая система.ИПС — информационно-поисковая система.ИПЯ — информационно-поисковый язык.АрмНИИНТИ— Армянский научно-исследовательский институт научно-тех
нической информации.ЛенЦНТИ — Ленинградский центр научно-технической информации.ПОД — поисковый образ документа.ПОЗ — поисковый образ запроса.РАСПРИ — республиканская автоматизированная система поиска и распро
странения информации.
12 Зак. № 250 177