МНОГОМЕРНЫЙ СИНТАКТИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ...

18
Ш 0202—2400 Структурная ■ .......... и прикладная лингвистика

Transcript of МНОГОМЕРНЫЙ СИНТАКТИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ...

Ш 0202—2400

Структурная ■..........и прикладнаялингвистика

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА

СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА

Межвузовский сборник

В ы п у с к 2

ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА

1983

Печатается по постановлению Редакционно-издательского совета

Ленинградского университета

Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные во­просы семантики предложения, применения математических мето­дов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспе­чения автоматических систем обработки текста.

1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.

Сборник предназначен для филологов, специалистов по при­кладной и математической лингвистике.

Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богда­нов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Горо­децкий.

Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).

ИБ № 1462

Структурная и прикладная лингвистика

Межвузовский сборник

В ы п у с к 2

Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.

Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.

1593000000—933 С 076(02)—83 68-83 .

Издательство Ленинград- С) ского университета,

1983 г.

II

Г. Я. Мартыненко

МНОГОМЕРНЫЙ с и н т а к т и к о -стл ти ст и че ск ий АНАЛИЗ ХУДОЖЕСТВЕННОЙ ПРОЗЫ

Рассматривая конкретное художественное произведение как нечто уникальное и неповторимое, следует всегда иметь в виду, что оно создается в определенной «диалектной» среде1 на фоне •системы норм,2 которые стихийно вырабатываются в процессе обменных контактов всех писателей, живущих в данную эпоху. Именно коллективная компонента внутреннего строения произве­дений позволяет объединить в единое целое всех писателей дан­ной эпохи, независимо от масштабов их дарования и роли в ли­тературном движении. В рамках общей целостности, в свою оче­редь, можно выделить частные целостности, например, группы писателей, тяготеющих к школе избранного ими руководителя или к определенному литературному направлению.

Поскольку поэзия есть искусство слова, при классификации писателей конкретной эпохи разумно исходить из критерия линг­вистической близости их произведений.3 Такой подход, не яв­ляясь бесспорным, привлекает, тем не менее, своей реалистич­ностью, ибо собственный понятийный аппарат и исследователь­ская техника общей поэтики находятся в стадии становления.

Лингвистическое классифицирование художественных произ­ведений может быть плодотворным лишь тогда, когда исследо­ватель пользуется структурными характеристиками, которые отражают наиболее общие закономерности структуры текста и ■обладают значительной стилеразличающей (или стилеобъеди­няющей) силой. При этом процедура классифицирования значи­тельно упрощается, если эти структурные характеристики

1 В и н о г р а д о в В. В. О задачах стилисгики. Наблюдения над стилем лития протопопа Аввакума. — В кн.: Русская речь, I. Петроград, 1923, с. 195—293.

2 Т ы н я н о в Ю. Н. Проблемы изучения литературы и языка. — В кн.: Тынянов Ю. Н. Поэтика, история литературы, кино. М., 1977, с. 282—283.

3 В и н о г р а д о в В. В. О задачах стилистики; Ж у р м у и с к и й В В. -Задачи поэтики. — В кн.: Жирмунский В. В. Теория литературы, поэтики, стилистики. Л., 1977, с. 15—56.

58

являются компонентами математических моделей (или выводятся из них), легко поддаются количественному измерению и могут быть интерпретированы как оптимизационные параметры, диа- пазбн состояний которых регулируется стихией обменных кон­тактов в среде индивидов, занятых одним видом деятельности.

Современное состояние лингвистики таково, что пространство признаков, отвечающих перечисленным свойствам, молено по­строить лишь на синтаксическом уровне с использованием не­которых элементов синтаксических структур в терминах теории графов. Такие способы представления предложения обнажают его иерархический и линейный скелет, сообщают ему геометри­ческую наглядность. Располагая массой древовидных схем пред­ложения, гораздо легче изучать как общие, так и индивидуаль­ные закономерности группирования синтаксических связей, их стилеразличающие и стилеобъединяющие возможности. Если учесть, что схематизация не исключает, а даже предполагает последующую интерпретацию древесных фигур с позиций син­таксических представлений, сложившихся в классическом языко­знании, то польза от такого обобщенного подхода становится еще более очевидной.

Синтаксические приемы, используемые для наращивания объема предложения, можно свести к обозримому набору типо­вых стилистических фигур, каждая из которых может выступать в роли вектора в многомерном классификационном пространстве.

Приступая к формированию такого пространства, необходимо предварительно установить, каким стилеразличающим или стиле­объединяющим потенциалом обладает конкретная типовая дре­весная фигура. Учитывая стилистически сильные и отсеивая сти­листически слабые фигуры, мы сокращаем количество векторов в многомерном пространстве и тем самым облегчаем процедуру классифицирования.

Исследование проводилось на материале русской художе­ственной прозы конца XIX — начала XX в. «Коллектив» белле­тристов и их произведений был сформирован на основании биб­лиографического указателя К. Д. Муратовой.4 При этом мы пол­ностью отвлекались от масштабов дарования конкретного автора, его роли в литературно-историческом процессе и доли художественно-прозаической «продукции» в его творческом на­следии. Единственное ограничение, которого мы придержива­лись достаточно строго, — хронологическое: исследовался, напри­мер, поздний Толстой и поздний Чехов, но не поздний Горький и поздний Бунин. Общая численность беллетристов — 86 авторов.

Стилевой анализ проводился лишь на материале авторского повествования, поскольку речь персонажей, будучи беллетри­стическим аналогом устной речи, с большим трудом уклады-

4 И с т о р и я русской литературы конца XIX — начала XX в.: Библиогра­фический указатель / Под ред. К. Д. Муратовой. М., 1963.

59

вается в рамки описания в терминах разработанных к настоя­щему времени синтаксических моделей языка.

Предложения реальных текстов представлялись в виде гиб­ридной линейно-структурной схемы, основанной на стрелочной (теория зависимостей) и скобочной (теория составляющих) записи.

В данной работе исследуются два отношения: отношение за­висимости и отношение однородности.

Покажем на конкретном примере использованный нами спо­соб представления синтаксической структуры предложения.

1 2 3 4 5 6 7 8«По вечерам этажи Атлантиды сияли во мраке огненными

9 10 11 12 13 14 15 16несметными глазами и великое множество слуг работало в по-17 18 19 20 21варских, судомойнях и винных подвалах» (И. Бунин. Господин из Сан-Франциско).

и 1 0 1 0 4 1 0 0 0 2 0 0 2 0 2 1 0 0 0 0 11 - 1 2 1 2 0 1 2 2 2 1 0 2 1 0 0 1 2 2 0 3 2

Два ряда цифр, проставленных под узлами дерева, — это зна­чения двух синтаксических параметров, называемых обычно шириной (ау) и длиной (/) дерева в данном узле.

Ширина (хм) дерева в данном узле равна числу исходящих из него стрелок.

Длина дерева (/) в данном узле равна расстоянию от корня дерева до данного узла, измеренному количеством стрелок.

Оба параметра описывают две основные разновидности гипо­таксиса: первый — соподчинение, второй — последовательноеподчинение.

Степенью соподчиненности (Й7) предложения будем называть максимальное значение ширины, выделенное в его дереве, а сте­пенью подчиненности (Ь) — максимальное значение длины.

Для описания механизма однородности введем еще две меры: степень сочиненности и степень перечислительности.

Степенью сочиненности (К) предложения будем называть число реализованных в нем скобочных структур (однородных групп), а степенью перечислительности (Р ) — количество узлов в однородной группе с максимальной длиной перечислительного ряда.

Для предложения, приведенного выше, численные значения четырех параметров таковы: № = 4, 7- = 3, К = 2, Р = 3.

Перечисленные параметры обладают значительным стилераз-«0

личающим потенциалом и часто используются в стилостатисти- ческой практике.5 При исследовании синтаксических структур можно было бы воспользоваться и другими стилистически реле­вантными параметрами, например, обобщенной мерой иерархи­ческой сложности графа управления, степенью загруженности уровней дерева подчинения, средней шириной куста и некото­рыми другими числовыми мерами. Однако следует иметь в виду, что наше исследование имеет массовый характер, и это влечет за собой необходимость древесного представления огромных мас­сивов реальных предложений. Сознавая, что эту задачу можно решить в полной мере лишь путем автоматического синтаксиче­ского анализа и что успехи в этом деле пока не слишком ве­лики, мы априорно ограничили себя изучением небольшого числа наиболее обобщенных показателей, названных выше. Более того, даже этот ограниченный круг показателей мы попытались сузить еще больше путем анализа их стилеразличающих воз­можностей на материале небольшого числа произведений, при­надлежащих авторам с резко отличающейся индивидуальной манерой письма.

Стилистический анализ поведения параметров №, I , К, Р про­водился на материале произведений 10 авторов: Чехова, Куп­рина, Горького, Вересаева, Бунина, Сологуба, Боборыкина, Л. Толстого, А. Каменского, Мамина-Сибиряка. Объем выбороч­ной совокупности по каждому автору составил 500 предложений. Такой объем выборки вполне достаточен при массовом обследо­вании слабо дифференцированных синтаксических связей.6

Приступая к статистическому эксперименту, необходимо иметь в виду, что интенсивность индивидуального использования конкретных синтаксических приемов в сильной степени зависит от склонности автора к употреблению коротких или длинных предложений. Естественно ожидать, что чем больше у конкрет­ного автора размер предложения, тем большим будет среднее значение параметров. Поэтому разумно снять «возмущающее воздействие» размера предложения и сосредоточить внимание исключительно на внутренне присущих данному автору структур­ных механизмах. Если этого не сделать, то некоторые существен­ные особенности индивидуальной манеры письма могут ускольз-

5 С е в б о И. П. , П е т у н и и Ю . И . И с с л е д о в а н и е си н так си ч еско й с т р у к ­ту р ы стати сти ч ески м и м ет о д а м и . — В кн .: Н а у ч н о -т е х н и ч е с к а я и н ф о р м ац и я , С ер . 2, 1976, № 2, с. 17— 36; А к и м о в а Г. Н . Ш и р и н а соп о д ч и н ен н о го к у ­с та к а к при н ц и п р а зв е р т ы в а н и я п р е д л о ж е н и я (н а м а т е р и а л е я зы к а М . В.

Л о м о н о с о в а ) .— С е зк о зк ту е п зк а ги зЫ Ш а, 1973, № 5, в. 199— 208; М а р ­т ы н е н к о Г. Я. С т ат и с ти ч ес к о е и ссл ед о в ан и е си н так си ч еско й сл о ж н о с ти п р е д л о ж ен и я . — В кн .: И н ф о р м ац и о н н ы е во п р о сы сем и о ти ки , л и н гв и сти к и и а в т о м ат и ч ес к о го п е р ев о д а , вы п. 1. М ., 1971, с. 84— 101.

6 С л е п а к Б . Я. О н ек о то р ы х в о п р о с ах м ето д и к и о р г а н и за ц и и с т а т и с т и ­ческих и ссл ед о в ан и й на с и н так си ч еско м у р о вн е . — В кн .: С т р у к т у р н а я и м а ­т е м а т и ч е с к а я л и н гв и с ти к а , вы п . 2. К и ев , 1977, с. 9 9 — 105.

61

путь из поля зрения исследователя, поскольку размер предло­жения от автора к автору варьирует в очень широких границах. Так, средний размер предложения в произведениях 10 авторов, перечисленных выше, варьирует от 7,0 слов у А. Каменского до 24,1 слова у Бунина. Более того, даже в произведениях одного автора средний размер предложения также подвержен значи­тельным колебаниям. Например, в «Господине из Сан-Фран­циско» Бунина средний размер предложения равен 37,1 словам, а в «Последней весне» — лишь 9,8 словам.

Рис. 1. График зависимости сте- Рис. 2. График зависимости сте­пени соподчиненности (Ц7) от раз- пени подчиненности (Ь) от раз­

мера предложения (й) мера предложения (Л)1— Мамин-Сибиряк, 2 — Королен­ко, 3 — Л. Толстой, 4 — А. Камен­

ский, 5 — Чехов

Для снятия возмущающего размера предложения нами была построена серия корреляционных таблиц, отражающих зависи­мость между параметрами Ц7, А, К, Г и размером предложения. При обработке количественных данных были получены два ряда условных средних в соответствии с тем, какой из двух признаков (размер предложения или величина параметра) выступал в роли факторного или результативного. В данной работе мы ограни­чимся рассмотрением варианта, когда в качестве факторного признака выступает размер предложения, а в роли результатив­ного— значения четырех интересующих нас параметров.

Остановимся сначала на зависимости гипотактических пара­метров от размера предложения. На рис. 1 и 2 видно, что услов­ные средние этих параметров постепенно замедляют свой рост. Особенно быстро это происходит с условными средними й?: на­чиная с размера предложения, равного примерно 35 словам, ре­грессионная кривая практически достигает уровня насыщения и стелется вдоль оси абсцисс. Из этого следует, что две разно­видности гипотаксиса ведут себя принципиально иначе: оба па-62

раметра неограниченно возрастают, но у й7 теоретический верх­ний предел есть, а у Ь такого предела нет.

Однако различия между двумя гипотактическими парамет­рами этим не исчерпываются. Степень соподчиненности обладает тем замечательным свойством, что ее средняя величина в пред­ложениях любой фиксированной длины не зависит от индиви­дуальной манеры письма, а лишь удостоверяет принадлежность текстов конкретного автора к жанру художественной прозы. Степень соподчиненное™ от автора к автору, конечно варьирует, но эта вариация имеет отраженный характер: она целиком опре­деляется варьированием среднего размера предложения. У авто­ров с одинаковым средним размером предложения степень со­подчиненное™ также будет одинаковой.

Асимптотический характер возрастания условных средних степени соподчиненное™ с хорошим приближением описывается экспоненциальной функцией вида

№ = № ш а х ( 1

где 1̂ юах — уровень насыщения, й — размер предложения, с — постоянный коэффициент.

Величина уровня насыщения не зависит от принадлежности текстов к тому или иному функциональному стилю, а опреде­ляется исключительно структурой конкретного естественного языка. Иначе говоря, этот коэффициент можно считать внутри­языковой универсалией (в русском языке он равен 3,8 соподчи­няющим связям).7 В отличие от коэффициента 117тах коэффи­циент с имеет фиксированное значение лишь в пределах одного функционального стиля или жанра в пределах этого стиля, т. е. является внутристилевой (внутрижанровой) числовой универ­салией: для русской художественной прозы исследуемого перио­да он равен 0,10.

Что касается степени подчиненности, то в рамках художе­ственной прозы каждый автор имеет индивидуальную регрес­сионную кривую в виде восходящей ветви параболы с предельно простым аналитическим выражением:

! = ( < / - 1 )", ( 1 )

где й — размер предложения, п — коэффициент, имеющий для каждого автора постоянное значение.

Рассмотрим теперь поведение паратактических параметров. В отличие от гипотактических, их условные средние возрастают с постоянной скоростью, т. е. подчиняются линейному закону. При этом оба параметра в пределах исследуемого жанра выпол­няют сталеразличающие функции (каждый автор имеет инди-

7 М а р т ы н е н к о Г. Я. Количественный анализ синтаксической слож­ности предложения: Автореф. канд. дис. Л., 1972.

63

видуальную прямую регрессии). Аналитические выражения ре­грессионной связи здесь также очень просты:

к = а ( а — \), (2)

Р = Ь { й - 2 ) + 2, (3)

где (I— размер предложения, а и Ъ — коэффициенты, имеющие для каждого автора фиксированное значение.

При й = 2 правая часть выражения (3) равна 2, т. е. мини­мально возможному объему однородной группы.

Рис. 3. График зависимости сте­пени сочиненности (К) от размера

предложения (<1)1 — Чехов, 2 — А. Каменский, 3 — Л. Толстой, 4 — Короленко, 5 —

Мамин-Сибиряк

Ю 20 30 40

Рис. 4. График зависимости степени перечислительности (Р ) от размера

предложения (<2);1 — А. Каменский, 2 — Чехов, 3 — Ко­роленко, 4 — Л. Толстой, 5 — Мамин-

Сибиряк

Итак, регрессионный анализ позволил нам установить, что) ■среди четырех исследуемых синтаксических параметров только три оказались чувствительными к индивидуальному стилю.

Пучки линий регрессии, показанные на рис. 2, 3, 4, дают на­глядное представление о синтаксисе художественной прозы исследуемого периода. По размаху веера каждого пучка можно судить, например, о верхней и нижней границе степени паратак­тичности или гипотактичности беллетристики, а также о том, в произведениях каких писателей эти пределы достигаются. Из графиков, в частности, видно, что Чехов опережает своих коллег по степени сочиненности, а по степени подчиненности, наоборот, им уступает, что хорошо согласуется с наблюдениями литературоведов.8 Полярная противоположность Чехову по обоим параметрам — Мамин-Сибиряк. Все остальные прозаики группируются между двумя синтаксическими «антиподами», тя-

* Ч у д а к о в А. П. Поэтика Чехова. М., 1971; У с м а н о в Л. Д. По­этика рассказов и повестей Чехова 1895— 1905 гг.: Автореф. канд. дис. Л., 1967.

64

готея в тон или иной мере к крайним значениям паратаксиса или гипотаксиса. Конкуренция между этими тенденциями отли­чается удивительной правильностью. Из рис. 2 и 3 видно, что индивидуальные линии регрессии параметров К и К между осями координат располагаются в строго обратном порядке. Если построить два ранжированных ряда (убывающий для сте­пени сочиненности и возрастающий для степени подчиненности или наоборот), воспользовавшись для этого индивидуальными значениями коэффициентов к и а в регрессионных уравнениях (1) и (2), то будет видно, что в двух ранжировках нет почти никаких расхождений. Следовательно, при изучении внутрижан- ровой дифференциации текстов одним из этих параметров можно пренебречь. Поскольку размах «веера» регрессионных кривых у степени сочиненности значительно шире, лучше отдать пред­почтение этому параметру. В пользу такого решения говорит также и то, что, отказавшись от степени подчиненности, мы тем самым избавляем себя от трудоемкой операции древесного пред­ставления огромной массы предложений текста.

Итак, корреляционный анализ позволил нам отсеять гипотак­тические параметры и оставить лишь паратактические как сти­листически более существенные. Этот результат не представ­ляется случайным, так как синтаксический паратаксис может рассматриваться как частное проявление более общего меха­низма-параллелизма, определяющего ритмическое строение художественной речи в отличие от речи рациональной (научной, деловой и т. п.).

Выяснив стилеразличающне способности синтаксических па­раметров на материале текстов ограниченного числа авторов, перейдем к анализу беллетристов данного периода. Все прозаики могут быть упорядочены по величине коэффициентов а и & в уравнениях (3) и (2). При вычислении индивидуальных значе­ний этих коэффициентов по методу наименьших квадратов нужно решить лишь одно уравнение простейшего типа. Так, для сте­пени сочиненности это уравнение имеет вид:

где К — среднее число однородных групп в предложении, А — средний размер предложения в текстах конкретного автора.

Выполнив необходимые вычисления, получаем ранговые рас­пределения 86 прозаиков по трем стилистически сильным пара­метрам: степени сочиненности, степени перечислительности и среднему размеру предложения. В качестве иллюстрации в табл. 1 приведено ранговое распределение беллетристов по сте­пени сочиненности.

Три ранговых распределения создают эмпирическую основу для классификации прозаиков в трехмерном синтаксическом пространстве.

655 Зек. .V- 23Э

Поставленная нами классификационная задача относится к совокупности задач, решаемых в рамках численной таксоно-

Таблица IРанговое распределение прозаиков по степени сочиненности

СОа.А в т о р

С т е п е н ьс о ч и н е н ­

н о ст и даа

А в т о рС т е п е н ь с о ч и н е н - й

к о с т и

1 Чехов 0,1191 44 Г офман 0,07622 Л. Андоеев 0,1142 45 Кузмии 0,07613 Муйжель 0,1093 46 Винниченко 0.07614 Б. Зайцев 0,1053 47 Дымов 0,07605 Телешов 0,1053 48 Г ребенщиков 0 07596 Арцыбашев 0,1003 49 Брусянин 0,07557 Айзман 0,1002 50 Кармен 0,07508 Сурожский 0,0993 51 Наживин 0.07449 Чириков 0,0974 52 Кондурушкин 0,0741

10 Есенин 0,0972 53 Ольнем 0,073211 Шмелев 0,0964 54 Свпрский 0,073012 Вольное 0,0962 55 Л. Толстой 0,072913 Бибик 0,0961 56 Кршшцкнй 0,072314 Ленский 0,0945 57 Рославлев 0,072115 Сологуб 0,0936 58 Садовский 0,07181 6 Соболь 0.0932 59 Чапыгин 0.070317 Новиков 0,0930 60 Лидии 0,070218 Елпатьевскин 0,0923 61 Шагннян 0,069419 Касаткин 0,0920 62 Короленко 0,069020 Г иппиус 0,0916 63 Будишев 0,068721 Бунин 0,0905 64 Гусев-Оренбургский 0,067322 Кипен 0,0903 65 Тренев 0,065823 Неверов 0,0894 6 6 Гуревич 0,065624 Сергеев- Ценский 0,0883 67 М. Леонов 0.065125 Форш 0,0880 68 Пришвин 0,064226 Серафимович 0,0872 69 Немирович-Данченко 0,064027 Ремизов 0,0855 70 Вербицкая 0,061028 Замятин 0,0843 71 Зиновьева-Анниба л 0,053729 Скиталец 0,0843 72 Елеонский 0,0635-30 Шишков 0,0827 73 Куприн 0,062231 Г орький 0,0820 74 Ауслендер 0,062132 Крашенинников 0,0818 75 Чулков 0,061433 Нагродская 0,0805 76 А. Федоров 0.061334 Амфитеатров 0,0803 77 Миртов 0,0600 |35 Вересаев 0,0803 78 Гриневская 0,059136 А. Каменский 0,0801 79 Рукавишников 0,058» |37 Гарин 0,0788 80 Боборыкин 0,058638 Подъячев 0,0780 81 Брюсов 0,058539 Гиляровский 0,0774 82 Дорошевич 0,058840 Медицина 0,0772 83 Грин 0,0557 '341 Юшкевич 0,0768 84 Мережковский 0,054842 А. Толстой 0,0764 85 Линев 0,050043 Тимковский 0,0762 86 Мамин-Сибиряк 0,0491 ,

мин. В роли исходных данных в численной таксономии высту­пают: множество объектов, принадлежащих априорно неизвест­ным, частично пересекающимся классам; набор количественных

66

признаков, конкретные значения которых соответствуют каж­дому из подлежащих классифицированию объектов; последова­тельность решающих правил, на основании которых принимается решение о принадлежности объектов к неизвестным классам.9 Задача состоит в том, чтобы множество объектов разделить на конечное, заранее неизвестное число классов (кластеров, таксо­нов). Принадлежность к классу оценивается на основе расстоя­ния между объектами в пространстве признаков. Два и более объектов сходны, если расстояние между ними не больше неко­торой пороговой величины, определяющей принадлежность к классу.

Итак, наша задача состоит в том, чтобы исследуемых про­заиков разделить на однородные в синтаксическом отношении группы по трем стилистически релевантным признакам. С целью упрощения вычислительной процедуры и достижения единой раз­мерности признаков каждому автору мы будем ставить в соот­ветствие не конкретную численную величину признака, а только ранг, соответствующий этой величине. Мерой синтаксической близости каждой пары авторов будем считать сумму разностей их рангов в каждом из трех ранжированных рядов. Иными сло­вами, каждому автору ставится в соответствие множество всех остальных авторов, упорядоченных по возрастанию рангового расстояния от данного автора. Такой способ измерения расстоя­ния согласуется с трактовкой расстояния по Хеммингу.

Эти расстояния варьируют в очень широком диапазоне: от 5 в паре Свирский — Ольнем до 230 в паре Дорошевич — Л. Ан­дреев. На этом интервале необходимо выбрать критическую точку, разделяющую близкие и далекие расстояния. Близкими расстояниями естественно считать совокупность расстояний каж­дого автора до ближайшего соседа. Эти расстояния в нашем коллективе заключены в диапазоне от 5 в паре Свирский — Ольнем до 30 в паре Муйжель — Л. Андреев. В качестве поро­говой величины, определяющей принадлежность к классу, можно выбрать верхнюю границу указанного интервала. Это означает, что в подмножестве авторов, тесно связанных с каким-либо од­ним автором, мы включаем лишь тех, которые удалены от него не более чем на 30 единиц. Число авторов, тесно связанных с данными, при этом оказывается переменным: Г. Чулков, на­пример, имеет лишь одного синтаксически близкого партнера (А. Федоров), а Короленко — семь таких партнеров (Пришвин, Гусев-Оренбургский, Садовский, Винниченко, Чапыгин, М. Лео­нов, Будищев).

После выделения подмножества близких связей, можно при­ступить к построению графа, в котором в роли вершин высту­пают авторы, а в роли ребер — близкие связи. В принципе та-

9 А й в а з я н С. А., Б е ж а е в а 3. М., С т а р о в е р о в О. В. Классифи­кация многомерных наблюдений. М., 1974.

07

кой граф должен быть построен в трехмерном пространстве, но такое представление лишено наглядности. Поэтому разумно по­строить плоскостной граф, несколько искажающий реальные взаимоотношения между прозаиками, но зато более наглядный.

Граф строится следующим образом. Выбираем наугад какого- либо автора и соединяем его ребрами с другими авторами, рас­положенными от него на расстоянии, не превышающем порого­вой величины. Среди множества присоединившихся авторов-вер- шин выбираем любую и соединяем ее ребрами с вершинами, тесно связанными с данной. Если при этом образовался цикл или группа циклов с общим ребром, то совокупность узлов, при­надлежащих этим циклам или группе «смежных» циклов, счи­тается одним классом. Затем присоединяются следующие вер­шины, и процедура формирования класса продолжается до тех пор, пока не прекратится образование циклов. Вершина, при­соединившаяся к «зацикленной» группе с помощью моста, яв­ляется кандидатом на формирование очередного класса. Если эта вершина не имеет сильных связей, кроме той, с помощью которой она присоединилась к сформированному классу, то она считается самостоятельным одноэлементным классом. Если же она дополнительно имеет одну и более сильных связей, то на­чинается процедура построения нового класса, описанная выше.

После перебора всех авторов-вершин была построена си­стема взаимосвязанных классов, показанная на рис. 5. Классы обладают рядом формальных свойств, на основании которых можно выделить наиболее типичные для исследуемого периода классы. В качестве меры типичности выберем следующие число­вые показатели:

1. М о щ н о с т ь к л а с с а (число входящих в него вершин). Полученные классы «заселены» крайне неравномерно: самый мощный класс включает 18 беллетристов, четыре класса вклю­чают только одного автора.

2. К о м п а к т н о с т ь к л а с с а (отношение числа сильных в нашем понимании связей к числу вершин). Минимальная ком­пактность класса равна единице (число вершин равно числу связей).

3. « В а л е н т н а я » а к т и в н о с т ь к л а с с а (число связей, соединяющих данный класс с другими классами). Этот показа­тель изменяется в диапазоне от 1 до 5 связей.

4. Ц е н т р а л ь н о с т ь к л а с с а (сумма средних ранговых расстояний вершин класса от центра каждого из трех ранговых распределений).

Все классы кроме одноэлементных (их нетипичность оче­видна и без вычислений) были проранжированы по этим четы­рем показателям, а затем для каждого класса были найдены суммы их рангов в четырех ранжированных рядах. Классы, упо­рядоченные по величине этого обобщенного показателя типич­ности, приведены в табл. 2. Каждому классу дано имя одного из68

69

Рис.

5.

Син

такс

ичес

кие

клас

сы б

елле

трис

тов

■1------1------ 1------1------1____I I

Рис. 6. Ранговые распределения классов беллетристов по сте­

пени типичности г — ранг; I — степень типич­

ности

входящих в него беллетристов. Соответствующий график при­веден на рис. 6.

График рангового распределения классов по обобщенному показателю типичности имеет 5-образную форму с точкой пере­

гиба, расположенной в центре ранжированного ряда. Эту точку можно считать границей между типичными и нетипичными клас­сами.

Самым типичным является класс писателей с предельно урав­новешенным «среднебеллетристи­ческим» синтаксисом (класс Ко­роленко) . Около этого центра равновесия размещаются две контрастные группы типичных классов. Для одной из них (клас­сы Чехова, Сологуба, А. Камен­ского) характерно преимуще­ственное использование паратак­тической техники, для другой (классы Кузмина и Куприна)— гипотактической. При этом сте­

пень типичности в первой группе значительно выше, чем во вто­рой. Этот результат не представляется случайным, и объясня­ется он прежде всего тем, что эталоном беллетристичности, во многом определившим пути формирования поэтических школ XX в., стала чеховская проза. Причем некоторые наиболее от­кровенные синтаксические «изобретения» Чехова, например, сверхнормативное нагнетание сочинительных групп, объединен­ных союзом «и», были усвоены многими прозаиками столь пря­молинейно, что страницы их произведений порой кажутся ко­пиями чеховских.

Однако несмотря на массовое распространение чеховской манеры письма, значительную устойчивость в исследуемый пе­риод обнаруживает и синтаксическая традиция Льва Толстого, для которой, как и для чеховской, характерна высокая степень детализации (большой средний размер предложения), но дета­лизация Толстого принципиально иная: она осуществляется главным образом на основе подчинительных связей.

На фоне синтаксических традиций Чехова и Толстого в ис­следуемый период происходит резкий сдвиг в сторону уменьше­ния дозировки информации в предложении. Стремление к крат­кости (преимущественно паратактической) становится массо­вым. Так, в классе А. Каменского нет ни одного писателя стар­шего поколения, а многие из них, такие, как Замятин, Шишков, Бибик п др., достигли творческой зрелости лишь в послерево­люционную эпоху.70

Для авторов, образующих нетипичные классы, характерно стремление к синтаксическому «экстремуму» по двум или даже по трем параметрам. При этом максимальное синтаксическое «несогласие» с мнением большинства проявляют писатели, обра­зующие одноэлементные классы: Л. Андреев, Бунин, Рукавиш­ников, Чулков.

Таблица 2Ранговое распределение классов беллетри­стов по обобщенному показателю типичности

Р а н г И м я к л а с с аО б о б щ е н н ы й п о к а ­з а т е л ь 1 ИПИЧНОСТИ

1 Короленко 5,02 Чехов 15,03 Сологуб ! 6,54 А. Каменский 18,55 Куприн 23,06 Кузмнн 26,57 Мережковский 28,08 А. Толстой 29,59 Грин 30,0

10 Ремизов 31,511 Вересаев 39,5

Первое место среди них, безусловно, принадлежит Л. Ан­дрееву. Усвоив наиболее яркие черты синтаксиса Чехова, в част­ности экстремальную степень сочиненности, Л. Андреев суще­ственно сократил протяженный перечислительный ряд своего выдающегося предшественника. Андреевский перечислительный ряд — чаще всего закрытый. При этом члены андреевского ряда значительно чаще, чем у Чехова, объединяются сравнительными и противительными союзами. В этом отношении Л. Андреев опередил даже Л. Толстого, у которого однородные группы строятся на отношении противопоставления ее членов. Что ка­сается среднего размера предложения, то и здесь Л. Андреев не отличается особой умеренностью. Если у Л. Толстого этот показатель равен 20,1, а у Чехова — 18,9 словам, то андреевское предложение в среднем состоит из 22,8 слов. В этой связи нам кажется уместным привести меткую характеристику Л. Андре­ева, данную К. И. Чуковским: «Все свойства своих современни­ков Андреев увеличил до грандиозных размеров, и все совместил в себе. Он — синтез нашей эпохи под сильным увеличительным стеклом».10 К. И. Чуковский имел в виду идеологический гипер­болизм Л. Андреева, но этим, как мы пытались показать, ан-

10 Ч у к о в с к и й К. От Чехова до наших дней. Литературные портреты, характеристики. М., 1910.

71

дреевский гиперболизм не исчерпывается — этот писатель чрез- вычаен даже, синтаксически.

Продолжая анализ, можно было бы сказать о детализирую щей изобильности Бунина, перечислительной щедрости Мереж­ковского, гипотактической «деловитости» прозы Мамина-Сиби- ряка и т. д. Сознавая, однако, что без пространных иллюстра­ций из текстов многочисленных авторов наше истолкование мо­жет показаться не слишком убеждающим, мы ограничимся на­блюдениями, приведенными выше.