МНОГОМЕРНЫЙ СИНТАКТИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ...
Transcript of МНОГОМЕРНЫЙ СИНТАКТИКО-СТАТИСТИЧЕСКИЙ АНАЛИЗ...
ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА
СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Межвузовский сборник
В ы п у с к 2
ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА
1983
Печатается по постановлению Редакционно-издательского совета
Ленинградского университета
Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные вопросы семантики предложения, применения математических методов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспечения автоматических систем обработки текста.
1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.
Сборник предназначен для филологов, специалистов по прикладной и математической лингвистике.
Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богданов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Городецкий.
Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).
ИБ № 1462
Структурная и прикладная лингвистика
Межвузовский сборник
В ы п у с к 2
Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.
Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.
1593000000—933 С 076(02)—83 68-83 .
Издательство Ленинград- С) ского университета,
1983 г.
II
Г. Я. Мартыненко
МНОГОМЕРНЫЙ с и н т а к т и к о -стл ти ст и че ск ий АНАЛИЗ ХУДОЖЕСТВЕННОЙ ПРОЗЫ
Рассматривая конкретное художественное произведение как нечто уникальное и неповторимое, следует всегда иметь в виду, что оно создается в определенной «диалектной» среде1 на фоне •системы норм,2 которые стихийно вырабатываются в процессе обменных контактов всех писателей, живущих в данную эпоху. Именно коллективная компонента внутреннего строения произведений позволяет объединить в единое целое всех писателей данной эпохи, независимо от масштабов их дарования и роли в литературном движении. В рамках общей целостности, в свою очередь, можно выделить частные целостности, например, группы писателей, тяготеющих к школе избранного ими руководителя или к определенному литературному направлению.
Поскольку поэзия есть искусство слова, при классификации писателей конкретной эпохи разумно исходить из критерия лингвистической близости их произведений.3 Такой подход, не являясь бесспорным, привлекает, тем не менее, своей реалистичностью, ибо собственный понятийный аппарат и исследовательская техника общей поэтики находятся в стадии становления.
Лингвистическое классифицирование художественных произведений может быть плодотворным лишь тогда, когда исследователь пользуется структурными характеристиками, которые отражают наиболее общие закономерности структуры текста и ■обладают значительной стилеразличающей (или стилеобъединяющей) силой. При этом процедура классифицирования значительно упрощается, если эти структурные характеристики
1 В и н о г р а д о в В. В. О задачах стилисгики. Наблюдения над стилем лития протопопа Аввакума. — В кн.: Русская речь, I. Петроград, 1923, с. 195—293.
2 Т ы н я н о в Ю. Н. Проблемы изучения литературы и языка. — В кн.: Тынянов Ю. Н. Поэтика, история литературы, кино. М., 1977, с. 282—283.
3 В и н о г р а д о в В. В. О задачах стилистики; Ж у р м у и с к и й В В. -Задачи поэтики. — В кн.: Жирмунский В. В. Теория литературы, поэтики, стилистики. Л., 1977, с. 15—56.
58
являются компонентами математических моделей (или выводятся из них), легко поддаются количественному измерению и могут быть интерпретированы как оптимизационные параметры, диа- пазбн состояний которых регулируется стихией обменных контактов в среде индивидов, занятых одним видом деятельности.
Современное состояние лингвистики таково, что пространство признаков, отвечающих перечисленным свойствам, молено построить лишь на синтаксическом уровне с использованием некоторых элементов синтаксических структур в терминах теории графов. Такие способы представления предложения обнажают его иерархический и линейный скелет, сообщают ему геометрическую наглядность. Располагая массой древовидных схем предложения, гораздо легче изучать как общие, так и индивидуальные закономерности группирования синтаксических связей, их стилеразличающие и стилеобъединяющие возможности. Если учесть, что схематизация не исключает, а даже предполагает последующую интерпретацию древесных фигур с позиций синтаксических представлений, сложившихся в классическом языкознании, то польза от такого обобщенного подхода становится еще более очевидной.
Синтаксические приемы, используемые для наращивания объема предложения, можно свести к обозримому набору типовых стилистических фигур, каждая из которых может выступать в роли вектора в многомерном классификационном пространстве.
Приступая к формированию такого пространства, необходимо предварительно установить, каким стилеразличающим или стилеобъединяющим потенциалом обладает конкретная типовая древесная фигура. Учитывая стилистически сильные и отсеивая стилистически слабые фигуры, мы сокращаем количество векторов в многомерном пространстве и тем самым облегчаем процедуру классифицирования.
Исследование проводилось на материале русской художественной прозы конца XIX — начала XX в. «Коллектив» беллетристов и их произведений был сформирован на основании библиографического указателя К. Д. Муратовой.4 При этом мы полностью отвлекались от масштабов дарования конкретного автора, его роли в литературно-историческом процессе и доли художественно-прозаической «продукции» в его творческом наследии. Единственное ограничение, которого мы придерживались достаточно строго, — хронологическое: исследовался, например, поздний Толстой и поздний Чехов, но не поздний Горький и поздний Бунин. Общая численность беллетристов — 86 авторов.
Стилевой анализ проводился лишь на материале авторского повествования, поскольку речь персонажей, будучи беллетристическим аналогом устной речи, с большим трудом уклады-
4 И с т о р и я русской литературы конца XIX — начала XX в.: Библиографический указатель / Под ред. К. Д. Муратовой. М., 1963.
59
вается в рамки описания в терминах разработанных к настоящему времени синтаксических моделей языка.
Предложения реальных текстов представлялись в виде гибридной линейно-структурной схемы, основанной на стрелочной (теория зависимостей) и скобочной (теория составляющих) записи.
В данной работе исследуются два отношения: отношение зависимости и отношение однородности.
Покажем на конкретном примере использованный нами способ представления синтаксической структуры предложения.
1 2 3 4 5 6 7 8«По вечерам этажи Атлантиды сияли во мраке огненными
9 10 11 12 13 14 15 16несметными глазами и великое множество слуг работало в по-17 18 19 20 21варских, судомойнях и винных подвалах» (И. Бунин. Господин из Сан-Франциско).
и 1 0 1 0 4 1 0 0 0 2 0 0 2 0 2 1 0 0 0 0 11 - 1 2 1 2 0 1 2 2 2 1 0 2 1 0 0 1 2 2 0 3 2
Два ряда цифр, проставленных под узлами дерева, — это значения двух синтаксических параметров, называемых обычно шириной (ау) и длиной (/) дерева в данном узле.
Ширина (хм) дерева в данном узле равна числу исходящих из него стрелок.
Длина дерева (/) в данном узле равна расстоянию от корня дерева до данного узла, измеренному количеством стрелок.
Оба параметра описывают две основные разновидности гипотаксиса: первый — соподчинение, второй — последовательноеподчинение.
Степенью соподчиненности (Й7) предложения будем называть максимальное значение ширины, выделенное в его дереве, а степенью подчиненности (Ь) — максимальное значение длины.
Для описания механизма однородности введем еще две меры: степень сочиненности и степень перечислительности.
Степенью сочиненности (К) предложения будем называть число реализованных в нем скобочных структур (однородных групп), а степенью перечислительности (Р ) — количество узлов в однородной группе с максимальной длиной перечислительного ряда.
Для предложения, приведенного выше, численные значения четырех параметров таковы: № = 4, 7- = 3, К = 2, Р = 3.
Перечисленные параметры обладают значительным стилераз-«0
личающим потенциалом и часто используются в стилостатисти- ческой практике.5 При исследовании синтаксических структур можно было бы воспользоваться и другими стилистически релевантными параметрами, например, обобщенной мерой иерархической сложности графа управления, степенью загруженности уровней дерева подчинения, средней шириной куста и некоторыми другими числовыми мерами. Однако следует иметь в виду, что наше исследование имеет массовый характер, и это влечет за собой необходимость древесного представления огромных массивов реальных предложений. Сознавая, что эту задачу можно решить в полной мере лишь путем автоматического синтаксического анализа и что успехи в этом деле пока не слишком велики, мы априорно ограничили себя изучением небольшого числа наиболее обобщенных показателей, названных выше. Более того, даже этот ограниченный круг показателей мы попытались сузить еще больше путем анализа их стилеразличающих возможностей на материале небольшого числа произведений, принадлежащих авторам с резко отличающейся индивидуальной манерой письма.
Стилистический анализ поведения параметров №, I , К, Р проводился на материале произведений 10 авторов: Чехова, Куприна, Горького, Вересаева, Бунина, Сологуба, Боборыкина, Л. Толстого, А. Каменского, Мамина-Сибиряка. Объем выборочной совокупности по каждому автору составил 500 предложений. Такой объем выборки вполне достаточен при массовом обследовании слабо дифференцированных синтаксических связей.6
Приступая к статистическому эксперименту, необходимо иметь в виду, что интенсивность индивидуального использования конкретных синтаксических приемов в сильной степени зависит от склонности автора к употреблению коротких или длинных предложений. Естественно ожидать, что чем больше у конкретного автора размер предложения, тем большим будет среднее значение параметров. Поэтому разумно снять «возмущающее воздействие» размера предложения и сосредоточить внимание исключительно на внутренне присущих данному автору структурных механизмах. Если этого не сделать, то некоторые существенные особенности индивидуальной манеры письма могут ускольз-
5 С е в б о И. П. , П е т у н и и Ю . И . И с с л е д о в а н и е си н так си ч еско й с т р у к ту р ы стати сти ч ески м и м ет о д а м и . — В кн .: Н а у ч н о -т е х н и ч е с к а я и н ф о р м ац и я , С ер . 2, 1976, № 2, с. 17— 36; А к и м о в а Г. Н . Ш и р и н а соп о д ч и н ен н о го к у с та к а к при н ц и п р а зв е р т ы в а н и я п р е д л о ж е н и я (н а м а т е р и а л е я зы к а М . В.
Л о м о н о с о в а ) .— С е зк о зк ту е п зк а ги зЫ Ш а, 1973, № 5, в. 199— 208; М а р т ы н е н к о Г. Я. С т ат и с ти ч ес к о е и ссл ед о в ан и е си н так си ч еско й сл о ж н о с ти п р е д л о ж ен и я . — В кн .: И н ф о р м ац и о н н ы е во п р о сы сем и о ти ки , л и н гв и сти к и и а в т о м ат и ч ес к о го п е р ев о д а , вы п. 1. М ., 1971, с. 84— 101.
6 С л е п а к Б . Я. О н ек о то р ы х в о п р о с ах м ето д и к и о р г а н и за ц и и с т а т и с т и ческих и ссл ед о в ан и й на с и н так си ч еско м у р о вн е . — В кн .: С т р у к т у р н а я и м а т е м а т и ч е с к а я л и н гв и с ти к а , вы п . 2. К и ев , 1977, с. 9 9 — 105.
61
путь из поля зрения исследователя, поскольку размер предложения от автора к автору варьирует в очень широких границах. Так, средний размер предложения в произведениях 10 авторов, перечисленных выше, варьирует от 7,0 слов у А. Каменского до 24,1 слова у Бунина. Более того, даже в произведениях одного автора средний размер предложения также подвержен значительным колебаниям. Например, в «Господине из Сан-Франциско» Бунина средний размер предложения равен 37,1 словам, а в «Последней весне» — лишь 9,8 словам.
Рис. 1. График зависимости сте- Рис. 2. График зависимости степени соподчиненности (Ц7) от раз- пени подчиненности (Ь) от раз
мера предложения (й) мера предложения (Л)1— Мамин-Сибиряк, 2 — Короленко, 3 — Л. Толстой, 4 — А. Камен
ский, 5 — Чехов
Для снятия возмущающего размера предложения нами была построена серия корреляционных таблиц, отражающих зависимость между параметрами Ц7, А, К, Г и размером предложения. При обработке количественных данных были получены два ряда условных средних в соответствии с тем, какой из двух признаков (размер предложения или величина параметра) выступал в роли факторного или результативного. В данной работе мы ограничимся рассмотрением варианта, когда в качестве факторного признака выступает размер предложения, а в роли результативного— значения четырех интересующих нас параметров.
Остановимся сначала на зависимости гипотактических параметров от размера предложения. На рис. 1 и 2 видно, что условные средние этих параметров постепенно замедляют свой рост. Особенно быстро это происходит с условными средними й?: начиная с размера предложения, равного примерно 35 словам, регрессионная кривая практически достигает уровня насыщения и стелется вдоль оси абсцисс. Из этого следует, что две разновидности гипотаксиса ведут себя принципиально иначе: оба па-62
раметра неограниченно возрастают, но у й7 теоретический верхний предел есть, а у Ь такого предела нет.
Однако различия между двумя гипотактическими параметрами этим не исчерпываются. Степень соподчиненности обладает тем замечательным свойством, что ее средняя величина в предложениях любой фиксированной длины не зависит от индивидуальной манеры письма, а лишь удостоверяет принадлежность текстов конкретного автора к жанру художественной прозы. Степень соподчиненное™ от автора к автору, конечно варьирует, но эта вариация имеет отраженный характер: она целиком определяется варьированием среднего размера предложения. У авторов с одинаковым средним размером предложения степень соподчиненное™ также будет одинаковой.
Асимптотический характер возрастания условных средних степени соподчиненное™ с хорошим приближением описывается экспоненциальной функцией вида
№ = № ш а х ( 1
где 1̂ юах — уровень насыщения, й — размер предложения, с — постоянный коэффициент.
Величина уровня насыщения не зависит от принадлежности текстов к тому или иному функциональному стилю, а определяется исключительно структурой конкретного естественного языка. Иначе говоря, этот коэффициент можно считать внутриязыковой универсалией (в русском языке он равен 3,8 соподчиняющим связям).7 В отличие от коэффициента 117тах коэффициент с имеет фиксированное значение лишь в пределах одного функционального стиля или жанра в пределах этого стиля, т. е. является внутристилевой (внутрижанровой) числовой универсалией: для русской художественной прозы исследуемого периода он равен 0,10.
Что касается степени подчиненности, то в рамках художественной прозы каждый автор имеет индивидуальную регрессионную кривую в виде восходящей ветви параболы с предельно простым аналитическим выражением:
! = ( < / - 1 )", ( 1 )
где й — размер предложения, п — коэффициент, имеющий для каждого автора постоянное значение.
Рассмотрим теперь поведение паратактических параметров. В отличие от гипотактических, их условные средние возрастают с постоянной скоростью, т. е. подчиняются линейному закону. При этом оба параметра в пределах исследуемого жанра выполняют сталеразличающие функции (каждый автор имеет инди-
7 М а р т ы н е н к о Г. Я. Количественный анализ синтаксической сложности предложения: Автореф. канд. дис. Л., 1972.
63
видуальную прямую регрессии). Аналитические выражения регрессионной связи здесь также очень просты:
к = а ( а — \), (2)
Р = Ь { й - 2 ) + 2, (3)
где (I— размер предложения, а и Ъ — коэффициенты, имеющие для каждого автора фиксированное значение.
При й = 2 правая часть выражения (3) равна 2, т. е. минимально возможному объему однородной группы.
Рис. 3. График зависимости степени сочиненности (К) от размера
предложения (<1)1 — Чехов, 2 — А. Каменский, 3 — Л. Толстой, 4 — Короленко, 5 —
Мамин-Сибиряк
Ю 20 30 40
Рис. 4. График зависимости степени перечислительности (Р ) от размера
предложения (<2);1 — А. Каменский, 2 — Чехов, 3 — Короленко, 4 — Л. Толстой, 5 — Мамин-
Сибиряк
Итак, регрессионный анализ позволил нам установить, что) ■среди четырех исследуемых синтаксических параметров только три оказались чувствительными к индивидуальному стилю.
Пучки линий регрессии, показанные на рис. 2, 3, 4, дают наглядное представление о синтаксисе художественной прозы исследуемого периода. По размаху веера каждого пучка можно судить, например, о верхней и нижней границе степени паратактичности или гипотактичности беллетристики, а также о том, в произведениях каких писателей эти пределы достигаются. Из графиков, в частности, видно, что Чехов опережает своих коллег по степени сочиненности, а по степени подчиненности, наоборот, им уступает, что хорошо согласуется с наблюдениями литературоведов.8 Полярная противоположность Чехову по обоим параметрам — Мамин-Сибиряк. Все остальные прозаики группируются между двумя синтаксическими «антиподами», тя-
* Ч у д а к о в А. П. Поэтика Чехова. М., 1971; У с м а н о в Л. Д. Поэтика рассказов и повестей Чехова 1895— 1905 гг.: Автореф. канд. дис. Л., 1967.
64
готея в тон или иной мере к крайним значениям паратаксиса или гипотаксиса. Конкуренция между этими тенденциями отличается удивительной правильностью. Из рис. 2 и 3 видно, что индивидуальные линии регрессии параметров К и К между осями координат располагаются в строго обратном порядке. Если построить два ранжированных ряда (убывающий для степени сочиненности и возрастающий для степени подчиненности или наоборот), воспользовавшись для этого индивидуальными значениями коэффициентов к и а в регрессионных уравнениях (1) и (2), то будет видно, что в двух ранжировках нет почти никаких расхождений. Следовательно, при изучении внутрижан- ровой дифференциации текстов одним из этих параметров можно пренебречь. Поскольку размах «веера» регрессионных кривых у степени сочиненности значительно шире, лучше отдать предпочтение этому параметру. В пользу такого решения говорит также и то, что, отказавшись от степени подчиненности, мы тем самым избавляем себя от трудоемкой операции древесного представления огромной массы предложений текста.
Итак, корреляционный анализ позволил нам отсеять гипотактические параметры и оставить лишь паратактические как стилистически более существенные. Этот результат не представляется случайным, так как синтаксический паратаксис может рассматриваться как частное проявление более общего механизма-параллелизма, определяющего ритмическое строение художественной речи в отличие от речи рациональной (научной, деловой и т. п.).
Выяснив стилеразличающне способности синтаксических параметров на материале текстов ограниченного числа авторов, перейдем к анализу беллетристов данного периода. Все прозаики могут быть упорядочены по величине коэффициентов а и & в уравнениях (3) и (2). При вычислении индивидуальных значений этих коэффициентов по методу наименьших квадратов нужно решить лишь одно уравнение простейшего типа. Так, для степени сочиненности это уравнение имеет вид:
где К — среднее число однородных групп в предложении, А — средний размер предложения в текстах конкретного автора.
Выполнив необходимые вычисления, получаем ранговые распределения 86 прозаиков по трем стилистически сильным параметрам: степени сочиненности, степени перечислительности и среднему размеру предложения. В качестве иллюстрации в табл. 1 приведено ранговое распределение беллетристов по степени сочиненности.
Три ранговых распределения создают эмпирическую основу для классификации прозаиков в трехмерном синтаксическом пространстве.
655 Зек. .V- 23Э
Поставленная нами классификационная задача относится к совокупности задач, решаемых в рамках численной таксоно-
Таблица IРанговое распределение прозаиков по степени сочиненности
СОа.А в т о р
С т е п е н ьс о ч и н е н
н о ст и даа
А в т о рС т е п е н ь с о ч и н е н - й
к о с т и
1 Чехов 0,1191 44 Г офман 0,07622 Л. Андоеев 0,1142 45 Кузмии 0,07613 Муйжель 0,1093 46 Винниченко 0.07614 Б. Зайцев 0,1053 47 Дымов 0,07605 Телешов 0,1053 48 Г ребенщиков 0 07596 Арцыбашев 0,1003 49 Брусянин 0,07557 Айзман 0,1002 50 Кармен 0,07508 Сурожский 0,0993 51 Наживин 0.07449 Чириков 0,0974 52 Кондурушкин 0,0741
10 Есенин 0,0972 53 Ольнем 0,073211 Шмелев 0,0964 54 Свпрский 0,073012 Вольное 0,0962 55 Л. Толстой 0,072913 Бибик 0,0961 56 Кршшцкнй 0,072314 Ленский 0,0945 57 Рославлев 0,072115 Сологуб 0,0936 58 Садовский 0,07181 6 Соболь 0.0932 59 Чапыгин 0.070317 Новиков 0,0930 60 Лидии 0,070218 Елпатьевскин 0,0923 61 Шагннян 0,069419 Касаткин 0,0920 62 Короленко 0,069020 Г иппиус 0,0916 63 Будишев 0,068721 Бунин 0,0905 64 Гусев-Оренбургский 0,067322 Кипен 0,0903 65 Тренев 0,065823 Неверов 0,0894 6 6 Гуревич 0,065624 Сергеев- Ценский 0,0883 67 М. Леонов 0.065125 Форш 0,0880 68 Пришвин 0,064226 Серафимович 0,0872 69 Немирович-Данченко 0,064027 Ремизов 0,0855 70 Вербицкая 0,061028 Замятин 0,0843 71 Зиновьева-Анниба л 0,053729 Скиталец 0,0843 72 Елеонский 0,0635-30 Шишков 0,0827 73 Куприн 0,062231 Г орький 0,0820 74 Ауслендер 0,062132 Крашенинников 0,0818 75 Чулков 0,061433 Нагродская 0,0805 76 А. Федоров 0.061334 Амфитеатров 0,0803 77 Миртов 0,0600 |35 Вересаев 0,0803 78 Гриневская 0,059136 А. Каменский 0,0801 79 Рукавишников 0,058» |37 Гарин 0,0788 80 Боборыкин 0,058638 Подъячев 0,0780 81 Брюсов 0,058539 Гиляровский 0,0774 82 Дорошевич 0,058840 Медицина 0,0772 83 Грин 0,0557 '341 Юшкевич 0,0768 84 Мережковский 0,054842 А. Толстой 0,0764 85 Линев 0,050043 Тимковский 0,0762 86 Мамин-Сибиряк 0,0491 ,
мин. В роли исходных данных в численной таксономии выступают: множество объектов, принадлежащих априорно неизвестным, частично пересекающимся классам; набор количественных
66
признаков, конкретные значения которых соответствуют каждому из подлежащих классифицированию объектов; последовательность решающих правил, на основании которых принимается решение о принадлежности объектов к неизвестным классам.9 Задача состоит в том, чтобы множество объектов разделить на конечное, заранее неизвестное число классов (кластеров, таксонов). Принадлежность к классу оценивается на основе расстояния между объектами в пространстве признаков. Два и более объектов сходны, если расстояние между ними не больше некоторой пороговой величины, определяющей принадлежность к классу.
Итак, наша задача состоит в том, чтобы исследуемых прозаиков разделить на однородные в синтаксическом отношении группы по трем стилистически релевантным признакам. С целью упрощения вычислительной процедуры и достижения единой размерности признаков каждому автору мы будем ставить в соответствие не конкретную численную величину признака, а только ранг, соответствующий этой величине. Мерой синтаксической близости каждой пары авторов будем считать сумму разностей их рангов в каждом из трех ранжированных рядов. Иными словами, каждому автору ставится в соответствие множество всех остальных авторов, упорядоченных по возрастанию рангового расстояния от данного автора. Такой способ измерения расстояния согласуется с трактовкой расстояния по Хеммингу.
Эти расстояния варьируют в очень широком диапазоне: от 5 в паре Свирский — Ольнем до 230 в паре Дорошевич — Л. Андреев. На этом интервале необходимо выбрать критическую точку, разделяющую близкие и далекие расстояния. Близкими расстояниями естественно считать совокупность расстояний каждого автора до ближайшего соседа. Эти расстояния в нашем коллективе заключены в диапазоне от 5 в паре Свирский — Ольнем до 30 в паре Муйжель — Л. Андреев. В качестве пороговой величины, определяющей принадлежность к классу, можно выбрать верхнюю границу указанного интервала. Это означает, что в подмножестве авторов, тесно связанных с каким-либо одним автором, мы включаем лишь тех, которые удалены от него не более чем на 30 единиц. Число авторов, тесно связанных с данными, при этом оказывается переменным: Г. Чулков, например, имеет лишь одного синтаксически близкого партнера (А. Федоров), а Короленко — семь таких партнеров (Пришвин, Гусев-Оренбургский, Садовский, Винниченко, Чапыгин, М. Леонов, Будищев).
После выделения подмножества близких связей, можно приступить к построению графа, в котором в роли вершин выступают авторы, а в роли ребер — близкие связи. В принципе та-
9 А й в а з я н С. А., Б е ж а е в а 3. М., С т а р о в е р о в О. В. Классификация многомерных наблюдений. М., 1974.
07
кой граф должен быть построен в трехмерном пространстве, но такое представление лишено наглядности. Поэтому разумно построить плоскостной граф, несколько искажающий реальные взаимоотношения между прозаиками, но зато более наглядный.
Граф строится следующим образом. Выбираем наугад какого- либо автора и соединяем его ребрами с другими авторами, расположенными от него на расстоянии, не превышающем пороговой величины. Среди множества присоединившихся авторов-вер- шин выбираем любую и соединяем ее ребрами с вершинами, тесно связанными с данной. Если при этом образовался цикл или группа циклов с общим ребром, то совокупность узлов, принадлежащих этим циклам или группе «смежных» циклов, считается одним классом. Затем присоединяются следующие вершины, и процедура формирования класса продолжается до тех пор, пока не прекратится образование циклов. Вершина, присоединившаяся к «зацикленной» группе с помощью моста, является кандидатом на формирование очередного класса. Если эта вершина не имеет сильных связей, кроме той, с помощью которой она присоединилась к сформированному классу, то она считается самостоятельным одноэлементным классом. Если же она дополнительно имеет одну и более сильных связей, то начинается процедура построения нового класса, описанная выше.
После перебора всех авторов-вершин была построена система взаимосвязанных классов, показанная на рис. 5. Классы обладают рядом формальных свойств, на основании которых можно выделить наиболее типичные для исследуемого периода классы. В качестве меры типичности выберем следующие числовые показатели:
1. М о щ н о с т ь к л а с с а (число входящих в него вершин). Полученные классы «заселены» крайне неравномерно: самый мощный класс включает 18 беллетристов, четыре класса включают только одного автора.
2. К о м п а к т н о с т ь к л а с с а (отношение числа сильных в нашем понимании связей к числу вершин). Минимальная компактность класса равна единице (число вершин равно числу связей).
3. « В а л е н т н а я » а к т и в н о с т ь к л а с с а (число связей, соединяющих данный класс с другими классами). Этот показатель изменяется в диапазоне от 1 до 5 связей.
4. Ц е н т р а л ь н о с т ь к л а с с а (сумма средних ранговых расстояний вершин класса от центра каждого из трех ранговых распределений).
Все классы кроме одноэлементных (их нетипичность очевидна и без вычислений) были проранжированы по этим четырем показателям, а затем для каждого класса были найдены суммы их рангов в четырех ранжированных рядах. Классы, упорядоченные по величине этого обобщенного показателя типичности, приведены в табл. 2. Каждому классу дано имя одного из68
■1------1------ 1------1------1____I I
Рис. 6. Ранговые распределения классов беллетристов по сте
пени типичности г — ранг; I — степень типич
ности
входящих в него беллетристов. Соответствующий график приведен на рис. 6.
График рангового распределения классов по обобщенному показателю типичности имеет 5-образную форму с точкой пере
гиба, расположенной в центре ранжированного ряда. Эту точку можно считать границей между типичными и нетипичными классами.
Самым типичным является класс писателей с предельно уравновешенным «среднебеллетристическим» синтаксисом (класс Короленко) . Около этого центра равновесия размещаются две контрастные группы типичных классов. Для одной из них (классы Чехова, Сологуба, А. Каменского) характерно преимущественное использование паратактической техники, для другой (классы Кузмина и Куприна)— гипотактической. При этом сте
пень типичности в первой группе значительно выше, чем во второй. Этот результат не представляется случайным, и объясняется он прежде всего тем, что эталоном беллетристичности, во многом определившим пути формирования поэтических школ XX в., стала чеховская проза. Причем некоторые наиболее откровенные синтаксические «изобретения» Чехова, например, сверхнормативное нагнетание сочинительных групп, объединенных союзом «и», были усвоены многими прозаиками столь прямолинейно, что страницы их произведений порой кажутся копиями чеховских.
Однако несмотря на массовое распространение чеховской манеры письма, значительную устойчивость в исследуемый период обнаруживает и синтаксическая традиция Льва Толстого, для которой, как и для чеховской, характерна высокая степень детализации (большой средний размер предложения), но детализация Толстого принципиально иная: она осуществляется главным образом на основе подчинительных связей.
На фоне синтаксических традиций Чехова и Толстого в исследуемый период происходит резкий сдвиг в сторону уменьшения дозировки информации в предложении. Стремление к краткости (преимущественно паратактической) становится массовым. Так, в классе А. Каменского нет ни одного писателя старшего поколения, а многие из них, такие, как Замятин, Шишков, Бибик п др., достигли творческой зрелости лишь в послереволюционную эпоху.70
Для авторов, образующих нетипичные классы, характерно стремление к синтаксическому «экстремуму» по двум или даже по трем параметрам. При этом максимальное синтаксическое «несогласие» с мнением большинства проявляют писатели, образующие одноэлементные классы: Л. Андреев, Бунин, Рукавишников, Чулков.
Таблица 2Ранговое распределение классов беллетристов по обобщенному показателю типичности
Р а н г И м я к л а с с аО б о б щ е н н ы й п о к а з а т е л ь 1 ИПИЧНОСТИ
1 Короленко 5,02 Чехов 15,03 Сологуб ! 6,54 А. Каменский 18,55 Куприн 23,06 Кузмнн 26,57 Мережковский 28,08 А. Толстой 29,59 Грин 30,0
10 Ремизов 31,511 Вересаев 39,5
Первое место среди них, безусловно, принадлежит Л. Андрееву. Усвоив наиболее яркие черты синтаксиса Чехова, в частности экстремальную степень сочиненности, Л. Андреев существенно сократил протяженный перечислительный ряд своего выдающегося предшественника. Андреевский перечислительный ряд — чаще всего закрытый. При этом члены андреевского ряда значительно чаще, чем у Чехова, объединяются сравнительными и противительными союзами. В этом отношении Л. Андреев опередил даже Л. Толстого, у которого однородные группы строятся на отношении противопоставления ее членов. Что касается среднего размера предложения, то и здесь Л. Андреев не отличается особой умеренностью. Если у Л. Толстого этот показатель равен 20,1, а у Чехова — 18,9 словам, то андреевское предложение в среднем состоит из 22,8 слов. В этой связи нам кажется уместным привести меткую характеристику Л. Андреева, данную К. И. Чуковским: «Все свойства своих современников Андреев увеличил до грандиозных размеров, и все совместил в себе. Он — синтез нашей эпохи под сильным увеличительным стеклом».10 К. И. Чуковский имел в виду идеологический гиперболизм Л. Андреева, но этим, как мы пытались показать, ан-
10 Ч у к о в с к и й К. От Чехова до наших дней. Литературные портреты, характеристики. М., 1910.
71
дреевский гиперболизм не исчерпывается — этот писатель чрез- вычаен даже, синтаксически.
Продолжая анализ, можно было бы сказать о детализирую щей изобильности Бунина, перечислительной щедрости Мережковского, гипотактической «деловитости» прозы Мамина-Сиби- ряка и т. д. Сознавая, однако, что без пространных иллюстраций из текстов многочисленных авторов наше истолкование может показаться не слишком убеждающим, мы ограничимся наблюдениями, приведенными выше.