Республиканизм и Возрождение в англоязычной историографии второй половины XX века
ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ...
Transcript of ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ...
ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА
СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Межвузовский сборник
В ы п у с к 2
ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА
1983
Печатается по постановлению Редакционно-издательского совета
Ленинградского университета
Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные вопросы семантики предложения, применения математических методов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспечения автоматических систем обработки текста.
1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.
Сборник предназначен для филологов, специалистов по прикладной и математической лингвистике.
Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богданов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Городецкий.
Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).
ИБ № 1462
Структурная и прикладная лингвистика
Межвузовский сборник
В ы п у с к 2
Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.
Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.
1593000000—933 С 076(02)—83 68-83 .
Издательство Ленинград- С) ского университета,
1983 г.
М. П. Рускова
ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ ПИСЬМЕННОСТИ XVIII ВЕКА
Статья ставит своей целью определить частотные характеристики знаменательных частей речи в четырех болгарских памятниках письменности XVIII в.1 и выявить некоторые статистические параметры, характеризующие лексику анализируемых текстов.
Выборка из каждого памятника — 24 000 словоупотреблений. Для всех памятников вместе это составляет 96 000 словоупотреблений. В выборке представлены частотные данные по четырем частям речи: именам существительным, глаголам, именам прилагательным, наречиям. Ниже в списке слова приводятся в порядке убывания их частот.
Поскольку частотные данные по знаменательным частям речи для другого болгарского памятника письменности XVIII в. Котленского дамаскина2 были выведены при общем объеме выборки 60000 словоупотреблений, сопоставление их с фактами, почерпнутыми из четырех вышеуказанных памятников, представляется нецелесообразным.
В частотный список входят лексемы с частотой до 10. В зависимости от порядкового номера (I) они могут быть выделены в три зоны: высокочастотная зона — слова с частотой от 366 до 100 (I 1—29), среднечастотная зона — слова с частотой 97—49 (г 30—70), низкочастотная зона — слова с частотой 49-10 (I 71—325).
В высокочастотной зоне отмечен только один случай, когда одинаковую частоту имеют в пределах одного памятника лексемы с разными порядковыми номерами: частоту 108 имеют слова кажа, отида (г 25, 26). В среднечастотной зоне 6 таких случаев. Это слова божий, сторя (ь 43, 44), работа, сзят (г 45, 46), жена, струвам (г 69, 70), дете, струвам (г 69, 70), думам, °теЦ (1 59, 60), ръка стана (I 63, 64). В среднечастотной зоне отметим два случая, когда три слова, имеющие три разных порядковых номера в пределах одного памятника, имеют одинаковую частоту. Это лексемы дам, работа, стана (г 55, 56, 57), с>ен, земля, пророк (:' 65, 66, 67). В низкочастотной зоне почти во всех случаях зарегистрировано много слов с одинаковой частотой, но с различным порядковым номером.
В табл. 2 приводятся распределенные по частотным зонам данные о количестве лексем (Ь) по отдельным частям речи и их абсолютная частота (Р) в том или ином памятнике.
2 Гм. список источников и их сокращений.Р у с к о в а М. П. Статистическое распределение лексики в болгарской
сьменностн XVIII в. (Котленский дамаскин). — В кн.: Структурная и прикладная лингвистика. Л., 1978, с. 138—145.
119
к
Таблица {1 Г БД с д КС ПС
1 366 река ( г л . )
2 338 светий
3 308 река ( г л . )
4 217 бог каж а
5 209 имам
6 205 бог
7 196 цар
8 193 бо г
9 185 видя
10 163 чловек
11 155 имам
12 154 имам
13 151 свети
14 143 цар
15 138 река (гл .)
16 137 ВИДЯ светий
17 136 сторя
18 129 имам
19 126 чловек река { г л . )
20 122 ща
21 120 бо г
22 112 чловек
23 111 дам
24 109 светий
2526
108 каж аотида
120
Продолжение табл. I
1Г Б Д с д К С П С
”"27 107 отида
28 103 Ч е р н о в а цар
29 102 земам
30 97 светий дода
31 95 видя
32 93 дух
33 83 хр и стианин нда
34 80 пророк
35 79 стана
36 78 владика
37 77 чловек
38 76 д ум ам
39 74 дода
40 73 каж а
41 72 ГОСПОД
42 71 чю до
4344
70 б ож и йсторя
4546
68 работасвят
47 67 гол'Ьм
48 66 син ден
49 65 ж ена
50 64 земам
51 63 ида кр ъ щ ен и е го л ’Ьм
52 62 зова се цар
121
Продолжение табл I
/ Г БД с д КС ПС
53 61 д у м а м
54 60 д ен к а ж а с л у га
555657
59 д а мр а б о т ас та н а
ви д я м о л я са
58 58м ог а
5960
57 ! д у м а мо т е ц
6! 56 х р и с т и а н и н
62 55 м о г а г р а д
6364
54р ъ к ас та н а
6566 67
53 д е н ьзе м л яп р о р о к
мЪ сто
68 51ч у д о
6970
50 ж ен ас т р у в а м
д е т ес т р у в а м
с та н а
71 49 а р х а н г е л
7273
48 д у м ач а с
о т и д а д е т е
7475
47 р еч г о р е (сущ .) д у м а
х р и с т и а н и н
76777879
46 син д о д а з н а яи з л е з аим ец а р и ц а
808182
45 б о ж и йи м е
в р е м е м Ь сто
г о л ^ мд амз н а я
г о с п о дк н и г ап о в е л я
838485
44 м ъ ж р о д я са в р е м ед о й д ас т р у в а м
— -----------------------------------------
о с т а в я мц р к в ач е д о
8687
43 б л а г о с л о в е нг р а д
д е н с т о р я б а щ а
122
Продолжение табл. I
1 Р БД сд КС ПС
88 42 мог а гр'Ьх ц а р с т в о
8990
41 зн ая им ео с т а в я
ж е н а г о с п о д и нсин
91 40 ч у я голЪ м ц а р с т в о
~~92 39 ч л о в е ч е с к и
939495
38 в р е м ео т е цр ъ к а
д у м а ми щ а
д о б р оп о с л у ш а м
д у м ап л а ч ач у я
969798
37 а н г е ло с т а в я мп о с л у ш а м
р а б о т а н а м е р яу з е м а м
99100 101
36 б р а тз е м ям-Ьсто
а н г е лд у ш ап р о в о д я
с в е т и с л у ш а м
с р д ц е
102103104105106
35 м о л я са г о с п о д д о б р о м а л ъ к н а р и ч а м са ц а р с т в о
не б ех р и с т и а н и н
г л е д а м
107108109110
34 в з е м а мп р и е м а мр ъ к ач у я
з л о д а вам з е м л я о к о час
111112И З114
33 г о д и н ае в р е и нк н и г ас и л а
н е б е с н ы й б р а ти с к а м
115116 117
32 д о б ъ рд у ш аи о м о л я са
с в е т иф и л о с о ф
б о ж и йз е м а м
118119
31 д а мз л о
х о д я
120121122123
30 б а щ ам о м ъ кс ъ р д ц ец а р с т в о
к р ъ с т я сап р ъ в ир о д
и с т и н асин
м а и а с т и р
124125126 127
29 п л а ч а с л у ш а м
в о д ан а п р а в яо т е цт е л о
е в а н г е л и еч е р к о в а
м а й к а м и л о с т и н а
123
Продолжение табл.
/ Р БД с д КС ПС
128129130131
28 г е м и аи з л е з а
п о к а ж а р е к а (сущ.) я в я са
з ъ л в о д ад р ъ ж ар а б о т ас т о я
132133134135136
27 вЪраг е м е д ж н ям о р ен о щр а д о с г
з н а яр а з у м е я
б р а т ж и вз л а т оп о с л у ш а йс т а р е ц
137138139
26 п о к л о н я сау м р аф ъ р л я м
х р и с т о в в л ъ кз а к о н
д о мд у ш ас к о р о
140141142143144
25 г о д и н ам о л б ап о м о г н а
в о л я ж е н а к а з у вам
к н и г асв'Ът (сущ.)
б о ж и йв р е м ем о м ъ кс и р о м а хх у б а в
145146147148149150151152153
24 д ъ р ж ан а р о дс т а р е ц
з е м ян е б е с н и йч у д о
ж и в о тзл еп о ч и т а мс и р о м а х
б л а г о д а р яв е р ав и к н ав л е з аг л а сг о д и н аз а в е д ам ъ жх о д я
154155156157158159160 161 162
23 н а м е р я с в е щ е н и к с к о р о с т р а х я в я са
з а к о н б л а г о с л о в е н и з л е з а м ога м о л я са
в е р у в а м д а щ е р я н а р о д о с т а н а
о т г о в о р я п р и е м а м р а д о с т ь с в е т (прил.)
163164165166167168169170171
22 г о с п о д а рж и вк ъ щ ап а д н ач е д о
д а р б ад у м аид ап о к л о н я са
д и а в о ло с т а в и мполс в е т (прил.)
г о с п о д а рд о б р ои щ ам у л ен е б е с н и йп р а з д н и кт е м н и ц ау м р ац а р е в
172173174
21 и щ ап р о в о д яп у с т я
а п о с т о ле в а н г е л и еп о зн ан
г о д и н а д а вам д о б ъ р
з а т р и ям у жн о с я ,
124
Продолжение та 1л. 1
1 Р БД с д КС ПС
Г75176177178179180 181
у м н е д е л яо г ъ нп л а ч ач у я
п о г л е д н ап р е д а мр а д у в а м сар а з у м е яс л о в оу мц а р с к и
182183184185186 187
20 в л е з аж е л т и ц ан е б ес е д яс т о я
и з л е з ап р а з д н и кр о б
а п о с т о ли у с т яс ъ р д ц еч а сч у д о
г л а в аз а н е с аи м а н ел ю б о в ьп р е с в е т и йс и л а
188189190191192193194195196
19 б о л е р и н г л е д а м свЪ т (сущ.) с и р о м а х т е м н и ц а
г о с п о д а ре в а н г е л и с тз в е з д ак р ъ с тн а м е р яп о ч е с т
ц а р с к ич а с
д и а в о л с к ид у ш ас т р а х
б о я сад и а в о ле г у м е нж л ъ т и ц ам аг и яногачи н я
197198199200 201 202203204205206
18 д ъ щ е р яо т г о в о р яп р о р о кс в е т ис л у г а
м ъ к ап и т а н еп о в е л е н и еп р е м и н ау т р е
в о й с к аг р а дид аи м ек а з в а мк а з у в а мр е чр ъ к ат е л оу ч а
в е л и ке ла/: Ь Вн а м е р я сап о в и к а мп о ч е с тс е д ях л еб
207208209210 211 212213214
17 д а рд о б р оз а н е с аз л ол ю б о ем о м ах о д я
б л а г о с л о в е не в р е й с к из в е рк р а нк р ъ щ а в а м са п ъ т с т р а х у м р а
л и ц ен а п р а в яо т и д ау м р а
в е л и к о м ъ ч е н и к
21521 62172 1 8219220 221 222 223
16 б л а г о д а р яп а т р и а р хс м ъ р т
в и д я сев л е з ад е в и ц ад и а в о лп и т а н и еп р е д т е ч ас к о п о сс п а с е н и ес ъ р д ц е
б а щ ап е ч а т
в р а т а м ати н а д е я са о т р о ч е п о в е л е н и е с т о р я са с т р а х ям
125
П родолж ение т а б л .
1 Р БД с д КС ПС
2 2 4 15 В О Л Я з о в а а н г е л в о л я 122 5 в р а т а п о с л у ш а м в о с к р ъ с н а г р е х2 2 6 д и а в о л р а з р е ш а е в р е и н д о б а р227 д о н е с а н а м е р я З Л О
22 8 з а к о н п р о с т я м о л и т в а2 2 9 и з б а в я п ъ т м ъ к а2 3 0 с о б е р а с а с и л а на п и ш а2 3 ! с т р а н а п о з н а я23 2 с ъ н р о д2 3 3 ц а р е в с е д н а234 с т о р в а м2 3 5 с ъ б и р а м с а236 у б и я237 ч е р к о в а
2 3 8 14 б о я с а б е с в Ь р в з м б л а г о с л о в е н ■2 3 9 в о й с к а г о с п о д е н в Ъ т ъ р б о л е р и н240 з а в е д а д р ъ в о М 'Ьсто г р о б241 к н и г а е з и к п р а з д н и к д о н е с а24 2 к р а к ж и в о т с л у г а з ъ л24 3 н а п р а в я л ю б о в к о н ь24 4 н а ч е н а н а м е р я с а н а й д а2 4 5 п р и е м а м н Ъ м а м н е б о2 4 6 о г ъ н НОЩ247 п р о р е к а о б и ч а м 1248 р а с т а л а д н а249 с л а в а п о ч у д я с а2 5 0 с т о я п р а т я251 с м р ъ т25 2 т у р я2 5 3 х р о м
2 5 4 13 в е л и к в е л и к е п и с т о л и я б е с255 е в р е и н в о щ а н и н з а р ъ ч а м в е к2 5 6 з а р ъ ч а м м и с л ъ н з е м я в о й с к а257 з о в а с е н о щ н и в а г о з б а258 и м а н и е о с т а н а р о д ж и в о т259 к а л у г е р п и ш а с в р ъ ш а с е и к о н а2 6 0 м и р п р е с в е т и й с е д я м л а д 1261 р а з у м е я п р н л и ч а м с т о я м ъ ч е н и к262 х р и с т и а н с к и р о д я с т р а ш е н н а п р а в я2 6 3 я м а р о ж д е с т в о н о к а ж а264 х о д я п о м о г н а265 ч у в с т в е н п р и и м а м2 6 6 п р о с л а в и м267 с л е п26 8 т р ь г н а
2 6 9 12 в о д а в е л и к и в е к б ’Ь г а м270 е в а н г е л и е в р ъ в я д ъ р ж а б о г а т 1271 е л а ( г л . у и с т и н а н о щ и з я м2 7 2 Ж И В О Т о т г о в о р и о к о м о м а2 7 3 и з в а д я п р а в е д е н о т е ц п о к а я с а274 и с т и н а п р и е м к а р о д я с а р и з а |2 7 5 м е с е ц п р и н е с а ч л о в е ч е с к и с т о л
126
Продолжение табл. Т
1 Р БД с д КС ПС
276277278 97 9 280 281 282 283
н а р и ч а м с ен е б е с н и йп о в е л е н и еп о з н а яс е л оф а н д ач и н яя с т п е
с л ъ н ц еу г о д яч а к а м
я з и к т е л от р а п е з а
2842 8528628728828929 02912922932942 9529 6297298299300301 .302 303
11 б е сг р Ъ хд о в е д аДУХз в е рз о в ам о л и т в ао с т а н ап а ш ап о г у б ип о п и г а мп р и п а д н ас л е з ас о б е р ат а й ф а л ет и ч а му мч е р к о в е ия з ы кям
б и яв р ъ н а саз г о в о рм и н ам ъ жо к ои е т и йп е щ е р ап о и с к а мп о к л а н я м сар и б ас л е з ас л о в ос м р ъ тс ъ з д а и и ея м
в о д аг л а дг л а сг р о бд о мд р ъ ж ак а м ъ кл ю б о вп о к л о н я с ап у с н ас ъ д яу мх р и с т о вч и с т
а н а д о л е к ив и к а мд о б р ед о в е д аи з в а д як у п е цм а г е с н и ко в о ш к ао т с е к ап о м о л я с ап о м о щп о ч и т а мп р а в е д е нр а з б е р ар о д яс л а в ас л у ж ас ъ б н р а мс ъ н
3043053063073083093103113123133143153163173183193203213 223 233243 2 5
10 б и яб о л е нг о с п о д и нд е т ез а т в о р ик р а йм ъ с к ап а с т и рп л а в а мп о м и л у в а мп р о д у м а мп ъ тр о д н и н ас к е л яс о б о рс т о р я с ес ъ л з ау с т ау т ъ к м я
б р а тв Ъ р ад у ш м а н и не л л и ни о р д а н с к ил и ц ем ъ с к ан а р и ч а мп р а з д и у в а мп р е м у д р о с т ьп р о р о ч и ц ас т и х н ат а и н с т в оу с т ач е т в р ъ т и
в ^ р аз л а т ои с т и н н ам о л ям ъ к ап а д н ап о к л а н я м с ар а б о т яр а з у м е яс л е з аям
а с п р ав е л и к ив е р о в а ме г у м е н и ц ае л и н с к ии г р а яи з б а в яистинИЙк а м е нл и ц ел о з ен о жп и л еп о м и с л яп р а з д н у в а мп у с н ар у к ас к а ж ас л а д ъ кс т р а н ау т р ех р а н я
127
Кол
ичес
тво
разн
ых
лекс
ем
Так, например, по дац. 1 ным таблицы, 6 глаголов из Беленского дамаскина относящихся к высокочастотной зоне, имеют в сумме абсолютную часто-1 ту (Р) 952, а 64 глагола из того же памятника, от- Я носящиеся к низкочастот-1 ной зоне, имеют абсолют- I ную частоту 1107.
Накопленная частота (Р*> той или иной частот-Я ной зоны представляет! собой сумму абсолютных I частот всех слов, относящихся к одной части речи. В высокочастотной ; зоне накопленная часто-1 та (Р*) применительно] ко всей выборке состав-1 ляет для глаголов 2918, для существительных —4 1681, для прилагатель-1 ных — 735; в среднечас-1 тотной зоне она составля-1 ет для глаголов 1567, для] существительных — 1776;] для прилагательных —.1 297; в низкочастотной! зоне — для глаголов — 1 4835, для существитель- ] ных — 7377, для прилага-1 тельных— 1307, для на-1 речий — 112. Приведен-! ные данные говорят о 1 том. что в высокочастот- I ной и среднечастотных ■ зонах наречия не заф ик-■ сированы.
Итак, на выборку | 96000 словоупотреблений 1 накопленная частота (Р*) 1 глаголов составляет 9320, 1 ] существительных — 7834, ] I прилагательных — 2339, | наречий — 112.
В табл. 3 представ- 1128
лены данные о количественном распределении по памятникам разных имен существительных, в составе которых отмечена более чем одна морфема.
Таблица 3
Частотные зоны
Памятники
БД с д КС | ПС
/. лексемдв
ухмо
рфе
мные
трех
мор
фемн
ые
ЛВ
УХ
МО
р-фе
мные
трех
мор
фемн
ые
дву
хм
ор
фе
мные
трех
мор
фемн
ые
двух
мор
фемн
ые
трех
мор
фемн
ые
В ы с о к о ч а с т о т н а яС р е д н е ч а с т о т н а я 2 1 2 1Н и з к о ч а с т о т н а я 21 5 19 4 11 1 24 0
В табл. 4 приведена абсолютная частота Р двух- и трехморфемных существительных по частотным зонам.
Таблица 4
Частотные зоны
Памятники
БД СД КС ПС
Р
двух
мор
фемн
ые
тпех
мор-
фемн
ые
двух
мор
фе
мные
трех
мор-
феын
ые
двух
мор
фемн
ые
трех
мор-
1
фемн
ыс
двух
мор
фемн
ые ^ 0 С ^
* 3 н -Э-
В ы с о к о ч а с т о т н а яС р е д н е ч а с т о т н а я 137 83 131 56Н и з к о ч а с т о т н а я 437 77 349 49 234 35 520 138
Во всей выборке (96 000 словоупотреблений) накопленная частота Р* суффиксальных существительных в среднечастотной зоне 407, в низкочастотной— 1856.
Таблица 5
Инде ксыП ам ятн ики
БД СД КС П С
ь
N0.СС8166 0,00775 0,006 0,009875
N7.
122,4459 129,0322 166,6666 * 101,2658
Индекс разнообразия для каждого текста подсчитывался по формуле ЫМ, где Ь — объем словаря лексем, N — общее число9 За к. К» 250 129
словоупотреблений, индекс итерации — по формуле Ы/Ь. Для каждого из четырех памятников N — 24 000, Ь меняется: для БД Д = 196, С Д — 186, КС— 144, ПС — 237. В табл. 5 показаны данные обоих индексов, разнообразия и повторяемости, для каждого из памятников.
СПИСОК ИСТОЧНИКОВ И ИХ СОКРАЩЕНИЙ
БД — Беленски дамаскин. Ркп. № 713 (445), 200 л. Народная библиотека ' в Софии.
КС — Кованлъшки сборник. — Ркп. № 13.6.16, 182 л. Библиотека АН СССР в Ленинграде.
ПС — Сборник от XVIII в. писан в Пазарджик. Ркп. № 435 (635), 190 д ЕНародная библиотека в Софии.
СД — Свищовски дамаскин. — Български старини, кн. VII. София, 1923,