ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ...

15
Ш 0202—2400 Структурная ■ .......... и прикладная лингвистика

Transcript of ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ...

Ш 0202—2400

Структурная ■..........и прикладнаялингвистика

ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А А. ЖДАНОВА

СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА

Межвузовский сборник

В ы п у с к 2

ЛЕНИНГРАДИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА

1983

Печатается по постановлению Редакционно-издательского совета

Ленинградского университета

Статьи сборника «Структурная и прикладная лингвистика»- охватывают широкий круг проблем современной теоретической и прикладной лингвистики. В них рассматриваются актуальные во­просы семантики предложения, применения математических мето­дов в языкознании, проблемы лингвистической статистики. Сборник содержит статьи, посвященные разработке лингвистического обеспе­чения автоматических систем обработки текста.

1-й выпуск сборника «Структурная и прикладная лингвистика» вышел в 1978 году.

Сборник предназначен для филологов, специалистов по при­кладной и математической лингвистике.

Р е д а к ц и о н н а я к о л л е г и я : докт. филол. наук В. В. Богда­нов; докт. филол. наук Л. В. Бондарко; докт. филол. наук А. С. Герд (отв. редактор); докт. филол. наук Б. Ю. Горо­децкий.

Р е ц е н з е н т : докт. филол. наук П. М. Алексеев (ЛГПИим. А. А. Герцена).

ИБ № 1462

Структурная и прикладная лингвистика

Межвузовский сборник

В ы п у с к 2

Редактор А. Ф. АкимоваТехн. редактор Е. Г. Учаева Корректоры Н. М. Чаплинская, Т. Г. ПавловаСдано в набор 25.05.82. Подписано в печать 13.01.83. М-41003. Формат 60Х90'/|б- Вумага тип. № 2. Печать высокая. Гарнитура литературная. Уел. печ. л. 12. Уел. кр.-отт. 12,19. Уч.-изд. л. 13,60. Тираж 1470 экз. Заказ № 250. Цена 2 руб. Издательство ЛГУ им. А. А. Жданова. 199164, Ленинград, Университетская наб., 7/9.

Типография Изд-ва ЛГУ. 199164, Ленинград, Университетская наб., 7/9.

1593000000—933 С 076(02)—83 68-83 .

Издательство Ленинград- С) ского университета,

1983 г.

М. П. Рускова

ЧАСТОТА ЗНАМЕНАТЕЛЬНЫХ ЧАСТЕЙ РЕЧИ В БОЛГАРСКОЙ ПИСЬМЕННОСТИ XVIII ВЕКА

Статья ставит своей целью определить частотные характе­ристики знаменательных частей речи в четырех болгарских па­мятниках письменности XVIII в.1 и выявить некоторые статисти­ческие параметры, характеризующие лексику анализируемых текстов.

Выборка из каждого памятника — 24 000 словоупотреблений. Для всех памятников вместе это составляет 96 000 словоупотреб­лений. В выборке представлены частотные данные по четырем частям речи: именам существительным, глаголам, именам при­лагательным, наречиям. Ниже в списке слова приводятся в по­рядке убывания их частот.

Поскольку частотные данные по знаменательным частям речи для другого болгарского памятника письменности XVIII в. Котленского дамаскина2 были выведены при общем объеме вы­борки 60000 словоупотреблений, сопоставление их с фактами, почерпнутыми из четырех вышеуказанных памятников, представ­ляется нецелесообразным.

В частотный список входят лексемы с частотой до 10. В за­висимости от порядкового номера (I) они могут быть выде­лены в три зоны: высокочастотная зона — слова с частотой от 366 до 100 (I 1—29), среднечастотная зона — слова с частотой 97—49 (г 30—70), низкочастотная зона — слова с частотой 49-10 (I 71—325).

В высокочастотной зоне отмечен только один случай, когда одинаковую частоту имеют в пределах одного памятника лек­семы с разными порядковыми номерами: частоту 108 имеют слова кажа, отида (г 25, 26). В среднечастотной зоне 6 таких случаев. Это слова божий, сторя (ь 43, 44), работа, сзят (г 45, 46), жена, струвам (г 69, 70), дете, струвам (г 69, 70), думам, °теЦ (1 59, 60), ръка стана (I 63, 64). В среднечастотной зоне отметим два случая, когда три слова, имеющие три разных порядковых номера в пределах одного памятника, имеют одина­ковую частоту. Это лексемы дам, работа, стана (г 55, 56, 57), с>ен, земля, пророк (:' 65, 66, 67). В низкочастотной зоне почти во всех случаях зарегистрировано много слов с одинаковой ча­стотой, но с различным порядковым номером.

В табл. 2 приводятся распределенные по частотным зонам данные о количестве лексем (Ь) по отдельным частям речи и их абсолютная частота (Р) в том или ином памятнике.

2 Гм. список источников и их сокращений.Р у с к о в а М. П. Статистическое распределение лексики в болгарской

сьменностн XVIII в. (Котленский дамаскин). — В кн.: Структурная и при­кладная лингвистика. Л., 1978, с. 138—145.

119

к

Таблица {1 Г БД с д КС ПС

1 366 река ( г л . )

2 338 светий

3 308 река ( г л . )

4 217 бог каж а

5 209 имам

6 205 бог

7 196 цар

8 193 бо г

9 185 видя

10 163 чловек

11 155 имам

12 154 имам

13 151 свети

14 143 цар

15 138 река (гл .)

16 137 ВИДЯ светий

17 136 сторя

18 129 имам

19 126 чловек река { г л . )

20 122 ща

21 120 бо г

22 112 чловек

23 111 дам

24 109 светий

2526

108 каж аотида

120

Продолжение табл. I

1Г Б Д с д К С П С

”"27 107 отида

28 103 Ч е р н о в а цар

29 102 земам

30 97 светий дода

31 95 видя

32 93 дух

33 83 хр и стианин нда

34 80 пророк

35 79 стана

36 78 владика

37 77 чловек

38 76 д ум ам

39 74 дода

40 73 каж а

41 72 ГОСПОД

42 71 чю до

4344

70 б ож и йсторя

4546

68 работасвят

47 67 гол'Ьм

48 66 син ден

49 65 ж ена

50 64 земам

51 63 ида кр ъ щ ен и е го л ’Ьм

52 62 зова се цар

121

Продолжение табл I

/ Г БД с д КС ПС

53 61 д у м а м

54 60 д ен к а ж а с л у га

555657

59 д а мр а б о т ас та н а

ви д я м о л я са

58 58м ог а

5960

57 ! д у м а мо т е ц

6! 56 х р и с т и а н и н

62 55 м о г а г р а д

6364

54р ъ к ас та н а

6566 67

53 д е н ьзе м л яп р о р о к

мЪ сто

68 51ч у д о

6970

50 ж ен ас т р у в а м

д е т ес т р у в а м

с та н а

71 49 а р х а н г е л

7273

48 д у м ач а с

о т и д а д е т е

7475

47 р еч г о р е (сущ .) д у м а

х р и с т и а н и н

76777879

46 син д о д а з н а яи з л е з аим ец а р и ц а

808182

45 б о ж и йи м е

в р е м е м Ь сто

г о л ^ мд амз н а я

г о с п о дк н и г ап о в е л я

838485

44 м ъ ж р о д я са в р е м ед о й д ас т р у в а м

— -----------------------------------------

о с т а в я мц р к в ач е д о

8687

43 б л а г о с л о в е нг р а д

д е н с т о р я б а щ а

122

Продолжение табл. I

1 Р БД сд КС ПС

88 42 мог а гр'Ьх ц а р с т в о

8990

41 зн ая им ео с т а в я

ж е н а г о с п о д и нсин

91 40 ч у я голЪ м ц а р с т в о

~~92 39 ч л о в е ч е с к и

939495

38 в р е м ео т е цр ъ к а

д у м а ми щ а

д о б р оп о с л у ш а м

д у м ап л а ч ач у я

969798

37 а н г е ло с т а в я мп о с л у ш а м

р а б о т а н а м е р яу з е м а м

99100 101

36 б р а тз е м ям-Ьсто

а н г е лд у ш ап р о в о д я

с в е т и с л у ш а м

с р д ц е

102103104105106

35 м о л я са г о с п о д д о б р о м а л ъ к н а р и ч а м са ц а р с т в о

не б ех р и с т и а н и н

г л е д а м

107108109110

34 в з е м а мп р и е м а мр ъ к ач у я

з л о д а вам з е м л я о к о час

111112И З114

33 г о д и н ае в р е и нк н и г ас и л а

н е б е с н ы й б р а ти с к а м

115116 117

32 д о б ъ рд у ш аи о м о л я са

с в е т иф и л о с о ф

б о ж и йз е м а м

118119

31 д а мз л о

х о д я

120121122123

30 б а щ ам о м ъ кс ъ р д ц ец а р с т в о

к р ъ с т я сап р ъ в ир о д

и с т и н асин

м а и а с т и р

124125126 127

29 п л а ч а с л у ш а м

в о д ан а п р а в яо т е цт е л о

е в а н г е л и еч е р к о в а

м а й к а м и л о с т и н а

123

Продолжение табл.

/ Р БД с д КС ПС

128129130131

28 г е м и аи з л е з а

п о к а ж а р е к а (сущ.) я в я са

з ъ л в о д ад р ъ ж ар а б о т ас т о я

132133134135136

27 вЪраг е м е д ж н ям о р ен о щр а д о с г

з н а яр а з у м е я

б р а т ж и вз л а т оп о с л у ш а йс т а р е ц

137138139

26 п о к л о н я сау м р аф ъ р л я м

х р и с т о в в л ъ кз а к о н

д о мд у ш ас к о р о

140141142143144

25 г о д и н ам о л б ап о м о г н а

в о л я ж е н а к а з у вам

к н и г асв'Ът (сущ.)

б о ж и йв р е м ем о м ъ кс и р о м а хх у б а в

145146147148149150151152153

24 д ъ р ж ан а р о дс т а р е ц

з е м ян е б е с н и йч у д о

ж и в о тзл еп о ч и т а мс и р о м а х

б л а г о д а р яв е р ав и к н ав л е з аг л а сг о д и н аз а в е д ам ъ жх о д я

154155156157158159160 161 162

23 н а м е р я с в е щ е н и к с к о р о с т р а х я в я са

з а к о н б л а г о с л о в е н и з л е з а м ога м о л я са

в е р у в а м д а щ е р я н а р о д о с т а н а

о т г о в о р я п р и е м а м р а д о с т ь с в е т (прил.)

163164165166167168169170171

22 г о с п о д а рж и вк ъ щ ап а д н ач е д о

д а р б ад у м аид ап о к л о н я са

д и а в о ло с т а в и мполс в е т (прил.)

г о с п о д а рд о б р ои щ ам у л ен е б е с н и йп р а з д н и кт е м н и ц ау м р ац а р е в

172173174

21 и щ ап р о в о д яп у с т я

а п о с т о ле в а н г е л и еп о зн ан

г о д и н а д а вам д о б ъ р

з а т р и ям у жн о с я ,

124

Продолжение та 1л. 1

1 Р БД с д КС ПС

Г75176177178179180 181

у м н е д е л яо г ъ нп л а ч ач у я

п о г л е д н ап р е д а мр а д у в а м сар а з у м е яс л о в оу мц а р с к и

182183184185186 187

20 в л е з аж е л т и ц ан е б ес е д яс т о я

и з л е з ап р а з д н и кр о б

а п о с т о ли у с т яс ъ р д ц еч а сч у д о

г л а в аз а н е с аи м а н ел ю б о в ьп р е с в е т и йс и л а

188189190191192193194195196

19 б о л е р и н г л е д а м свЪ т (сущ.) с и р о м а х т е м н и ц а

г о с п о д а ре в а н г е л и с тз в е з д ак р ъ с тн а м е р яп о ч е с т

ц а р с к ич а с

д и а в о л с к ид у ш ас т р а х

б о я сад и а в о ле г у м е нж л ъ т и ц ам аг и яногачи н я

197198199200 201 202203204205206

18 д ъ щ е р яо т г о в о р яп р о р о кс в е т ис л у г а

м ъ к ап и т а н еп о в е л е н и еп р е м и н ау т р е

в о й с к аг р а дид аи м ек а з в а мк а з у в а мр е чр ъ к ат е л оу ч а

в е л и ке ла/: Ь Вн а м е р я сап о в и к а мп о ч е с тс е д ях л еб

207208209210 211 212213214

17 д а рд о б р оз а н е с аз л ол ю б о ем о м ах о д я

б л а г о с л о в е не в р е й с к из в е рк р а нк р ъ щ а в а м са п ъ т с т р а х у м р а

л и ц ен а п р а в яо т и д ау м р а

в е л и к о м ъ ч е н и к

21521 62172 1 8219220 221 222 223

16 б л а г о д а р яп а т р и а р хс м ъ р т

в и д я сев л е з ад е в и ц ад и а в о лп и т а н и еп р е д т е ч ас к о п о сс п а с е н и ес ъ р д ц е

б а щ ап е ч а т

в р а т а м ати н а д е я са о т р о ч е п о в е л е н и е с т о р я са с т р а х ям

125

П родолж ение т а б л .

1 Р БД с д КС ПС

2 2 4 15 В О Л Я з о в а а н г е л в о л я 122 5 в р а т а п о с л у ш а м в о с к р ъ с н а г р е х2 2 6 д и а в о л р а з р е ш а е в р е и н д о б а р227 д о н е с а н а м е р я З Л О

22 8 з а к о н п р о с т я м о л и т в а2 2 9 и з б а в я п ъ т м ъ к а2 3 0 с о б е р а с а с и л а на п и ш а2 3 ! с т р а н а п о з н а я23 2 с ъ н р о д2 3 3 ц а р е в с е д н а234 с т о р в а м2 3 5 с ъ б и р а м с а236 у б и я237 ч е р к о в а

2 3 8 14 б о я с а б е с в Ь р в з м б л а г о с л о в е н ■2 3 9 в о й с к а г о с п о д е н в Ъ т ъ р б о л е р и н240 з а в е д а д р ъ в о М 'Ьсто г р о б241 к н и г а е з и к п р а з д н и к д о н е с а24 2 к р а к ж и в о т с л у г а з ъ л24 3 н а п р а в я л ю б о в к о н ь24 4 н а ч е н а н а м е р я с а н а й д а2 4 5 п р и е м а м н Ъ м а м н е б о2 4 6 о г ъ н НОЩ247 п р о р е к а о б и ч а м 1248 р а с т а л а д н а249 с л а в а п о ч у д я с а2 5 0 с т о я п р а т я251 с м р ъ т25 2 т у р я2 5 3 х р о м

2 5 4 13 в е л и к в е л и к е п и с т о л и я б е с255 е в р е и н в о щ а н и н з а р ъ ч а м в е к2 5 6 з а р ъ ч а м м и с л ъ н з е м я в о й с к а257 з о в а с е н о щ н и в а г о з б а258 и м а н и е о с т а н а р о д ж и в о т259 к а л у г е р п и ш а с в р ъ ш а с е и к о н а2 6 0 м и р п р е с в е т и й с е д я м л а д 1261 р а з у м е я п р н л и ч а м с т о я м ъ ч е н и к262 х р и с т и а н с к и р о д я с т р а ш е н н а п р а в я2 6 3 я м а р о ж д е с т в о н о к а ж а264 х о д я п о м о г н а265 ч у в с т в е н п р и и м а м2 6 6 п р о с л а в и м267 с л е п26 8 т р ь г н а

2 6 9 12 в о д а в е л и к и в е к б ’Ь г а м270 е в а н г е л и е в р ъ в я д ъ р ж а б о г а т 1271 е л а ( г л . у и с т и н а н о щ и з я м2 7 2 Ж И В О Т о т г о в о р и о к о м о м а2 7 3 и з в а д я п р а в е д е н о т е ц п о к а я с а274 и с т и н а п р и е м к а р о д я с а р и з а |2 7 5 м е с е ц п р и н е с а ч л о в е ч е с к и с т о л

126

Продолжение табл. Т

1 Р БД с д КС ПС

276277278 97 9 280 281 282 283

н а р и ч а м с ен е б е с н и йп о в е л е н и еп о з н а яс е л оф а н д ач и н яя с т п е

с л ъ н ц еу г о д яч а к а м

я з и к т е л от р а п е з а

2842 8528628728828929 02912922932942 9529 6297298299300301 .302 303

11 б е сг р Ъ хд о в е д аДУХз в е рз о в ам о л и т в ао с т а н ап а ш ап о г у б ип о п и г а мп р и п а д н ас л е з ас о б е р ат а й ф а л ет и ч а му мч е р к о в е ия з ы кям

б и яв р ъ н а саз г о в о рм и н ам ъ жо к ои е т и йп е щ е р ап о и с к а мп о к л а н я м сар и б ас л е з ас л о в ос м р ъ тс ъ з д а и и ея м

в о д аг л а дг л а сг р о бд о мд р ъ ж ак а м ъ кл ю б о вп о к л о н я с ап у с н ас ъ д яу мх р и с т о вч и с т

а н а д о л е к ив и к а мд о б р ед о в е д аи з в а д як у п е цм а г е с н и ко в о ш к ао т с е к ап о м о л я с ап о м о щп о ч и т а мп р а в е д е нр а з б е р ар о д яс л а в ас л у ж ас ъ б н р а мс ъ н

3043053063073083093103113123133143153163173183193203213 223 233243 2 5

10 б и яб о л е нг о с п о д и нд е т ез а т в о р ик р а йм ъ с к ап а с т и рп л а в а мп о м и л у в а мп р о д у м а мп ъ тр о д н и н ас к е л яс о б о рс т о р я с ес ъ л з ау с т ау т ъ к м я

б р а тв Ъ р ад у ш м а н и не л л и ни о р д а н с к ил и ц ем ъ с к ан а р и ч а мп р а з д и у в а мп р е м у д р о с т ьп р о р о ч и ц ас т и х н ат а и н с т в оу с т ач е т в р ъ т и

в ^ р аз л а т ои с т и н н ам о л ям ъ к ап а д н ап о к л а н я м с ар а б о т яр а з у м е яс л е з аям

а с п р ав е л и к ив е р о в а ме г у м е н и ц ае л и н с к ии г р а яи з б а в яистинИЙк а м е нл и ц ел о з ен о жп и л еп о м и с л яп р а з д н у в а мп у с н ар у к ас к а ж ас л а д ъ кс т р а н ау т р ех р а н я

127

Кол

ичес

тво

разн

ых

лекс

ем

Так, например, по дац. 1 ным таблицы, 6 глаголов из Беленского дамаскина относящихся к высоко­частотной зоне, имеют в сумме абсолютную часто-1 ту (Р) 952, а 64 глагола из того же памятника, от- Я носящиеся к низкочастот-1 ной зоне, имеют абсолют- I ную частоту 1107.

Накопленная частота (Р*> той или иной частот-Я ной зоны представляет! собой сумму абсолютных I частот всех слов, относя­щихся к одной части речи. В высокочастотной ; зоне накопленная часто-1 та (Р*) применительно] ко всей выборке состав-1 ляет для глаголов 2918, для существительных —4 1681, для прилагатель-1 ных — 735; в среднечас-1 тотной зоне она составля-1 ет для глаголов 1567, для] существительных — 1776;] для прилагательных —.1 297; в низкочастотной! зоне — для глаголов — 1 4835, для существитель- ] ных — 7377, для прилага-1 тельных— 1307, для на-1 речий — 112. Приведен-! ные данные говорят о 1 том. что в высокочастот- I ной и среднечастотных ■ зонах наречия не заф ик-■ сированы.

Итак, на выборку | 96000 словоупотреблений 1 накопленная частота (Р*) 1 глаголов составляет 9320, 1 ] существительных — 7834, ] I прилагательных — 2339, | наречий — 112.

В табл. 3 представ- 1128

лены данные о количественном распределении по памятникам разных имен существительных, в составе которых отмечена бо­лее чем одна морфема.

Таблица 3

Частотные зоны

Памятники

БД с д КС | ПС

/. лексемдв

ухмо

р­фе

мные

трех

мор­

фемн

ые

ЛВ

УХ

МО

р-фе

мные

трех

мор­

фемн

ые

дву

хм

ор

­фе

мные

трех

мор­

фемн

ые

двух

мор­

фемн

ые

трех

мор­

фемн

ые

В ы с о к о ч а с т о т н а яС р е д н е ч а с т о т н а я 2 1 2 1Н и з к о ч а с т о т н а я 21 5 19 4 11 1 24 0

В табл. 4 приведена абсолютная частота Р двух- и трехмор­фемных существительных по частотным зонам.

Таблица 4

Частотные зоны

Памятники

БД СД КС ПС

Р

двух

мор­

фемн

ые

тпех

мор-

фемн

ые

двух

мор

­фе

мные

трех

мор-

феын

ые

двух

мор­

фемн

ые

трех

мор-

1

фемн

ыс

двух

мор­

фемн

ые ^ 0 С ^

* 3 н -Э-

В ы с о к о ч а с т о т н а яС р е д н е ч а с т о т н а я 137 83 131 56Н и з к о ч а с т о т н а я 437 77 349 49 234 35 520 138

Во всей выборке (96 000 словоупотреблений) накопленная частота Р* суффиксальных существительных в среднечастотной зоне 407, в низкочастотной— 1856.

Таблица 5

Инде ксыП ам ятн ики

БД СД КС П С

ь

N0.СС8166 0,00775 0,006 0,009875

N7.

122,4459 129,0322 166,6666 * 101,2658

Индекс разнообразия для каждого текста подсчитывался по формуле ЫМ, где Ь — объем словаря лексем, N — общее число9 За к. К» 250 129

словоупотреблений, индекс итерации — по формуле Ы/Ь. Для каждого из четырех памятников N — 24 000, Ь меняется: для БД Д = 196, С Д — 186, КС— 144, ПС — 237. В табл. 5 показаны данные обоих индексов, разнообразия и повторяемости, для каж­дого из памятников.

СПИСОК ИСТОЧНИКОВ И ИХ СОКРАЩЕНИЙ

БД — Беленски дамаскин. Ркп. № 713 (445), 200 л. Народная библиотека ' в Софии.

КС — Кованлъшки сборник. — Ркп. № 13.6.16, 182 л. Библиотека АН СССР в Ленинграде.

ПС — Сборник от XVIII в. писан в Пазарджик. Ркп. № 435 (635), 190 д ЕНародная библиотека в Софии.

СД — Свищовски дамаскин. — Български старини, кн. VII. София, 1923,