Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов

 
 
 
 
 
 

Методы  теории вероятностей и математической статистики в задачах   исследования стилистических особенностей текстов 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

            Содержание

            Введение 3

            Глава 1 4

            Глава 2 12

                      Таблица взаимной энтропии 13

            Глава3 15

                      Случайная величина 15

                      Закон распределения случайной величины 16

                      Вариационный  ряд 18

                      Гистограмма распределения вероятности 18

                      Математическое  ожидание 20

                      Дисперсия случайной величины 21

                      Энтропия 21

                      Взаимная  энтропия 23

           Вывод 24

           Список  используемой литературы 25 
 
 
 
 
 
 
 
 
 
 
 
 
 

             Введение

                      Цель  работы: формирование у студентов навыков практической работы с современными информационными системами и технологиями в одной из наиболее динамично развивающихся областей современной лингвистики, где математика и информатика – два неотъемлемых инструмента исследователя.

            В данной работе мною будет проведён лингвистический  анализ трёх произведений Толстого.  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

            Глава 1

            Л.Н.Толстой «Война и мир» том 2 часть 1

            

Длина предло-жения Частота появления  в тексте
1 0.0163532
2 0.0449714
3 0.0752249
4 0.0735895
5 0.053148
6 0.0572363
7 0.0408831
8 0.050695
9 0.0441537
10 0.0498774
11 0.0400654
12 0.0359771
13 0.0343418
14 0.0359771
15 0.0278005
16 0.0302535
17 0.0286182
18 0.0212592
19 0.0196239
20 0.0171709
21 0.0228945
22 0.0188062
23 0.0130826
24 0.0106296
25 0.0122649
26 0.00817661
27 0.00981194
28 0.00899428
29 0.00735895
30 0.00572363
31 0.00817661
32 0.00981194
33 0.00490597
34 0.00572363
35 0.00408831
36 0.00408831
37 0.00490597
38 0.00163532
39 0.00163532
40 0.00245298
41 0.00163532
42 0.00654129
43 0.00245298
44 0.00490597
46 0.00327065
47 0.000817661
48 0.00163532
49 0.00163532
50 0.000817661
51 0.000817661
52 0.000817661
53 0.00163532
54 0.000817661
57 0.00327065
58 0.000817661
59 0.00163532
63 0.000817661
66 0.00163532
68 0.000817661
73 0.000817661

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

             Л.Н.Толстой  «Война и мир» том 2 часть 2

            
Длина предло-жения Частота появления в тексте
1 0.0093633
2 0.0215356
3 0.0543071
4 0.0749064
5 0.0514981
6 0.0617978
7 0.0440075
8 0.0393258
9 0.0318352
10 0.0477528
11 0.0383895
12 0.0337079
13 0.0346442
14 0.0365169
15 0.0271536
16 0.0252809
17 0.0318352
18 0.0262172
19 0.0318352
20 0.0243446
21 0.0177903
22 0.0280899
23 0.0177903
24 0.0149813
25 0.0140449
26 0.0140449
27 0.0121723
28 0.011236
29 0.011236
30 0.0102996
31 0.00749064
32 0.00655431
33 0.00842697
34 0.00280899
35 0.00374532
36 0.00655431
37 0.00842697
38 0.00374532
39 0.00187266
40 0.00280899
41 0.00468165
42 0.00655431
43 0.00187266
44 0.00280899
45 0.00374532
46 0.00093633
47 0.00374532
48 0.00093633
49 0.00093633
50 0.00187266
51 0.00093633
53 0.00187266
54 0.00187266
55 0.00093633
56 0.00187266
57 0.00093633
59 0.00093633
61 0.00280899
63 0.00280899
66 0.00187266
68 0.00187266
71 0.00093633
92 0.00093633
103 0.00093633

             
 

            Л.Н.Толстой «Война и мир» том 4 часть 1

            
Длина предло-жения Частота появления  в тексте
1 0.0134855
2 0.0290456
3 0.0560166
4 0.0425311
5 0.0508299
6 0.0446058
7 0.0477178
8 0.0414938
9 0.0342324
10 0.0497925
11 0.0373444
12 0.0321577
13 0.0352697
14 0.0394191
15 0.0311203
16 0.026971
17 0.0311203
18 0.0197095
19 0.0259336
20 0.0290456
21 0.0186722
22 0.0176349
23 0.0165975
24 0.0145228
25 0.0186722
26 0.0155602
27 0.0134855
28 0.0093361
29 0.0145228
30 0.00622407
31 0.0134855
32 0.00518672
33 0.00726141
34 0.00726141
35 0.00622407
36 0.00726141
37 0.00414938
38 0.00622407
39 0.00518672
40 0.00207469
41 0.00622407
42 0.00622407
43 0.00622407
44 0.00518672
45 0.00414938
46 0.00311203
47 0.00207469
48 0.00207469
49 0.00311203
50 0.00518672
51 0.00207469
52 0.00207469
53 0.00207469
54 0.00207469
55 0.00207469
58 0.00207469
59 0.00103734
62 0.00518672
63 0.00103734
65 0.00103734
71 0.00103734
75 0.00103734
77 0.00103734
83 0.00103734
86 0.00103734
90 0.00103734
101 0.00103734
105 0.00103734

             
 

             Л.Н.Толстой  «Война и мир» том 4 часть 2

            
Длина предло-жения Частота появления в тексте
1 0.0121335
2 0.0222447
3 0.0546006
4 0.0535895
5 0.0515672
6 0.0485339
7 0.0556117
8 0.0485339
9 0.0353893
10 0.0374115
11 0.0384226
12 0.0293225
13 0.0303337
14 0.0313448
15 0.0374115
16 0.0262892
17 0.033367
18 0.0283114
19 0.0212336
20 0.0212336       
21 0.0222447
22 0.0192113
23 0.0151668
24 0.0283114
25 0.0182002
26 0.0151668
27 0.0111223
28 0.0131446
29 0.0091001
30 0.0101112
31 0.00404449
32 0.00808898
33 0.00606673
34 0.0111223
35 0.00404449
36 0.00707786
37 0.00808898
38 0.00505561
39 0.00505561
40 0.00303337
41 0.00404449
42 0.00404449
43 0.0091001
44 0.00404449
45 0.00202224
46 0.00101112
47 0.00303337
48 0.00404449
50 0.00303337
51 0.00101112
52 0.00101112
54 0.00202224
56 0.00303337
57 0.00202224
59 0.00202224
60 0.00202224
65 0.00202224
67 0.00101112
68 0.00202224
70 0.00101112
71 0.00101112
73 0.00101112
80 0.00101112
98 0.00101112
112 0.00101112
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

            Л.Н.Толстой «Анна  Каренина» том 1 часть 1

            
Длина предло-жения Частота появления  в тексте
1 0.010425
2 0.0336808
3 0.0737771
4 0.074579
5 0.0737771
6 0.0537289
7 0.0593424
8 0.0465116
9 0.0473136
10 0.0408982
11 0.042502
12 0.0376905
13 0.0376905
14 0.032077
15 0.0328789
16 0.0264635
17 0.0288693
18 0.0200481
19 0.0200481
20 0.0176423
21 0.0120289
22 0.0152366
23 0.0160385
24 0.0120289
25 0.0160385
26 0.0136327
27 0.00721732
28 0.00721732
29 0.0064154
30 0.00160385
31 0.00882117
32 0.0032077
33 0.00481155
34 0.00801925
35 0.00160385
36 0.00882117
37 0.00400962
38 0.00561347
39 0.0032077
40 0.00400962
41 0.00400962
42 0.00160385
44 0.00240577
45 0.00160385
46 0.00400962
47 0.00160385
48 0.000801925
49 0.00240577
50 0.000801925
51 0.000801925
53 0.000801925
54 0.000801925
55 0.00160385
58 0.000801925
59 0.000801925
61 0.000801925
63 0.00160385
65 0.000801925
75 0.000801925
76 0.000801925
83 0.000801925
 
 
 
 
 
 

             Л.Н.Толстой  «Анна Каренина» том 1 часть 2

            
Длина предло-жения Частота появления в тексте
1 0.0132509
2 0.020318
3 0.0574205
4 0.0556537
5 0.0600707
6 0.0644876
7 0.0591873
8 0.0415194
9 0.0503534
10 0.0459364
11 0.0415194
12 0.0415194
13 0.0300353
14 0.0291519
15 0.0309187
16 0.0326855
17 0.0344523
18 0.0273852
19 0.0220848
20 0.0159011
21 0.020318
22 0.0114841
23 0.0106007
24 0.0123675
25 0.0167845
26 0.0123675
27 0.00971731
28 0.0167845
29 0.0106007
30 0.00795053
31 0.00441696
32 0.00971731
33 0.00530035
34 0.00530035
35 0.00530035
36 0.00618375
37 0.00353357
38 0.00618375
39 0.00530035
40 0.00441696
41 0.000883392
42 0.00265018
43 0.00530035
44 0.00265018
45 0.000883392
46 0.00176678
47 0.00176678
48 0.00530035
49 0.00353357
50 0.00265018
51 0.000883392
52 0.000883392
53 0.000883392
54 0.00176678
55 0.000883392
56 0.00176678
58 0.000883392
71 0.000883392
73 0.000883392
74 0.000883392
75 0.000883392
76 0.000883392
80 0.000883392
82 0.000883392
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

           Глава 2

           Сравнивая полученные результаты по второму тому «Войны и Мира» приходим к неожиданным  результатам. Математическое ожидание длины предложений в первой части  тома составляет М =13,4955  а математическое ожидание длины второй части этого же тома М=15,41667  что на 2 целых больше первого. Такая же ситуация возникает с областью отклонения от среднего принимаемого значения. То есть дисперсией D = 2,09062 для первой части и D= 6,089173. Этот факт может говорить о том, что между написанием первой половины тома и второй прошло некоторое время, или же сам автор уже после написания романа возвращался ко второй половине тома и корректировал его. Это легко можно увидеть, если сравнить с данными по четвёртому тому, а именно  М(1)=16,75726 и М(2)=16,23659, где разница между ожидаемыми длинами предложений незначительна, как впрочем, и дисперсия D(1) = 6,978726 и D(2)=6,74775. В то же время энтропия( мера хаотичности) отличается незначительно:

H(том 2 часть 1) = 5,268026

H(том 2 часть2)= 5,337842

H(том 4 часть 1)= 5,032997

H(том 4 часть2)= 5,180913

           Особенностью написания  романа «Война и мир» в том, что  Толстой использовал уже написанные им ранее рассказы. Таким образом, если предположить, что первая половина второго тома содержит материалы, наработанные Толстым в период с 1856 (он сам указывал на эту дату), то становится объясним тот факт, что к окончанию написания романа (четвёртого тома) стилистика написания Толстого изменилась. Таким образом, период написания романа (датирован 1863—1869 годами) был более продолжительный, нежели принято считать.

           Роман Анна Каренина был  написан в период 1873 по 1877 годы. Разница между первой и второй частями первого тома «Анны Каренина», не столь очевидная как в случае с первой частью второго тома «Войны и мира», но всё же присутствует (М(1)= 13,29671 и М(2)=14,70848). Разница указывает на длительность периода написания произведения. 

Таблица взаимной энтропии

  1 2 3 4 5 6
1   0,071944 0,099766 0,093662 0,065582 0,07786
2 0,05830   0,066142 0,063207 0,09099 0,085681
3 0,079518 0,056996   0,059223 0,093681 0,081313
4 0,086461 0,067645 0,058267   0,093374 0,05361
5 0,057407 0,085759 0,097459 0,090824   0,07391
6 0,069056 0,081409 0,080514 0,052477 0,073463  
 

 

  1. На каждом Листе создаём таблицу, подобную вышеуказанной, с той разницей, что на Листе1 отсутствует столбец с названием 1, на Листе 2 отсутствует столбец 2, и так далее (ведь вычислить взаимную энтропию необходимо для пары текстов, а взаимную энтропию для текста относительно самого себя считать не надо).
  2. Для вычисления взаимной энтропии используем формулу, подобную данной =$B2*LOG($B2/ЛистХ!$B2;2), где Х - это номер текста относительно которого считается взаимная энтропия. Находим сумму каждого получившегося столбца и переносим его в Таблицу Взаимной Энтропии.

Выводы:

Если  проанализировать таблицу взаимной энтропии, то можно определить пару текстов максимально похожую друг на друга и ту пару, которая максимально разнится (по распределению СВ - длины предложений). Та пара текстов наиболее  похожа друг на друга, чьё значение минимально в данной таблице. Таким образом это пара текстов 6\4 – вторая часть первого тома «Анны Карениной» и вторая часть четвёртого тома «Войны и мир». Максимально отличающейся друг от друга парой текстов является (по результату анализа) пара 5\3: первая часть первого тома «Анны Карениной» и первая часть четвёртого тома «Войны и мир». Максимальное различие объясняется тем, что книги написаны с разницей примерно в 10 лет. Так же можно предположить? что Толстой вкладывал разную эмоциональную нагрузку и смысл в четвёртом томе «Войны и мира» нежели в  первом томе «Анны Карениной». Из результатов работы видно, что на всех этапах своего творчества Толстой тяготел к использованию пространных предложений со сложной стилистикой: нам он известен своими предложениями - «глыбами». Последнее подтверждается и в нашем исследовании при анализе вариационного ряда, гистограммы и результатов вычисления M, D, H.

Глава 3

  1. Случайная величина

           Случайная величина — это величина, которая принимает в результате опыта одно из множества значений, причем появление того или иного значения этой величины до её измерения нельзя точно предсказать.

           Если каждому элементарному  событию поставить в соответствие число , для которого выполняется условие:  то считается, что заданы вероятности элементарных событий . Вероятность события, как счётного подмножества пространства элементарных событий, определяется как сумма вероятностей тех элементарных событий, которые принадлежат этому событию. Требование счётности важно, так как, иначе сумма будет не определена.

           Случайные величины могут принимать дискретные, непрерывные  и дискретно-непрерывные значения. Соответственно случайные величины классифицируют на дискретные, непрерывные  и дискретно-непрерывные (смешанные).

           Дискретной  называется случайная величина, которая может принимать конечное или счетное множество значений (счетным называют множество, элементы которого можно пронумеровать).

           Непрерывной СВ называют случайную величину, возможные значения которой сплошь заполняют некоторый числовой интервал.

           Дискретная СВ может принимать возможные значения с различными вероятностями. Чтобы охарактеризовать дискретную случайную величину в статистическом смысле, необходимо указать вероятности всех ее значений.

           Свойства.

           1)Математическое ожидание числа есть само число.

           M[a] = a

  • — константа;

         2)Математическое ожидание линейно, то есть

           M[aX + bY] = aM[X] + bM[Y],

           где X,Y — случайные  величины с конечным математическим ожиданием, а  — произвольные константы;

           3) Математическое ожидание сохраняет неравенства;

           4) Математическое ожидание не зависит от поведения случайной величины на событии вероятности нуль, то есть если X = Y почти наверное, то

           M[X] = M[Y].

           5) Математическое ожидание произведения двух независимых случайных величин X,Y равно произведению их математических ожиданий

           M[XY] = M[X]M[Y].

  1. Закон распределение случайной величины

           Кумуляти́вная фу́нкция распределе́ния (или просто функция  распределения) в теории вероятностей однозначно задаёт распределение случайной  величины или случайного вектора.

           Пусть дано вероятностное  пространство , и на нём определена случайная величина X с распределением . Тогда функцией распределения случайной величины X называется функция , задаваемая формулой:

 

Если случайная  величина X дискретна, то есть её распределение  однозначно задаётся функцией вероятности

Методы теории вероятностей и математической статистики в задачах исследования стилистических особенностей текстов