Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Статистический анализ распределения регионов России по соотношению мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году

Министерство образования и науки Российской Федерации

Государственное образовательное учреждение высшего профессионального образования

Санкт-Петербургский Государственный Политехнический Университет

Факультет экономики и менеджмента

Кафедра «Финансы и денежное обращение»

Курсовая работа

по дисциплине «Статистика»

на тему: «Статистический анализ распределения регионов России по соотношению мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году»

Работу выполнила:

студентка группы Ф-25

_____________

Богданова И.Ю.

Работу приняла:

доцент

_____________

Пономарева О. А.

Санкт-Петербург

2011

Содержание

Введение…………………………………………………………………………...3

1. Анализ эмпирического распределения………………………………………..4

Графическое и табличное представление вариационного ряда распределения………………………………………………………………….6

2. Характеристика центральной тенденции распределения…………………..10

3. Оценка вариации изучаемого признака……………………………………...13

4. Характеристика структуры распределения ………………………………...15

5. Характеристика формы распределения……………………………………..15

Заключение…………………………………………………………………….....18

Список литературы………………………………………………………………19

Введение

В курсовой работе будет построен и исследован ряд распределения регионов России по соотношению мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году.

В данной курсовой работе рассматривается реализация анализа распределений с использованием программы Statistica.

Ряд распределения – это распределение единиц совокупности по значению того или иного признака в конкретных условиях места и времени. Исходя из этого определения, любой ряд распределения состоит из двух элементов: значение признака (вариант) и соответствующая частота (характеризует, сколько единиц совокупности обладает данным значением признака).

Ряд распределения в настоящей работе был построен на основе показателей соотношения мужчин и женщин в 2009 году.

Исходные данные были взяты из сборника Росстата «Регионы России. Социально-экономические показатели» таблицы 3.5 «Соотношение мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году» (таблица 1).

Все расчеты и построение графиков реализуются с помощью программы Statsoft Statistica v7.0.61.0 .

Таблица 1

Соотношение мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году

№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин
1	1182	18	1106	35	1152	52	1144	69	1145
2	1210	19	1187	36	1129	53	1203	70	1163
3	1233	20	1113	37	1064	54	1183	71	1169
4	1204	21	1147	38	1157	55	1190	72	1174
5	1245	22	1060	39	1150	56	1186	73	1170
6	1202	23	1183	40	1132	57	1185	74	1142
7	1204	24	1123	41	1166	58	1179	75	1068
8	1211	25	1178	42	1169	59	1079	76	986
9	1203	26	1069	43	1144	60	1043	77	1093
10	1188	27	1246	44	1162	61	1017	78	1095
11	1213	28	1210	45	1182	62	1179	79	1102
12	1213	29	1232	46	1170	63	1109	80	1079
13	1228	30	1153	47	1178	64	1118	81	1095
14	1206	31	1074	48	1163	65	1113	82	1077
15	1234	32	1138	49	1179	66	1149	83	949
16	1244	33	1141	50	1180	67	1161
17	1236	34	1103	51	1221	68	1093

1. Анализ эмпирического распределения.

Построение рядов распределения начинается с ранжирования данных.

Ранжирование вариационного ряда – это расположение единиц совокупности в порядке возрастания или убывания значений признака.

Анализ распределений направлен на выявление частот в зависимости от значений варьирующего признака и изучение различных характеристик распределения.

Прежде, чем приступить к вычислению статистических показателей, необходимо из исходной совокупности исключить единицы, не подчиняющиеся общей закономерности распределения, так называемые выбросы. Построение ранжированного ряда позволяет увидеть наличие или отсутствие выбросов.

Выбросы – это единицы совокупности, значения признака которых резко отличаются как в большую, так и в меньшую сторону от значений признака у основной части единиц совокупности.

Для удобства локализации и устранения выбросов необходимо ранжировать исходные данные. В нашем примере, как выброс, удаляется первые 2 значения ранжированной совокупности, таким образом, окончательный объем совокупности составляет 81 единица (таблица 1.1).

После сортировки по возрастанию получим рабочий ряд (рис.1.1)

Рис. 1.1. Вид начала и конца рабочего листа с ранжированной переменной

Таблица 1.1

Исходные данные, ранжированные по возрастанию значений признака

№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин	№ региона	Число женщин на 1000 мужчин
1	1017	18	1109	35	1153	52	1180	69	1210
2	1043	19	1113	36	1157	53	1182	70	1211
3	1060	20	1113	37	1161	54	1182	71	1213
4	1064	21	1118	38	1162	55	1183	72	1213
5	1068	22	1123	39	1163	56	1183	73	1221
6	1069	23	1129	40	1163	57	1185	74	1228
7	1074	24	1132	41	1166	58	1186	75	1232
8	1077	25	1138	42	1169	59	1187	76	1233
9	1079	26	1141	43	1169	60	1188	77	1234
10	1079	27	1142	44	1170	61	1190	78	1236
11	1093	28	1144	45	1170	62	1202	79	1244
12	1093	29	1144	46	1174	63	1203	80	1245
13	1095	30	1145	47	1178	64	1203	81	1246
14	1095	31	1147	48	1178	65	1204
15	1102	32	1149	49	1179	66	1204
16	1103	33	1150	50	1179	67	1206
17	1106	34	1152	51	1179	68	1210

Графическое и табличное представление вариационного ряда распределения

Следующим шагом является группировка по количественному непрерывному признаку и построение вариационного ряда распределения.

Вариационным называется ряд распределения, построенный по количественному признаку. Он может быть представлен в виде таблицы и графически. Табличное представление позволяет не только выявить ту или иную закономерность распределения, но и подробно охарактеризовать структуру изучаемой совокупности.

При этом величина группировочного интервала определяется по формуле:

где h – величина группировочного интервала, X_min и X_max – минимальное и максимальное значения признака совокупности.

В данной задаче k = 6 , предполагаемая величина группировочного интервала равна примерно h = 38. Далее построена таблица распределения (рис. 1.1.1).

Рис. 1.1.1 Распределение регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 году»

На основе таблицы построим график, наглядно представляющий закономерность распределения анализируемой статистической совокупности.

Для изображения вариационного ряда используются графики:

- гистограмма (рис. 1.1.2)

- полигон (рис. 1.1.3)

- кумулята (рис. 1.1.4, 1.1.5)

Рис. 1.1.2 Гистограмма распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.»

Рис. 1.1.3 Полигон распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.»

Рис. 1.1.4 Кумулята распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.» (абсолютные частоты)

Рис. 1.1.5 Кумулята распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.» (относительные частоты)

Характеристика центральной тенденции распределения

Статистический анализ вариационных рядов распределения предполагает расчет характеристик центра распределения, его структуры, оценку степени вариации и дифференциации изучаемого признака, изучение формы распределения.

В качестве показателей центральной тенденции распределения используются:

- среднее арифметическое значение;

- мода;

- медиана.

Основными показателями вариации являются: размах вариации, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Для характеристики структуры распределения используются следующие показатели: медиана, квартили, децили и прочие процентили. Изучение формы распределения предполагает оценку асимметрии и эксцесса (куртозиса). Перечисленные показатели имеют самостоятельное аналитическое значение, поскольку отражают разные свойства изучаемой совокупности, а все вместе они позволяют получить комплексную характеристику эмпирического распределения.

Результаты расчета основных статистических характеристик представлены на рис. 2.1

Рис.2.1 Основные характеристики распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.»

Характеристика центрального распределения включает в себя расчёт и анализ центра распределения, вычисление среднего арифметического значения, моды и медианы.

Средняя арифметическая характеризует типический уровень признаков совокупности.

Средняя арифметическая величина – отношение объема признака к объему совокупности.

Данная средняя используется для расчета средних значений абсолютных показателей по несгруппированным данным.

В рассматриваемом нами распределении средняя арифметическая равна Mean =1157,037.

Это означает, что в среднем по России в 2009 году число женщин на 1000 мужчин составляет 1157.

Мода – это наиболее часто встречающееся значение показателя распределения (Mode).

В данном случае модальный интервал 1169 <Х<= 1207, h=38,

=67, f_Mo-1=41, f_M0+1=81

Отсюда М₀ = 1289.

Это означает, что наиболее часто встречающееся число женщин на 1000 мужчин по России в 2009 году составляет 1289.

Медиана – это значение показателя у единицы совокупности, делящий ранжированный ряд пополам. Значение медианы характеризует структуру изучаемой совокупности, указывая, что 50% единиц имеют значения признака меньше медианного и 50% - больше медианного.

При определении медианы по ранжированному ряду порядковый номер единицы, значение признака которой является медианой, определяется как

Если число единиц совокупности четное и порядковый номер – дробное значение, то значение медианы определяется как среднее арифметическое значений признака у двух центральных единиц.

В рассматриваемом нами распределении, значение медианы равно Median = 1166.

Это значит, что у 50% регионов России в 2009 году число женщин на 1000 мужчин было выше 1166, а у 50% - ниже этого значения.

Оценка вариации изучаемого признака

Вариация – различия в индивидуальных значениях признака у единиц совокупности. От степени вариации признака в совокупности зависит типичность, надежность показателей центра распределения. Чем меньше вариация, тем в большей степени среднее значение выполняет функцию характеристики типического уровня признака.

Абсолютные показатели (измеряются в тех же единицах, что и изучаемые показатели):

Размах вариации (R) рассчитывается как разность между максимальным (X_max) и минимальным (X_min) значениями признака в совокупности:

Показатель характеризует, насколько максимальное значение признака превышает минимальное.

В нашем случае размах вариации равен Range = 229.

Размах вариации показывает, что регион, с наибольшим числом женщин отличается от региона с наименьшим числом женщин на 229 женщин на 1000 мужчин.

Дисперсия – характеристика рассеивания значений случайной величины, измеряемая квадратом их отклонений от среднего значения.

В рассматриваемом нами распределении значение дисперсии

Variance = 2787,6.

Показатель дисперсии в экономических исследованиях содержательно не интерпретируется, но благодаря своим свойствам широко используется для расчета многих статистических характеристик (например, для расчета стандартного отклонения).

Среднее квадратическое отклонение случайной величины Х называется квадратный корень из дисперсии.

В рассматриваемом нами распределении значение среднего квадратического отклонения равно Standart deviation=52,8.

Стандартная ошибка выборки – это отклонение суммарного измерения выборки от параметров генеральной совокупности.

Показатель среднего квадратического отклонения – наиболее часто используемый абсолютный показатель вариации. Он характеризует, насколько в среднем отклоняются индивидуальные значения признака от типического (среднего) уровня признака по совокупности, т.е. в абсолютном выражении оценивает степень рассеянности индивидуальных значений признака вокруг среднего. Чем меньше значение стандартного отклонения, тем устойчивее средняя величина.

Полученный результат говорит о том, что число женщин на 1000 мужчин каждого региона в среднем отклоняется на 52,8 от среднего уровня по России в 2009 г.

В рассматриваемом нами распределении значение стандартной ошибки выборки равно 5,8.

Характеристика структуры распределения

Характеристика структуры распределения подразумевает расчёт и анализ показателей: медиана, квартили, децили. Медиана была посчитана в разделе 2.

Квартили – это значения случайной переменной, делящие распределение на 4 равные по объему части.

В нашем случае нижний квартиль равен Lower = 1118, верхний квартиль Upper = 1190, межквартильный размах Quartile = 72 .

Полученные результаты говорят о том, что у 25% регионов число женщин на 1000 мужчин меньше 1118, а у 75% - больше этого значения; у 75% регионов число женщин на 1000 мужчин меньше 1190, а у 25% - больше.

Характеристика формы распределения

Показатели формы распределения помогают понять, как распределены единицы совокупности относительно центра распределения. К показателям формы распределения относятся: коэффициент асимметрии и коэффициент эксцесса, стандартизованная асимметрия, стандартизованный эксцесс.

Характеристика формы распределения подразумевает расчёт и анализ показателей: коэффициент асимметрии, коэффициент эксцесса (куртозис).

Коэффициент асимметрии.

Коэффициент асимметрии – оценивает асимметрию в центре

распределения и на его концах. Предложен Пирсоном, основывается на сравнении показателей центра распределения:

В нашем случае коэффициент асимметрии равен Skewness = -0,444852, стандартизованная ошибка асимметрии равна Std.err. = 0,267302

Стандартизованная асимметрия равна 0,7 , что меньше 3, значит в нашем случае асимметрия несущественная и сформирована под влиянием случайных факторов.

В исследуемом случае < M_O, значит, асимметрия является отрицательной (левосторонней). Т.е. чаще встречаются большие значения. Это значит, что по районам России число женщин на 1000 мужчин встречается чаще больше по значению, чем среднее число женщин на 1000 мужчин по всем регионам.

Коэффициент эксцесса (куртозис).

Этот показатель характеризует выпад вершины эмпирического распределения вверх или вниз относительно кривой нормального распределения. Эксцесс оценивается только при наличии несущественной асимметрии эмпирического распределения (т.е. в данном случае его можно оценить).

В нашем распределении случае коэффициент куртозиса равен Kurtosis = -0,430181, стандартизованная ошибка куртозиса равна Std.err.=0,528675.

Стандартизованный куртозис равен 0,8, что меньше 3, значит в нашем случае куртозис несущественен и сформирован под влиянием случайных факторов.

В исследуемом случае коэффициент куртозиса является отрицательным т.е., происходит выпад вершины распределения относительно кривой нормального распределения вверх.

Заключение

В процессе работы исследована совокупность регионов России по признаку «Число женщин на 1000 мужчин» в 2009 году. Совокупность была разбита на 6 групп (интервалов) и найдены различные статистические показатели (центра распределения, структуры распределения, вариации, формы распределения) как для дискретной последовательности, так и для интервального вариационного ряда.

С помощью ППП STATISTICA, построены полигон, кумулята и гистограмма, в центре которых среднее арифметическое и медиана.

При проведении данной работы, мы доказали, что гипотеза об «Отношении числа женщин на 1000 мужчин» в 2009 году соответствует нормальному распределению и не противоречит статистическим данным.

Список литературы

1. Регионы России. Социально-экономические показатели. Статистический сборник. Федеральная служба государственной статистики (Росстат) 2010.

2. Н.В. Куприенко, О.А. Пономарева, Д.В. Тихонов. Статистика. Анализ эмпирических распределений. Методические указания, Санкт-Петербург Издательство Политехнического Университета, 2011.

3. Пономарева О. А. Конспект лекций по дисциплине «Статистика». Санкт-Петербургский Государственный Политехнический Университет.