Статистический анализ распределения регионов России по соотношению мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году
Министерство образования и науки Российской Федерации
Государственное образовательное учреждение высшего профессионального образования
Санкт-Петербургский
Государственный
Факультет
экономики и менеджмента
Кафедра
«Финансы и денежное обращение»
Курсовая работа
по дисциплине «Статистика»
на тему:
«Статистический анализ распределения
регионов России по соотношению мужчин
и женщин (на 1000 мужчин приходится женщин)
в 2009 году»
Санкт-Петербург
2011
Содержание
Введение…………………………………………………………
1. Анализ
эмпирического распределения………
- Графическое
и табличное представление вариационного
ряда распределения……………………………………………
…………………….6
2. Характеристика
центральной тенденции
3. Оценка
вариации изучаемого признака……
4. Характеристика
структуры распределения ……………
5. Характеристика
формы распределения……………………………………..
Заключение……………………………………………………
Список литературы…………………………………
Введение
В курсовой работе будет построен и исследован ряд распределения регионов России по соотношению мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году.
В данной курсовой работе рассматривается реализация анализа распределений с использованием программы Statistica.
Ряд распределения – это распределение единиц совокупности по значению того или иного признака в конкретных условиях места и времени. Исходя из этого определения, любой ряд распределения состоит из двух элементов: значение признака (вариант) и соответствующая частота (характеризует, сколько единиц совокупности обладает данным значением признака).
Ряд
распределения в настоящей
Исходные данные были взяты из сборника Росстата «Регионы России. Социально-экономические показатели» таблицы 3.5 «Соотношение мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году» (таблица 1).
Все
расчеты и построение графиков реализуются
с помощью программы Statsoft Statistica
v7.0.61.0 .
Таблица 1
Соотношение мужчин и женщин (на 1000 мужчин приходится женщин) в 2009 году
| № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин |
| 1 | 1182 | 18 | 1106 | 35 | 1152 | 52 | 1144 | 69 | 1145 |
| 2 | 1210 | 19 | 1187 | 36 | 1129 | 53 | 1203 | 70 | 1163 |
| 3 | 1233 | 20 | 1113 | 37 | 1064 | 54 | 1183 | 71 | 1169 |
| 4 | 1204 | 21 | 1147 | 38 | 1157 | 55 | 1190 | 72 | 1174 |
| 5 | 1245 | 22 | 1060 | 39 | 1150 | 56 | 1186 | 73 | 1170 |
| 6 | 1202 | 23 | 1183 | 40 | 1132 | 57 | 1185 | 74 | 1142 |
| 7 | 1204 | 24 | 1123 | 41 | 1166 | 58 | 1179 | 75 | 1068 |
| 8 | 1211 | 25 | 1178 | 42 | 1169 | 59 | 1079 | 76 | 986 |
| 9 | 1203 | 26 | 1069 | 43 | 1144 | 60 | 1043 | 77 | 1093 |
| 10 | 1188 | 27 | 1246 | 44 | 1162 | 61 | 1017 | 78 | 1095 |
| 11 | 1213 | 28 | 1210 | 45 | 1182 | 62 | 1179 | 79 | 1102 |
| 12 | 1213 | 29 | 1232 | 46 | 1170 | 63 | 1109 | 80 | 1079 |
| 13 | 1228 | 30 | 1153 | 47 | 1178 | 64 | 1118 | 81 | 1095 |
| 14 | 1206 | 31 | 1074 | 48 | 1163 | 65 | 1113 | 82 | 1077 |
| 15 | 1234 | 32 | 1138 | 49 | 1179 | 66 | 1149 | 83 | 949 |
| 16 | 1244 | 33 | 1141 | 50 | 1180 | 67 | 1161 | ||
| 17 | 1236 | 34 | 1103 | 51 | 1221 | 68 | 1093 |
1. Анализ эмпирического распределения.
Построение рядов распределения начинается с ранжирования данных.
Ранжирование вариационного ряда – это расположение единиц совокупности в порядке возрастания или убывания значений признака.
Анализ распределений направлен на выявление частот в зависимости от значений варьирующего признака и изучение различных характеристик распределения.
Прежде, чем приступить к вычислению статистических показателей, необходимо из исходной совокупности исключить единицы, не подчиняющиеся общей закономерности распределения, так называемые выбросы. Построение ранжированного ряда позволяет увидеть наличие или отсутствие выбросов.
Выбросы – это единицы совокупности, значения признака которых резко отличаются как в большую, так и в меньшую сторону от значений признака у основной части единиц совокупности.
Для удобства локализации и устранения выбросов необходимо ранжировать исходные данные. В нашем примере, как выброс, удаляется первые 2 значения ранжированной совокупности, таким образом, окончательный объем совокупности составляет 81 единица (таблица 1.1).
После сортировки по возрастанию получим рабочий ряд (рис.1.1)
Рис. 1.1.
Вид начала и конца рабочего листа с ранжированной
переменной
Таблица 1.1
Исходные данные, ранжированные по возрастанию значений признака
| № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин | № региона | Число женщин на 1000 мужчин |
| 1 | 1017 | 18 | 1109 | 35 | 1153 | 52 | 1180 | 69 | 1210 |
| 2 | 1043 | 19 | 1113 | 36 | 1157 | 53 | 1182 | 70 | 1211 |
| 3 | 1060 | 20 | 1113 | 37 | 1161 | 54 | 1182 | 71 | 1213 |
| 4 | 1064 | 21 | 1118 | 38 | 1162 | 55 | 1183 | 72 | 1213 |
| 5 | 1068 | 22 | 1123 | 39 | 1163 | 56 | 1183 | 73 | 1221 |
| 6 | 1069 | 23 | 1129 | 40 | 1163 | 57 | 1185 | 74 | 1228 |
| 7 | 1074 | 24 | 1132 | 41 | 1166 | 58 | 1186 | 75 | 1232 |
| 8 | 1077 | 25 | 1138 | 42 | 1169 | 59 | 1187 | 76 | 1233 |
| 9 | 1079 | 26 | 1141 | 43 | 1169 | 60 | 1188 | 77 | 1234 |
| 10 | 1079 | 27 | 1142 | 44 | 1170 | 61 | 1190 | 78 | 1236 |
| 11 | 1093 | 28 | 1144 | 45 | 1170 | 62 | 1202 | 79 | 1244 |
| 12 | 1093 | 29 | 1144 | 46 | 1174 | 63 | 1203 | 80 | 1245 |
| 13 | 1095 | 30 | 1145 | 47 | 1178 | 64 | 1203 | 81 | 1246 |
| 14 | 1095 | 31 | 1147 | 48 | 1178 | 65 | 1204 | ||
| 15 | 1102 | 32 | 1149 | 49 | 1179 | 66 | 1204 | ||
| 16 | 1103 | 33 | 1150 | 50 | 1179 | 67 | 1206 | ||
| 17 | 1106 | 34 | 1152 | 51 | 1179 | 68 | 1210 |
- Графическое и табличное представление вариационного ряда распределения
Следующим шагом является группировка по количественному непрерывному признаку и построение вариационного ряда распределения.
Вариационным называется ряд распределения, построенный по количественному признаку. Он может быть представлен в виде таблицы и графически. Табличное представление позволяет не только выявить ту или иную закономерность распределения, но и подробно охарактеризовать структуру изучаемой совокупности.
При этом величина группировочного интервала определяется по формуле:
где h – величина группировочного интервала, Xmin и Xmax – минимальное и максимальное значения признака совокупности.
В данной задаче k = 6 , предполагаемая величина группировочного интервала равна примерно h = 38. Далее построена таблица распределения (рис. 1.1.1).
Рис. 1.1.1
Распределение регионов России по значению
показателя «Число женщин на 1000 мужчин
в 2009 году»
На основе таблицы построим график, наглядно представляющий закономерность распределения анализируемой статистической совокупности.
Для изображения вариационного ряда используются графики:
- гистограмма (рис. 1.1.2)
- полигон (рис. 1.1.3)
- кумулята
(рис. 1.1.4, 1.1.5)
Рис. 1.1.2 Гистограмма распределения регионов России по значению показателя «Число женщин на 1000 мужчин в 2009 г.»
Рис. 1.1.3
Полигон распределения регионов России
по значению показателя «Число женщин
на 1000 мужчин в 2009 г.»
Рис. 1.1.4
Кумулята распределения регионов России
по значению показателя «Число женщин
на 1000 мужчин в 2009 г.» (абсолютные частоты)
Рис. 1.1.5
Кумулята распределения регионов России
по значению показателя «Число женщин
на 1000 мужчин в 2009 г.» (относительные частоты)
- Характеристика центральной тенденции распределения
Статистический анализ вариационных рядов распределения предполагает расчет характеристик центра распределения, его структуры, оценку степени вариации и дифференциации изучаемого признака, изучение формы распределения.
В
качестве показателей центральной
тенденции распределения
-
среднее арифметическое
- мода;
- медиана.
Основными показателями вариации являются: размах вариации, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Для характеристики структуры распределения используются следующие показатели: медиана, квартили, децили и прочие процентили. Изучение формы распределения предполагает оценку асимметрии и эксцесса (куртозиса). Перечисленные показатели имеют самостоятельное аналитическое значение, поскольку отражают разные свойства изучаемой совокупности, а все вместе они позволяют получить комплексную характеристику эмпирического распределения.
Результаты
расчета основных статистических характеристик
представлены на рис. 2.1
Рис.2.1
Основные характеристики распределения
регионов России по значению показателя
«Число женщин на 1000 мужчин в 2009 г.»
Характеристика центрального распределения включает в себя расчёт и анализ центра распределения, вычисление среднего арифметического значения, моды и медианы.
Средняя арифметическая характеризует типический уровень признаков совокупности.
Средняя арифметическая величина – отношение объема признака к объему совокупности.
Данная средняя используется для расчета средних значений абсолютных показателей по несгруппированным данным.
В рассматриваемом нами распределении средняя арифметическая равна Mean =1157,037.
Это означает, что в среднем по России в 2009 году число женщин на 1000 мужчин составляет 1157.
Мода – это наиболее часто встречающееся значение показателя распределения (Mode).
В данном случае модальный интервал 1169 <Х<= 1207, h=38,
=67, fMo-1=41, fM0+1=81
Отсюда М0 = 1289.
Это
означает, что наиболее часто встречающееся
число женщин на 1000 мужчин по России
в 2009 году составляет 1289.
Медиана – это значение показателя у единицы совокупности, делящий ранжированный ряд пополам. Значение медианы характеризует структуру изучаемой совокупности, указывая, что 50% единиц имеют значения признака меньше медианного и 50% - больше медианного.
При
определении медианы по ранжированному
ряду порядковый номер единицы, значение
признака которой является медианой,
определяется как
Если
число единиц совокупности четное и
порядковый номер – дробное значение,
то значение медианы определяется как
среднее арифметическое значений признака
у двух центральных единиц.
В рассматриваемом нами распределении, значение медианы равно Median = 1166.
Это
значит, что у 50% регионов России в 2009 году
число женщин на 1000 мужчин было выше 1166,
а у 50% - ниже этого значения.
- Оценка вариации изучаемого признака
Вариация
– различия в индивидуальных значениях
признака у единиц совокупности. От степени
вариации признака в совокупности зависит
типичность, надежность показателей центра
распределения. Чем меньше вариация, тем
в большей степени среднее значение выполняет
функцию характеристики типического уровня
признака.
Абсолютные
показатели (измеряются в тех же единицах,
что и изучаемые показатели):
Размах вариации (R) рассчитывается как разность между максимальным (Xmax) и минимальным (Xmin) значениями признака в совокупности:
Показатель характеризует, насколько максимальное значение признака превышает минимальное.
В нашем случае размах вариации равен Range = 229.
Размах
вариации показывает, что регион, с
наибольшим числом женщин отличается
от региона с наименьшим числом женщин
на 229 женщин на 1000 мужчин.
Дисперсия – характеристика рассеивания значений случайной величины, измеряемая квадратом их отклонений от среднего значения.
В рассматриваемом нами распределении значение дисперсии
Variance = 2787,6.
Показатель
дисперсии в экономических
Среднее квадратическое отклонение случайной величины Х называется квадратный корень из дисперсии.
В рассматриваемом нами распределении значение среднего квадратического отклонения равно Standart deviation=52,8.
Стандартная ошибка выборки – это отклонение суммарного измерения выборки от параметров генеральной совокупности.
Показатель среднего квадратического отклонения – наиболее часто используемый абсолютный показатель вариации. Он характеризует, насколько в среднем отклоняются индивидуальные значения признака от типического (среднего) уровня признака по совокупности, т.е. в абсолютном выражении оценивает степень рассеянности индивидуальных значений признака вокруг среднего. Чем меньше значение стандартного отклонения, тем устойчивее средняя величина.
Полученный результат говорит о том, что число женщин на 1000 мужчин каждого региона в среднем отклоняется на 52,8 от среднего уровня по России в 2009 г.
В рассматриваемом
нами распределении значение стандартной
ошибки выборки равно 5,8.
- Характеристика структуры распределения
Характеристика
структуры распределения
Квартили – это значения случайной переменной, делящие распределение на 4 равные по объему части.
В нашем случае нижний квартиль равен Lower = 1118, верхний квартиль Upper = 1190, межквартильный размах Quartile = 72 .
Полученные
результаты говорят о том, что у 25% регионов
число женщин на 1000 мужчин меньше 1118,
а у 75% - больше этого значения; у 75% регионов
число женщин на 1000 мужчин меньше 1190, а
у 25% - больше.
- Характеристика формы распределения
Показатели формы распределения помогают понять, как распределены единицы совокупности относительно центра распределения. К показателям формы распределения относятся: коэффициент асимметрии и коэффициент эксцесса, стандартизованная асимметрия, стандартизованный эксцесс.
Характеристика
формы распределения
Коэффициент асимметрии.
Коэффициент асимметрии – оценивает асимметрию в центре
распределения
и на его концах. Предложен Пирсоном,
основывается на сравнении показателей
центра распределения:
В нашем случае коэффициент асимметрии равен Skewness = -0,444852, стандартизованная ошибка асимметрии равна Std.err. = 0,267302
Стандартизованная асимметрия равна 0,7 , что меньше 3, значит в нашем случае асимметрия несущественная и сформирована под влиянием случайных факторов.
В исследуемом случае < MO, значит, асимметрия является отрицательной (левосторонней). Т.е. чаще встречаются большие значения. Это значит, что по районам России число женщин на 1000 мужчин встречается чаще больше по значению, чем среднее число женщин на 1000 мужчин по всем регионам.
Коэффициент эксцесса (куртозис).
Этот показатель характеризует выпад вершины эмпирического распределения вверх или вниз относительно кривой нормального распределения. Эксцесс оценивается только при наличии несущественной асимметрии эмпирического распределения (т.е. в данном случае его можно оценить).
В нашем распределении случае коэффициент куртозиса равен Kurtosis = -0,430181, стандартизованная ошибка куртозиса равна Std.err.=0,528675.
Стандартизованный куртозис равен 0,8, что меньше 3, значит в нашем случае куртозис несущественен и сформирован под влиянием случайных факторов.
В исследуемом случае коэффициент куртозиса является отрицательным т.е., происходит выпад вершины распределения относительно кривой нормального распределения вверх.
Заключение
В процессе работы исследована совокупность регионов России по признаку «Число женщин на 1000 мужчин» в 2009 году. Совокупность была разбита на 6 групп (интервалов) и найдены различные статистические показатели (центра распределения, структуры распределения, вариации, формы распределения) как для дискретной последовательности, так и для интервального вариационного ряда.
С помощью ППП STATISTICA, построены полигон, кумулята и гистограмма, в центре которых среднее арифметическое и медиана.
При проведении данной работы, мы доказали, что гипотеза об «Отношении числа женщин на 1000 мужчин» в 2009 году соответствует нормальному распределению и не противоречит статистическим данным.
Список литературы
1. Регионы России. Социально-экономические показатели. Статистический сборник. Федеральная служба государственной статистики (Росстат) 2010.
2. Н.В. Куприенко, О.А. Пономарева, Д.В. Тихонов. Статистика. Анализ эмпирических распределений. Методические указания, Санкт-Петербург Издательство Политехнического Университета, 2011.
3. Пономарева
О. А. Конспект лекций по дисциплине «Статистика».
Санкт-Петербургский Государственный
Политехнический Университет.