Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году

ВВЕДЕНИЕ

Актуальность темы: возрастающий интерес к статистике вызван современным этапом развития экономики в стране, формирования рыночных отношений. Это требует глубоких экономических знаний в области сбора, обработки и анализа экономической информации.

Статистика в узком смысле представляет собой количественную совокупность, связанную с обработкой данных индивидуальных наблюдений, свойственных предметам, явлениям, составляющим отдельные параметры единицы совокупности.

Статистическая грамотность является неотъемлемой составной частью профессиональной подготовки каждого экономиста, финансиста, социолога, политолога, а также любого специалиста, имеющего дело с анализом массовых явлений (социально-общественных, экономических, технических, научных и других). Работа этих групп специалистов неизбежно связана со сбором, разработкой и анализом данных статистического (массового) характера. Нередко им самим приходится проводить статистический анализ различных типов и направленностей либо знакомиться с результатами статанализа, выполненного другими. В настоящее время от работника, занятого в любой области науки, техники, производства, бизнеса и прочее, связанной с изучением массовых явлений, требуется, чтобы он был, по крайней мере, статистически грамотным человеком. В конечном счете, невозможно успешно специализироваться по многим дисциплинам без усвоения какого-либо статистического курса. Поэтому большое значение имеет знакомство с общими категориями, принципами и методологией статистического анализа, которое мы и осуществили с практической точки зрения в данном курсовом проекте.

Цель работы – провести полный анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году. Задачи работы:

провести вариационный анализ статистической совокупности;
провести бесповторную выборку, а также описать процесс ее проведения;
провести корреляционно-регрессионный анализ;
проверить гипотезу о нормальном характере распределения
провести анализ рядов динамики.

Сводка и группировка статистического наблюдения

В данной задаче необходимо на основании имеющихся данных определить среднее значение показателя совокупности «Численность экономически активного населения по субъектам РФ в 2010 году, чел.», построить две простые группировки, в том числе одну - с выделением групп регионов со значением показателя ниже и выше среднего по РФ.

Для изучения и анализа данных необходимо выполнить сводку, которая позволит наглядно представить, сравнить и структурировать данные.

Итак, в таблице 1 (см. приложение 1) представлены сводка данных по показателю «Численность экономически активного населения по субъектам РФ в 2010 году, чел.»

Для дальнейшей группировки необходимо рассчитать среднее значение по всей группе. Для этого воспользуемся следующей формулой:

(1)

где - это число численность экономически активного населения по субъектам РФ в 2010 году, тыс. чел.;

n- количество субъектов по РФ.

Подставив в формулу, получим среднее значение показателя:

. (2)

Это значит, что в среднем численность экономически активного населения по субъектам РФ в 2010 году составляет 924 тыс. чел.

Далее необходимо составить две простые группировки. Для первой из них распределим единицы по группам в соответствии со значением показателя выше и ниже среднего по РФ. Полученные результаты представим в таблице 1.2:

Таблица 1.2 - Группировка значений субъектов РФ по изучаемому показателю со значением выше и ниже среднего по РФ

Доля	Кол-во субъектов, шт.	В % к итогу	Среднее значение по группе
Меньше среднего значения	57	69	481
Больше среднего значения	26	31	1 896
Итого:	83	100

Результаты данной таблицы представим графически, построив круговую диаграмму:

Рисунок 1.1 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по РФ, %

По данным диаграммы можно сделать вывод о том, что регионы со значением выше среднего преобладают (68,67%).

Для второй простой группировки распределим единицы по группам в соответствии со значением показателя выше и ниже значения в Челябинской области и получим:

Таблица 1.3 - Группировка субъектов РФ по изучаемому показателю со значением выше и ниже среднего по Челябинской области

Доля	Кол-во субъектов, шт.	В % к итогу	Среднее значение по группе
Меньше значения по Челябинской области	73	89	674
Больше значения по Челябинской области	9	11	2 846
Итого:	82	100

Изобразим графически результаты, представленные в таблице:

Рисунок 1.2 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по Челябинской области, %

Анализируя полученные данные, можно сделать вывод о том, что в подавляющем большинстве регионов по РФ (89,02%) численность экономически активного населения меньше значения по Челябинской области.

Задание 2

В данном задании необходимо провести вариационный анализ статистической совокупности по показателю «Численность экономически активного населения в 2010 году, тыс. чел.», для чего нужно:

построить вариационный ряд и изобразить его графически;
построить кумуляту и огиву ;

рассчитать показатели структуры, силы и интенсивности вариации;

сделать выводы относительно исследуемой совокупности.

Сначала построим вариационный ряд. Так как количество значений признака достаточно велико, то строим интервальный вариационный ряд. Для этого определим количество (k) и длину (l) интервалов по формуле Стержесса:

где n – количество единиц в ряду.

В нашем случае n=81 в силу того, что мы исключили из дальнейшего анализа Москву и Московскую область, т.к. они являются аномальными единицами (это связано с тем, что данные регионы более экономически развиты). Поэтому целесообразнее их исключить.

Подставив в формулу, получим:

количество интервалов в вариационном ряду 7.

Для удобства восприятия данных длину интервала возьмем равную 350.

Исходя из полученных данных, составим вариационный ряд - Таблица 2.1:

Таблица 2.1 – Распределение численности экономически активного населения по субъектам РФ.

Численность населения	Кол-во регионов
23-373	18
373-723	31
723-1 073	8
1 073-1 423	11
1 423-1 773	4
1 773-2 123	5
2 123-2 473	2
2 473-2 823	2
Итого:	81

Изобразим полученный вариационный ряд графически. Так как в нашем случае ряд является интервальным, то графическим его отображением является гистограмма.

Рисунок 2.1 - Гистограмма распределения численности экономически активного населения по субъектам РФ

Для работы с данными также необходимо построить огиву и кумуляту. Для построения этих двух линий необходимо рассчитать накопленные частоты отдельно для каждой («Таблица 2.2»):

Таблица 2.2 - Расчет накопленных частот для огивы и кумуляты

Численность экономически активного населения	Накопленная частота (для кумуляты)	Накопленная частота (для огивы)
23	-	81
373	18	63
723	49	32
1 073	57	24
1 423	68	13
1 773	72	9
2 123	77	4
2 473	79	2
2 823	81	-

Построим огиву и кумуляту:

Рисунок 2.2 - Кумулята и огива распределения экономически активного населения по субъектам РФ

После построения вариационного ряда необходимо перейти ко второму этапу вариационного анализа – расчету показателей вариации.

Рассмотрим структуру вариации, для этого рассчитаем моду и медиану.

Для интервального ряда мода определяется по формуле

Подставив соответствующие значения, получим:

Это означает, что большинство субъектов РФ имеют численность экономически активного населения, близкую к 499 тыс. чел.

Определим медиану по следующей формуле:

Подставив соответствующие числовые значения, получим:

Медиана означает, что в половине субъектов РФ численность экономически активного населения равна 627 тыс. чел. или меньше, а в половине – 627 тыс. чел. или больше.

Далее рассчитаем показатели силы и интенсивности вариации.

Размах вариации

Данный показатель рассчитывается по формуле:

Подставив числовые значения, получим:

Среднее линейное отклонение рассчитаем по формуле:

Из формулы видно, что для расчета данного показателя нам необходимо рассчитать среднее значение признака (без учета г. Москва и Московской области), воспользовавшись формулой 1. Получим:

Все промежуточные расчеты, необходимые для определения среднего линейного отклонения, представим в таблице «Таблица 2.3» (см. приложение 2).

Подставив в формулу соответствующие показатели, получим:

d= 498,95

Следующий показатель силы вариации – дисперсия – это средняя величина квадратов отклонений.

Для интервального ряда этот показатель рассчитывается по следующей формуле:

Промежуточные расчеты, используемые при расчете дисперсии, представим в Таблице 2.4 (см. приложение 3)

Подставив в формулу рассчитанные данные, получим:

=384 533,1437

Следующий показатель найдем с помощью извлечения квадратного корня из дисперсии – среднее квадратическое отклонение.

Среднее квадратическое отклонение – это обобщающая характеристика размера вариации признака в совокупности.

Для интервального ряда этот показатель рассчитывается по следующей формуле

Подставив числа, получим:

620,107 3647

Для более полного анализа изучаемой совокупности необходимо рассчитать показатели интенсивности вариации.

Первым из них является относительный размах вариации. Он рассчитывается по формуле:

3,195 или 319,5%

Следующим показателем является относительное линейное отклонение, которое рассчитывается по формуле

Для наших данных относительное линейное отклонение будет следующим:

0,605 или 60,5%

Последним показателем интенсивности вариации является коэффициент вариации:

0,751 или 75,1%

Данные показатели служат для сравнительной оценки вариации в разных совокупностях и характеризуют однородность изучаемой совокупности.

При анализе данных важно представить как именно распределены единицы совокупности по всему диапазону значений признака, для этого рассчитаем показатели характера вариации.

Первым из них является коэффициент асимметрии, который рассчитывается по формуле:

где – центральный момент третьего порядка:

Все промежуточные расчеты, необходимые для определения центрального момента третьего порядка и асимметрии, представим в таблице “Таблица 2.5” (см. приложение 4).

Подставив соответствующие значения в формулы, найдем сначала центральный момент третьего порядка, а затем и асимметрию:

285 730 450,6

1,198 273 233

Вторым показателем, определяющим характер вариации, является показатель эксцесса:

где – центральный момент четвертого порядка:

Промежуточные расчеты, необходимые для нахождения центрального момента четвертого порядка и эксцесса, также представим в табличной форме “Таблица 2.6” (см. приложение 5).

Подставив полученные значения в формулы, рассчитаем центральный момент четвертого порядка и эксцесс

545 290 363 187,00

_{Ex=0,687 739 758}

Исходя из рассчитанных показателей характера вариации, сделаем следующие выводы относительно исследуемой совокупности:

так как коэффициент асимметрии принимает положительные значения, то в распределении признака имеет место правосторонняя асимметрия, то есть основная масса значений признака смещена в область малых значений.
так как показатель эксцесса принимает положительные значения, то распределение признака является островершинным, то есть основная масса значений сконцентрирована на небольшом диапазоне изменения признака, сконцентрирована в большей степени, чем в случае нормального распределения.

Таким образом, проведя вариационный анализ статистической совокупности, мы наглядно смогли представить, как распределена численность экономически активного населения по всем субъектам Российской Федерации, определили, что в данном интервальном ряду средняя численность экономически активного населения составила 825 тыс. чел., а размах вариации 2637 единиц численности, что говорит о достаточно большом разбросе индивидуальных значений.

При этом половина субъектов РФ в совокупности имеют число предприятий и организаций в количестве 627 тыс. чел. или меньше, а половина – 627 тыс. чел. или больше.

В среднем показатель отклоняется от среднего числа предприятий и организаций на 498,95 единиц численности экономически активного населения, СКО и дисперсия вариационного ряда составили, соответственно, 620,107 364 7 и 384 533,1437.

Значение всех рассчитанных показателей представлены в приложении 6.

Задание 3

В данном задании нужно проверить гипотезу о нормальном характере распределения Показателя, используя критерий Пирсона. Степень значимости принять равной 0,05.

Проверка гипотезы состоит в том, чтобы на основании сравнения эмпирических частот с теоретическими частотами сделать вывод о соответствии фактического распределения теоретическому.

Для проверки гипотезы о нормальном характере распределения можно воспользоваться критерием согласия Пирсона. Идея критерия Пирсона заключается в расчете и оценке обобщенного показателя отклонений фактических значений частоты появления признака от их теоретических значений (показателя ). Чем больше величина этих отклонений, тем меньше оснований считать распределений близким к теоретическому.

Фактическое значение вычисляется по формуле

где и – частота попадания признака в j-й интервал соответственно в эмпирическом и теоретическом рядах распределения; k – количество выделенных интервалов.

Эмпирическая частота появления признака берется из фактического вариационного ряда.

Теоретическая частота появления признака определяется по формуле

где – длина интервала;

– среднее квадратическое отклонение признака;

– плотность вероятности теоретического распределения.

Для начала рассчитаем среднее значение признака как среднюю арифметическую взвешенную, так как данные сгруппированы:

833

Значение среднего квадратического отклонения подставим из предыдущего задания:

620,1

Рассчитаем значение нормированного отклонения для каждого интервала и по рассчитанным значениям нормированного отклонения найдем соответствующие значения плотности вероятности нормального нормированного распределения. После чего рассчитаем значение теоретической частоты.

Интервалы	Центр интервала	Численность	Нормированное отклонение t=(x_i-x_ср)/σ	f(t) по таблице	Теоретическая частота f ′
23-373	198	18	-0,6	0,2371	11
373-723	548	31	0,39	0,3589	16
723-1073	898	8	1,38	0,397	18
1073-1423	1248	11	2,38	0,3187	15
1423-1773	1598	4	3,37	0,1972	9
1773-2123	1948	5	4,36	0,079	4
2123-2473	2298	2	5,35	0,0246	1
2473-2823	2648	2	6,34	0,0055	0,3
Итого:		81			74

Результаты всех расчетов представим в таблице 3.1:

Таблица 3.1. – Расчет теоретических частот

Далее рассчитаем фактическое значение _{. Расчеты представим
в виде таблицы 3.2}

_{Таблица 3.2
– Расчет фактического
значения}

Эмпирические частоты	Теоретические частоты	f_эмп-f_m	(f_эмп-f_m)²	(f_эмп-f_m)²/f_m
18	11	7	49	4,455
31	16	15	225	14,063
8	18	-10	100	5,556
11	15	-4	16	1,067
4	9	-5	25	2,778
5	4	1	1	0,250
2	1	1	1	1,000
2	0,0	2	4	-
∑=81	∑=74			29,167

_{Итак,
=29,167. Сравнив рассчитанное
и табличное значения

.}

Табличное значение определяется по “Распределению Пирсона” по двум входным параметрам: число степеней свободы и степени значимости . Степень значимости по условию задачи равно 0,05. число степеней свободы равно:

Где k – число интервалов в вариационном ряду, в нашем случае оно равно 8.

По значениям по таблице находим .

Фактическое значение оказалось больше табличного (29,167>11,070), следовательно, гипотеза о нормальном распределении предприятий и организаций не подтвердилась.

Задание № 4

Необходимо определить, с какими показателями корреляционно связан показатель «Численность экономически активного населения по субъектам РФ в 2010 году и оценить тесноту связи.

Рассмотрим две пары признаков, в каждой паре один признак является факторным, а другой результативным.

В первой паре факторный признак: Численность населения в 2010 году;

результативный: Численность экономически активного населения в 2010 году.

Между двумя признаками имеет место корреляционная связь, если с изменением значений одного признака закономерным образом изменяется среднее значение другого признака.

Необходимо определить тесноту связи между признаками, то есть провести корреляционный анализ.

Процедура корреляционного анализа включает в себя:

построение поля корреляции;
построение корреляционной решетки;
расчет показателей корреляции;
анализ и оценку наличия, направления и тесноты корреляционной связи.

Построим поле корреляции по совокупности, где факторным показателем является: численность населения в 2010 году, результативным: Численность экономически активного населения в 2010 году.

Поле корреляции будет иметь следующий вид:

Рисунок 4.1 – Поле корреляции

Из поля корреляции видно, что следующие точки - Московская область (7093; 3 762) и г. Москва (11514; 6 101) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.

Таким образом, поле корреляции примет следующий вид:

Рисунок 4.2 – Поле корреляции для исследования

Далее рассчитаем следующие показатели:

Эмпирическое корреляционное отношение (ЭКО)
Коэффициент детерминации

Построим для этого корреляционную решетку.

Таблица 4.1 – Корреляционная решетка

Численность населения, чел.	Численность экономически активного населения, тыс. чел.				Итого:
Численность населения, чел.	0-600	600-1100	1100-2000	2000-2700
0-2000	40	19	-	-	59
2000-4000	-	-	16	-	16
4000-5500	-	-	-	6	6
Итого:	40	19	16	6	81

Рассчитаем показатели корреляции и оценим наличие и тесноту связи.

Найдем общее среднее значение:

×××827,78

Найдем общую дисперсию:

××

Для того, чтобы найти межгрупповую дисперсию, необходимо вычислить средние значения в каждой группе:

Межгрупповая дисперсия:

364239,38

ЭКО показывает тестону связи. Полученное значение указывает на то, что связь весьма тесная.

Т.к. Ƞ=0,94, то Ƞ² = 0,88. Это говорит о том, что на 88% вариация численности экономически активного населения обусловлена различиями в общей численности населения по субъектам РФ.

Исходя из полученных данных, мы можем сделать вывод о том, что связь между факторным признаком и результативным признаком – умеренная.

2) Во второй паре факторный признак: численность экономически активного населения; результативный: численность безработных.

Построим поле корреляции по совокупности, где факторным показателем является: численность экономически активного населения, результативным: численность безработных.

Рисунок 4.3 – Поле корреляции

Из поля корреляции видно, что следующие точки - г. Москва (6 101; 104), Московская область (3 762; 126), г. Санкт-Петербург (2 660; 70) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.

Таким образом, поле корреляции примет следующий вид:

Рисунок 4.4. – Поле корреляции для исследования

Построим корреляционную решетку.

Таблица 4.2 – Корреляционная решетка

Численность экономически активного населения, тыс. чел.	Численность безработных, тыс. чел.			Итого:
Численность экономически активного населения, тыс. чел.	0-150	150-200	200-250
0-1000	56	-	1	57
1000-2000	17	1	-	18
2000-3000	1	3	1	5
Итог:	74	4	2	80

Анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году 📙 Курсовая → 🆔 20031