Анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году
ВВЕДЕНИЕ
Актуальность темы: возрастающий интерес к статистике вызван современным этапом развития экономики в стране, формирования рыночных отношений. Это требует глубоких экономических знаний в области сбора, обработки и анализа экономической информации.
Статистика в узком
смысле представляет собой количественную
совокупность, связанную с обработкой
данных индивидуальных наблюдений, свойственных
предметам, явлениям, составляющим отдельные
параметры единицы
Статистическая грамотность
Цель работы – провести полный анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году. Задачи работы:
- провести вариационный анализ статистической совокупности;
- провести бесповторную выборку, а также описать процесс ее проведения;
- провести корреляционно-регрессионный анализ;
- проверить гипотезу о нормальном характере распределения
- провести анализ рядов динамики.
- Сводка и группировка статистич
еского наблюдения
В данной задаче необходимо на основании имеющихся данных определить среднее значение показателя совокупности «Численность экономически активного населения по субъектам РФ в 2010 году, чел.», построить две простые группировки, в том числе одну - с выделением групп регионов со значением показателя ниже и выше среднего по РФ.
Для изучения и анализа данных необходимо выполнить сводку, которая позволит наглядно представить, сравнить и структурировать данные.
Итак, в таблице 1 (см. приложение 1) представлены сводка данных по показателю «Численность экономически активного населения по субъектам РФ в 2010 году, чел.»
Для дальнейшей группировки необходимо рассчитать среднее значение по всей группе. Для этого воспользуемся следующей формулой:
(1)
где - это число численность экономически активного населения по субъектам РФ в 2010 году, тыс. чел.;
n- количество субъектов по РФ.
Подставив в формулу, получим среднее значение показателя:
. (2)
Это значит, что в среднем численность экономически активного населения по субъектам РФ в 2010 году составляет 924 тыс. чел.
Далее необходимо составить две простые группировки. Для первой из них распределим единицы по группам в соответствии со значением показателя выше и ниже среднего по РФ. Полученные результаты представим в таблице 1.2:
Таблица 1.2 - Группировка значений субъектов РФ по изучаемому показателю со значением выше и ниже среднего по РФ
Доля |
Кол-во субъектов, шт. |
В % к итогу |
Среднее значение по группе |
Меньше среднего значения |
57 |
69 |
481 |
Больше среднего значения |
26 |
31 |
1 896 |
Итого: |
83 |
100 |
Результаты данной таблицы представим графически, построив круговую диаграмму:
Рисунок 1.1 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по РФ, %
По данным диаграммы можно сделать вывод о том, что регионы со значением выше среднего преобладают (68,67%).
Для второй простой группировки распределим единицы по группам в соответствии со значением показателя выше и ниже значения в Челябинской области и получим:
Таблица 1.3 - Группировка субъектов РФ по изучаемому показателю со значением выше и ниже среднего по Челябинской области
Доля |
Кол-во субъектов, шт. |
В % к итогу |
Среднее значение по группе |
Меньше значения по Челябинской области |
73 |
89 |
674 |
Больше значения по Челябинской области |
9 |
11 |
2 846 |
Итого: |
82 |
100 |
Изобразим графически результаты, представленные в таблице:
Рисунок 1.2 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по Челябинской области, %
Анализируя полученные данные, можно сделать вывод о том, что в подавляющем большинстве регионов по РФ (89,02%) численность экономически активного населения меньше значения по Челябинской области.
Задание 2
В данном задании необходимо провести вариационный анализ статистической совокупности по показателю «Численность экономически активного населения в 2010 году, тыс. чел.», для чего нужно:
- построить вариационный ряд и изобразить его графически;
- построить кумуляту и огиву ;
- рассчитать показатели структуры, силы и интенсивности вариации;
- сделать выводы относительно исследуемой совокупности.
Сначала построим вариационный ряд. Так как количество значений признака достаточно велико, то строим интервальный вариационный ряд. Для этого определим количество (k) и длину (l) интервалов по формуле Стержесса:
,
где n – количество единиц в ряду.
В нашем случае n=81 в силу того, что мы исключили из дальнейшего анализа Москву и Московскую область, т.к. они являются аномальными единицами (это связано с тем, что данные регионы более экономически развиты). Поэтому целесообразнее их исключить.
Подставив в формулу, получим:
,
количество интервалов в вариационном ряду 7.
Для удобства восприятия данных
длину интервала возьмем
Исходя из полученных данных, составим вариационный ряд - Таблица 2.1:
Таблица 2.1 – Распределение численности экономически активного населения по субъектам РФ.
Численность населения |
Кол-во регионов |
23-373 |
18 |
373-723 |
31 |
723-1 073 |
8 |
1 073-1 423 |
11 |
1 423-1 773 |
4 |
1 773-2 123 |
5 |
2 123-2 473 |
2 |
2 473-2 823 |
2 |
Итого: |
81 |
Изобразим полученный вариационный ряд графически. Так как в нашем случае ряд является интервальным, то графическим его отображением является гистограмма.
Рисунок 2.1 - Гистограмма распределения численности экономически активного населения по субъектам РФ
Для работы с данными также необходимо построить огиву и кумуляту. Для построения этих двух линий необходимо рассчитать накопленные частоты отдельно для каждой («Таблица 2.2»):
Таблица 2.2 - Расчет накопленных частот для огивы и кумуляты
Численность экономически активного населения |
Накопленная частота (для кумуляты) |
Накопленная частота (для огивы) |
23 |
- |
81 |
373 |
18 |
63 |
723 |
49 |
32 |
1 073 |
57 |
24 |
1 423 |
68 |
13 |
1 773 |
72 |
9 |
2 123 |
77 |
4 |
2 473 |
79 |
2 |
2 823 |
81 |
- |
Построим огиву и кумуляту:
Рисунок 2.2 - Кумулята и огива распределения экономически активного населения по субъектам РФ
После построения вариационного ряда необходимо перейти ко второму этапу вариационного анализа – расчету показателей вариации.
Рассмотрим структуру вариации, для этого рассчитаем моду и медиану.
Для интервального ряда мода определяется по формуле
Подставив соответствующие значения, получим:
Это означает, что большинство субъектов РФ имеют численность экономически активного населения, близкую к 499 тыс. чел.
Определим медиану по следующей формуле:
Подставив соответствующие числовые значения, получим:
Медиана означает, что в половине субъектов РФ численность экономически активного населения равна 627 тыс. чел. или меньше, а в половине – 627 тыс. чел. или больше.
Далее рассчитаем показатели силы и интенсивности вариации.
Размах вариации
Данный показатель рассчитывается по формуле:
Подставив числовые значения, получим:
Среднее линейное отклонение рассчитаем по формуле:
Из формулы видно, что для расчета данного показателя нам необходимо рассчитать среднее значение признака (без учета г. Москва и Московской области), воспользовавшись формулой 1. Получим:
Все промежуточные расчеты, необходимые для определения среднего линейного отклонения, представим в таблице «Таблица 2.3» (см. приложение 2).
Подставив в формулу соответствующие показатели, получим:
d= 498,95
Следующий показатель силы вариации – дисперсия – это средняя величина квадратов отклонений.
Для интервального ряда этот показатель рассчитывается по следующей формуле:
Промежуточные расчеты, используемые при расчете дисперсии, представим в Таблице 2.4 (см. приложение 3)
Подставив в формулу рассчитанные данные, получим:
Следующий показатель найдем с помощью извлечения квадратного корня из дисперсии – среднее квадратическое отклонение.
Среднее квадратическое отклонение – это обобщающая характеристика размера вариации признака в совокупности.
Для интервального ряда этот показатель рассчитывается по следующей формуле
Подставив числа, получим:
Для более полного анализа изучаемой совокупности необходимо рассчитать показатели интенсивности вариации.
Первым из них является относительный размах вариации. Он рассчитывается по формуле:
Следующим показателем является относительное линейное отклонение, которое рассчитывается по формуле
Для наших данных относительное линейное отклонение будет следующим:
Последним показателем интенсивности вариации является коэффициент вариации:
Данные показатели служат для сравнительной оценки вариации в разных совокупностях и характеризуют однородность изучаемой совокупности.
При анализе данных важно представить как именно распределены единицы совокупности по всему диапазону значений признака, для этого рассчитаем показатели характера вариации.
Первым из них является коэффициент асимметрии, который рассчитывается по формуле:
,
где – центральный момент третьего порядка:
Все промежуточные расчеты, необходимые для определения центрального момента третьего порядка и асимметрии, представим в таблице “Таблица 2.5” (см. приложение 4).
Подставив соответствующие значения в формулы, найдем сначала центральный момент третьего порядка, а затем и асимметрию:
Вторым показателем, определяющим характер вариации, является показатель эксцесса:
где – центральный момент четвертого порядка:
Промежуточные расчеты, необходимые для нахождения центрального момента четвертого порядка и эксцесса, также представим в табличной форме “Таблица 2.6” (см. приложение 5).
Подставив полученные значения в формулы, рассчитаем центральный момент четвертого порядка и эксцесс
Ex=0,687 739 758
Исходя из рассчитанных показателей характера вариации, сделаем следующие выводы относительно исследуемой совокупности:
- так как коэффициент асимметрии принимает положительные значения, то в распределении признака имеет место правосторонняя асимметрия, то есть основная масса значений признака смещена в область малых значений.
- так как показатель эксцесса принимает положительные значения, то распределение признака является островершинным, то есть основная масса значений сконцентрирована на небольшом диапазоне изменения признака, сконцентрирована в большей степени, чем в случае нормального распределения.
Таким образом, проведя вариационный анализ статистической совокупности, мы наглядно смогли представить, как распределена численность экономически активного населения по всем субъектам Российской Федерации, определили, что в данном интервальном ряду средняя численность экономически активного населения составила 825 тыс. чел., а размах вариации 2637 единиц численности, что говорит о достаточно большом разбросе индивидуальных значений.
При этом половина субъектов РФ в совокупности имеют число предприятий и организаций в количестве 627 тыс. чел. или меньше, а половина – 627 тыс. чел. или больше.
В среднем показатель отклоняется от среднего числа предприятий и организаций на 498,95 единиц численности экономически активного населения, СКО и дисперсия вариационного ряда составили, соответственно, 620,107 364 7 и 384 533,1437.
Значение всех рассчитанных показателей представлены в приложении 6.
\
Задание 3
В данном задании нужно проверить гипотезу о нормальном характере распределения Показателя, используя критерий Пирсона. Степень значимости принять равной 0,05.
Проверка гипотезы состоит в том, чтобы на основании сравнения эмпирических частот с теоретическими частотами сделать вывод о соответствии фактического распределения теоретическому.
Для проверки гипотезы о
нормальном характере распределения
можно воспользоваться
Фактическое значение вычисляется по формуле
,
где и – частота попадания признака в j-й интервал соответственно в эмпирическом и теоретическом рядах распределения; k – количество выделенных интервалов.
Эмпирическая частота появления признака берется из фактического вариационного ряда.
Теоретическая частота появления признака определяется по формуле
,
где – длина интервала;
– среднее квадратическое отклонение признака;
– плотность вероятности теоретического распределения.
Для начала рассчитаем среднее значение признака как среднюю арифметическую взвешенную, так как данные сгруппированы:
Значение среднего квадратического отклонения подставим из предыдущего задания:
Рассчитаем значение нормированного отклонения для каждого интервала и по рассчитанным значениям нормированного отклонения найдем соответствующие значения плотности вероятности нормального нормированного распределения. После чего рассчитаем значение теоретической частоты.
Интервалы |
Центр интервала |
Численность |
Нормированное отклонение t=(xi-xср)/σ |
f(t) по таблице |
Теоретическая частота f ′ |
23-373 |
198 |
18 |
-0,6 |
0,2371 |
11 |
373-723 |
548 |
31 |
0,39 |
0,3589 |
16 |
723-1073 |
898 |
8 |
1,38 |
0,397 |
18 |
1073-1423 |
1248 |
11 |
2,38 |
0,3187 |
15 |
1423-1773 |
1598 |
4 |
3,37 |
0,1972 |
9 |
1773-2123 |
1948 |
5 |
4,36 |
0,079 |
4 |
2123-2473 |
2298 |
2 |
5,35 |
0,0246 |
1 |
2473-2823 |
2648 |
2 |
6,34 |
0,0055 |
0,3 |
Итого: |
81 |
74 |
Результаты всех расчетов представим в таблице 3.1:
Таблица 3.1. – Расчет теоретических частот
Далее рассчитаем фактическое значение . Расчеты представим в виде таблицы 3.2
Таблица 3.2
– Расчет фактического
значения
|
Эмпирические частоты |
Теоретические частоты |
fэмп-fm |
(fэмп-fm)2 |
(fэмп-fm)2/fm |
|
18 |
11 |
7 |
49 |
4,455 |
31 |
16 |
15 |
225 |
14,063 |
8 |
18 |
-10 |
100 |
5,556 |
11 |
15 |
-4 |
16 |
1,067 |
4 |
9 |
-5 |
25 |
2,778 |
5 |
4 |
1 |
1 |
0,250 |
2 |
1 |
1 |
1 |
1,000 |
2 |
0,0 |
2 |
4 |
- |
∑=81 |
∑=74 |
29,167 |
Итак, =29,167. Сравнив рассчитанное и табличное значения .
Табличное значение определяется по “Распределению Пирсона” по двум входным параметрам: число степеней свободы и степени значимости . Степень значимости по условию задачи равно 0,05. число степеней свободы равно:
,
Где k – число интервалов в вариационном ряду, в нашем случае оно равно 8.
По значениям по таблице находим .
Фактическое значение оказалось больше табличного (29,167>11,070), следовательно, гипотеза о нормальном распределении предприятий и организаций не подтвердилась.
Задание № 4
Необходимо определить, с какими показателями корреляционно связан показатель «Численность экономически активного населения по субъектам РФ в 2010 году и оценить тесноту связи.
Рассмотрим две пары признаков, в каждой паре один признак является факторным, а другой результативным.
В первой паре факторный признак: Численность населения в 2010 году;
результативный: Численность экономически активного населения в 2010 году.
Между двумя признаками имеет место корреляционная связь, если с изменением значений одного признака закономерным образом изменяется среднее значение другого признака.
Необходимо определить тесноту связи между признаками, то есть провести корреляционный анализ.
Процедура корреляционного анализа включает в себя:
- построение поля корреляции;
- построение корреляционной решетки;
- расчет показателей корреляции;
- анализ и оценку наличия, направления и тесноты корреляционной связи.
Построим поле корреляции по совокупности, где факторным показателем является: численность населения в 2010 году, результативным: Численность экономически активного населения в 2010 году.
Поле корреляции будет иметь следующий вид:
Рисунок 4.1 – Поле корреляции
Из поля корреляции видно, что следующие точки - Московская область (7093; 3 762) и г. Москва (11514; 6 101) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.
Таким образом, поле корреляции примет следующий вид:
Рисунок 4.2 – Поле корреляции для исследования
Далее рассчитаем следующие показатели:
- Эмпирическое корреляционное отношение (ЭКО)
- Коэффициент детерминации
Построим для этого корреляционную решетку.
Таблица 4.1 – Корреляционная решетка
Численность населения, чел. |
Численность экономически активного населения, тыс. чел.
|
Итого: | |||
0-600 |
600-1100 |
1100-2000 |
2000-2700 |
||
0-2000 |
40 |
19 |
- |
- |
59 |
2000-4000 |
- |
- |
16 |
- |
16 |
4000-5500 |
- |
- |
- |
6 |
6 |
Итого: |
40 |
19 |
16 |
6 |
81 |
Рассчитаем показатели корреляции и оценим наличие и тесноту связи.
Найдем общее среднее значение:
×××827,78
Найдем общую дисперсию:
××
Для того, чтобы найти межгрупповую дисперсию, необходимо вычислить средние значения в каждой группе:
Межгрупповая дисперсия:
364239,38
ЭКО показывает тестону связи. Полученное значение указывает на то, что связь весьма тесная.
Т.к. Ƞ=0,94, то Ƞ2 = 0,88. Это говорит о том, что на 88% вариация численности экономически активного населения обусловлена различиями в общей численности населения по субъектам РФ.
Исходя из полученных данных, мы можем сделать вывод о том, что связь между факторным признаком и результативным признаком – умеренная.
2) Во второй паре факторный признак: численность экономически активного населения; результативный: численность безработных.
Построим поле корреляции по совокупности, где факторным показателем является: численность экономически активного населения, результативным: численность безработных.
Рисунок 4.3 – Поле корреляции
Из поля корреляции видно, что следующие точки - г. Москва (6 101; 104), Московская область (3 762; 126), г. Санкт-Петербург (2 660; 70) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.
Таким образом, поле корреляции примет следующий вид:
Рисунок 4.4. – Поле корреляции для исследования
Построим корреляционную решетку.
Таблица 4.2 – Корреляционная решетка
Численность экономически активного населения, тыс. чел. |
Численность безработных, тыс. чел.
|
Итого: | ||
0-150 |
150-200 |
200-250 |
||
0-1000 |
56 |
- |
1 |
57 |
1000-2000 |
17 |
1 |
- |
18 |
2000-3000 |
1 |
3 |
1 |
5 |
Итог: |
74 |
4 |
2 |
80 |

- Анализ стационарности финансового состояния экономических систем
- Анализ степени и характера загрузки рабочего времени работников администрации муниципального образования на примере администрации гор
- Анализ степени риска портфеля на примере ОАО «Кредит»
- Анализ стилей руководства
- Анализ стилей руководства и типов работников фирменного магазина «Эскада»
- Анализ стилей управления на примере ОО и ОТ ОАО «ММК- МЕТИЗ»
- Анализ стилей управления ООО «КЦ «Безопасность»
- Анализ статистических показателей ОАО «БЕЖИЦКИЙ ХЛЕБОКОМБИНАТ»
- Анализ статистического изучения основных фондов
- Анализ статистического наблюдения
- Анализ статистической информации результатов деятельности 25-ти промышленных предприятий
- Анализ статистической информации, характеризующей состояние и динамику РТУ, а также оценка факторов, влияющих на развитие рынка
- Анализ статистической совокупности
- Анализ статистической совокупности по показателю