Анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году

     ВВЕДЕНИЕ

 

Актуальность  темы: возрастающий интерес к статистике вызван современным этапом развития экономики в стране, формирования рыночных отношений. Это требует глубоких экономических знаний в области сбора, обработки и анализа экономической информации.

Статистика в узком  смысле представляет собой количественную совокупность, связанную с обработкой данных индивидуальных наблюдений, свойственных предметам, явлениям, составляющим отдельные  параметры единицы совокупности.

Статистическая грамотность является неотъемлемой составной частью профессиональной подготовки каждого экономиста, финансиста, социолога, политолога, а также любого специалиста, имеющего дело с анализом массовых явлений (социально-общественных, экономических, технических, научных и других). Работа этих групп специалистов неизбежно связана со сбором, разработкой и анализом данных статистического (массового) характера. Нередко им самим приходится проводить статистический анализ различных типов и направленностей либо знакомиться с результатами статанализа, выполненного другими. В настоящее время от работника, занятого в любой области науки, техники, производства, бизнеса и прочее, связанной с изучением массовых явлений, требуется, чтобы он был, по крайней мере, статистически грамотным человеком. В конечном счете, невозможно успешно специализироваться по многим дисциплинам без усвоения какого-либо статистического курса. Поэтому большое значение имеет знакомство с общими категориями, принципами и методологией статистического анализа, которое мы и осуществили с практической точки зрения в данном курсовом проекте.

Цель работы – провести полный анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году. Задачи работы:

    • провести вариационный анализ статистической совокупности;
    • провести бесповторную выборку, а также описать процесс ее проведения;
    • провести корреляционно-регрессионный анализ;
    • проверить гипотезу о нормальном характере распределения
    • провести анализ рядов динамики.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. Сводка и группировка статистического наблюдения

В данной задаче необходимо на основании  имеющихся данных определить среднее  значение показателя совокупности «Численность экономически активного населения по субъектам РФ в 2010 году, чел.», построить две простые группировки, в том числе одну - с выделением групп регионов со значением показателя ниже и выше среднего по РФ.

Для изучения и анализа  данных необходимо выполнить сводку, которая позволит наглядно представить, сравнить и структурировать данные.

Итак, в таблице 1 (см. приложение 1) представлены сводка данных по показателю «Численность экономически активного населения по субъектам РФ в 2010 году, чел.»

Для дальнейшей группировки  необходимо рассчитать среднее значение по всей группе. Для этого воспользуемся  следующей формулой:

     (1)


 

где - это число численность экономически активного населения по субъектам РФ в 2010 году, тыс. чел.;

n- количество субъектов по РФ.

Подставив в формулу, получим среднее  значение показателя:

. (2)

Это значит, что в среднем  численность экономически активного  населения по субъектам РФ в 2010 году составляет 924 тыс. чел.

Далее необходимо составить две  простые группировки. Для первой из них распределим единицы по группам в соответствии со значением  показателя выше и ниже среднего по РФ. Полученные результаты представим в таблице 1.2:

Таблица 1.2 - Группировка значений субъектов РФ по изучаемому показателю со значением выше и ниже среднего по РФ

Доля 

Кол-во субъектов, шт.

В % к итогу

Среднее значение по группе

Меньше среднего значения

57

69

481

Больше среднего значения

26

31

1 896

Итого:

83

100

 

 

Результаты данной таблицы представим графически, построив круговую диаграмму:

Рисунок 1.1 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по РФ, %

 

 

По данным диаграммы можно  сделать вывод о том, что регионы  со значением выше среднего преобладают (68,67%).

 

 

Для второй простой группировки  распределим единицы по группам  в соответствии со значением показателя выше и ниже значения в Челябинской  области и получим:

Таблица 1.3 - Группировка субъектов РФ по изучаемому показателю со значением выше и ниже среднего по Челябинской области

Доля

Кол-во субъектов, шт.

В % к итогу

Среднее значение по группе

Меньше значения по Челябинской  области

73

89

674

Больше значения по Челябинской области

9

11

2 846

Итого:

82

100

 

 

Изобразим графически результаты, представленные в таблице:

Рисунок 1.2 - Доля регионов РФ со значением выше/ниже среднего по изучаемому показателю по Челябинской области, %

Анализируя полученные данные, можно сделать вывод о том, что в подавляющем большинстве регионов по РФ (89,02%) численность экономически активного населения меньше значения по Челябинской области.

Задание 2

В данном задании необходимо провести вариационный анализ статистической совокупности по показателю «Численность экономически активного населения в 2010 году, тыс. чел.»,  для чего нужно:

    • построить вариационный ряд и изобразить его графически;
    • построить кумуляту и огиву ;
      • рассчитать показатели структуры, силы и интенсивности       вариации;
    • сделать выводы относительно исследуемой совокупности.

Сначала построим вариационный ряд. Так  как количество значений признака достаточно велико, то строим интервальный вариационный ряд. Для этого определим количество (k) и длину (l) интервалов по формуле Стержесса:


,   

где n – количество единиц в ряду.

В нашем случае n=81 в силу того, что мы исключили из дальнейшего анализа Москву и Московскую область, т.к. они являются аномальными  единицами (это связано с тем, что данные регионы более экономически развиты). Поэтому целесообразнее их исключить.

Подставив в формулу, получим:

,   

количество интервалов в  вариационном ряду 7.

Для удобства восприятия данных длину интервала возьмем равную  350.

Исходя из полученных данных, составим вариационный ряд - Таблица 2.1:

Таблица 2.1 – Распределение  численности экономически активного населения по субъектам РФ.

Численность населения

Кол-во регионов

23-373

18

373-723

31

723-1 073

8

1 073-1 423

11

1 423-1 773

4

1 773-2 123

5

2 123-2 473

2

2 473-2 823

2

Итого:

81


 

Изобразим полученный вариационный ряд графически. Так как в нашем случае ряд является интервальным, то графическим его отображением является гистограмма.

 

 

 

 

 

 

 

 

 

 

 

Рисунок 2.1 - Гистограмма распределения численности экономически активного населения по субъектам РФ

Для работы с данными также  необходимо построить огиву и  кумуляту. Для построения этих двух линий необходимо рассчитать накопленные частоты отдельно для каждой («Таблица 2.2»):

Таблица 2.2 - Расчет накопленных частот для огивы и кумуляты

Численность экономически активного населения

Накопленная частота (для кумуляты)

Накопленная частота (для огивы)

23

-

81

373

18

63

723

49

32

1 073

57

24

1 423

68

13

1 773

72

9

2 123

77

4

2 473

79

2

2 823

81

-


 

 

Построим огиву и кумуляту:

Рисунок 2.2 - Кумулята и огива распределения экономически активного населения по субъектам РФ

После построения вариационного  ряда необходимо перейти ко второму этапу вариационного анализа – расчету показателей вариации.

Рассмотрим структуру  вариации, для этого рассчитаем моду и медиану.

Для интервального ряда мода определяется по формуле

     


Подставив соответствующие  значения, получим:

Это означает, что большинство субъектов РФ имеют численность экономически активного населения, близкую к 499 тыс. чел.

 

Определим медиану по следующей  формуле:

     


Подставив соответствующие  числовые значения, получим:

Медиана означает, что в половине субъектов РФ численность экономически активного населения равна 627 тыс. чел. или меньше, а в половине – 627 тыс. чел. или больше.

Далее рассчитаем показатели силы и интенсивности вариации.

Размах вариации

Данный показатель рассчитывается по формуле:

     


Подставив числовые значения, получим:

Среднее линейное отклонение рассчитаем по формуле:

     


Из формулы видно, что  для расчета данного показателя нам необходимо рассчитать среднее  значение признака (без учета г. Москва и Московской области), воспользовавшись формулой 1. Получим:

Все промежуточные расчеты, необходимые для определения  среднего линейного отклонения, представим в таблице «Таблица 2.3» (см. приложение 2).

Подставив в формулу соответствующие  показатели, получим:

d= 498,95

Следующий показатель силы вариации – дисперсия – это  средняя величина квадратов отклонений.

Для интервального ряда этот показатель рассчитывается по следующей  формуле:

     


Промежуточные расчеты, используемые при расчете дисперсии, представим в Таблице 2.4 (см. приложение 3)

Подставив в формулу рассчитанные данные, получим:

=384 533,1437

Следующий показатель найдем с помощью извлечения квадратного  корня из дисперсии – среднее  квадратическое отклонение.

Среднее квадратическое отклонение – это обобщающая характеристика размера вариации признака в совокупности.

Для интервального ряда этот показатель рассчитывается по следующей  формуле

     


Подставив числа, получим:

620,107 3647

Для более полного анализа  изучаемой совокупности необходимо рассчитать показатели интенсивности  вариации.

 

Первым из них является относительный размах вариации. Он рассчитывается по формуле:

     


3,195 или 319,5%

Следующим показателем является относительное линейное отклонение, которое рассчитывается по формуле

     


Для наших данных относительное  линейное отклонение будет следующим:

0,605 или 60,5%

Последним показателем интенсивности  вариации является коэффициент вариации:

     


0,751 или 75,1%

Данные показатели служат для сравнительной оценки вариации в разных совокупностях и характеризуют  однородность изучаемой совокупности.

При анализе данных важно  представить как именно распределены единицы совокупности по всему диапазону  значений признака, для этого рассчитаем показатели характера вариации.

 

Первым из них является коэффициент асимметрии, который  рассчитывается по формуле:

  ,   


где – центральный момент третьего порядка:

     


Все промежуточные расчеты, необходимые для определения  центрального момента третьего порядка  и асимметрии, представим в таблице “Таблица 2.5” (см. приложение 4).

Подставив соответствующие  значения в формулы, найдем сначала  центральный момент третьего порядка, а затем и асимметрию:

285 730 450,6

1,198 273 233

Вторым показателем, определяющим характер вариации, является показатель эксцесса:

   


где – центральный момент четвертого порядка:

     


Промежуточные расчеты, необходимые  для нахождения центрального момента  четвертого порядка и эксцесса, также  представим в табличной форме “Таблица 2.6” (см. приложение 5).

 

Подставив полученные значения в формулы, рассчитаем центральный  момент четвертого порядка и эксцесс

 545 290 363 187,00

Ex=0,687 739 758

Исходя из рассчитанных показателей  характера вариации, сделаем следующие  выводы относительно исследуемой совокупности:

    • так как коэффициент асимметрии принимает положительные значения, то в распределении признака имеет место правосторонняя асимметрия, то есть основная масса значений признака смещена в область малых значений.
    • так как показатель эксцесса принимает положительные значения, то распределение признака является островершинным, то есть основная масса значений сконцентрирована на небольшом диапазоне изменения признака, сконцентрирована в большей степени, чем в случае нормального распределения.

Таким образом, проведя вариационный анализ статистической совокупности, мы наглядно смогли представить, как  распределена численность экономически активного населения по всем субъектам Российской Федерации, определили, что в данном интервальном ряду средняя численность экономически активного населения составила 825 тыс. чел., а размах вариации 2637 единиц численности, что говорит о достаточно большом разбросе индивидуальных значений.

При этом половина субъектов  РФ в совокупности имеют число  предприятий и организаций в  количестве 627 тыс. чел. или меньше, а половина – 627 тыс. чел. или больше.

В среднем показатель отклоняется  от среднего числа предприятий и  организаций на 498,95 единиц численности экономически активного населения, СКО и дисперсия вариационного ряда составили, соответственно, 620,107 364 7 и 384 533,1437.

Значение всех рассчитанных показателей представлены в приложении 6.

 

 

 

 

 

 

 

 

 

 

 

 

\

 

Задание 3

В данном задании нужно  проверить гипотезу о нормальном характере распределения Показателя, используя критерий Пирсона. Степень значимости принять равной 0,05.

Проверка гипотезы состоит  в том, чтобы на основании сравнения эмпирических частот с теоретическими частотами сделать вывод о соответствии фактического распределения теоретическому.

Для проверки гипотезы о  нормальном характере распределения  можно воспользоваться критерием  согласия Пирсона. Идея критерия Пирсона  заключается в расчете и оценке обобщенного показателя отклонений фактических значений частоты появления  признака от их теоретических значений (показателя ). Чем больше величина этих отклонений, тем меньше оснований считать распределений близким к теоретическому.

Фактическое значение вычисляется по формуле

  ,   


где и – частота попадания признака в j-й интервал соответственно в эмпирическом и теоретическом рядах распределения; k – количество выделенных интервалов.

Эмпирическая частота  появления признака берется из фактического вариационного ряда.

Теоретическая частота  появления признака определяется по формуле

 


где – длина интервала;

 – среднее квадратическое  отклонение признака;

 – плотность вероятности  теоретического распределения.

Для начала рассчитаем среднее  значение признака как среднюю арифметическую взвешенную, так как данные сгруппированы:

833

Значение среднего квадратического  отклонения подставим из предыдущего  задания:

620,1

Рассчитаем значение нормированного отклонения для каждого интервала  и по рассчитанным значениям нормированного отклонения найдем соответствующие  значения плотности вероятности  нормального нормированного распределения. После чего рассчитаем значение теоретической частоты.

 

 

 

 

 

 

 

Интервалы

Центр интервала

Численность

Нормированное отклонение t=(xi-xср)/σ

f(t) по таблице

Теоретическая частота f ′

23-373

198

18

-0,6

0,2371

11

373-723

548

31

0,39

0,3589

16

723-1073

898

8

1,38

0,397

18

1073-1423

1248

11

2,38

0,3187

15

1423-1773

1598

4

3,37

0,1972

9

1773-2123

1948

5

4,36

0,079

4

2123-2473

2298

2

5,35

0,0246

1

2473-2823

2648

2

6,34

0,0055

0,3

Итого:

 

81

   

74





Результаты всех расчетов представим в таблице 3.1:

Таблица 3.1. – Расчет теоретических  частот

Далее рассчитаем фактическое  значение . Расчеты представим в виде таблицы 3.2

Таблица 3.2 – Расчет фактического значения

Эмпирические  частоты

Теоретические частоты

fэмп-fm

(fэмп-fm)2

(fэмп-fm)2/fm

18

11

7

49

4,455

31

16

15

225

14,063

8

18

-10

100

5,556

11

15

-4

16

1,067

4

9

-5

25

2,778

5

4

1

1

0,250

2

1

1

1

1,000

2

0,0

2

4

-

∑=81

∑=74

   

29,167


 

Итак, =29,167. Сравнив рассчитанное и табличное значения .

Табличное значение определяется по “Распределению Пирсона” по двум входным параметрам: число степеней свободы и степени значимости . Степень значимости по условию задачи равно 0,05. число степеней свободы равно:


,   

Где k – число интервалов в вариационном ряду, в нашем случае оно равно 8.

По значениям  по таблице находим .

Фактическое значение оказалось  больше табличного  (29,167>11,070), следовательно, гипотеза о нормальном распределении предприятий и организаций не подтвердилась.

 

 

 

 

 

 

 

 

 

 

 

Задание № 4

Необходимо определить, с  какими показателями корреляционно  связан показатель «Численность экономически активного населения по субъектам РФ в 2010 году и оценить тесноту связи.

Рассмотрим две пары признаков, в каждой паре один признак является факторным, а другой результативным.

В первой паре факторный  признак: Численность населения  в 2010 году;

результативный: Численность  экономически активного населения  в 2010 году.

Между двумя признаками имеет  место корреляционная связь, если с  изменением значений одного признака закономерным образом изменяется среднее  значение другого признака.

Необходимо определить тесноту связи между признаками, то есть провести корреляционный анализ.

Процедура корреляционного  анализа включает в себя:

    1. построение поля корреляции;
    2. построение корреляционной решетки;
    3. расчет показателей корреляции;
    4. анализ и оценку наличия, направления и тесноты корреляционной связи.

Построим поле корреляции по совокупности, где факторным показателем  является: численность населения в 2010 году, результативным: Численность экономически активного населения в 2010 году.

 

 

 

Поле корреляции будет  иметь следующий вид:

Рисунок 4.1 – Поле корреляции

Из поля корреляции видно, что следующие точки  - Московская область (7093; 3 762) и г. Москва (11514; 6 101) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.

 

 

 

 

 

 

 

 

 

Таким образом, поле корреляции примет следующий вид:

Рисунок 4.2 – Поле корреляции для исследования


Далее рассчитаем следующие показатели:

  • Эмпирическое корреляционное отношение (ЭКО)
  • Коэффициент детерминации

Построим для этого  корреляционную решетку.

Таблица 4.1 – Корреляционная решетка

Численность населения, чел.

 

 

Численность экономически активного  населения, тыс. чел.

 

 

 

 

Итого:

0-600

600-1100

1100-2000

2000-2700

 

0-2000

40

19

-

-

59

2000-4000

-

-

16

-

16

4000-5500

-

-

-

6

6

Итого:

40

19

16

6

81


 

 

 

Рассчитаем показатели корреляции и оценим наличие и тесноту  связи.

Найдем общее среднее  значение:


 

×××827,78

 

Найдем общую дисперсию:


 

××

 

 

Для того, чтобы найти  межгрупповую дисперсию, необходимо вычислить  средние значения в каждой группе:

 

 

 

Межгрупповая дисперсия:


 

 

364239,38

 

 

ЭКО показывает тестону связи. Полученное значение указывает на то, что связь весьма тесная.

Т.к. Ƞ=0,94, то Ƞ2 = 0,88. Это говорит о том, что на 88% вариация численности экономически активного населения обусловлена различиями в общей численности населения по субъектам РФ.

Исходя из полученных данных, мы можем сделать вывод о том, что связь между факторным признаком и результативным признаком – умеренная.

2) Во второй паре факторный признак: численность экономически активного населения; результативный: численность безработных.

Построим поле корреляции по совокупности, где факторным показателем  является: численность экономически активного населения,  результативным: численность безработных.

Рисунок 4.3 – Поле корреляции

Из поля корреляции видно, что следующие точки - г. Москва (6 101; 104), Московская область (3 762; 126), г. Санкт-Петербург (2 660; 70) - находятся на значительном удалении от общей концентрации точек совокупности, поэтому единицы, соответствующие им целесообразно признать аномальными и исключить из дальнейшего анализа.

Таким образом, поле корреляции примет следующий вид:

Рисунок 4.4. – Поле корреляции для исследования

 

 

Построим корреляционную решетку.

Таблица 4.2 – Корреляционная решетка

Численность экономически активного  населения, тыс. чел.

Численность безработных, тыс. чел.

 

 

Итого:

0-150

150-200

200-250

 

0-1000

56

-

1

57

1000-2000

17

1

-

18

2000-3000

1

3

1

5

Итог:

74

4

2

80

Анализ статистической совокупности по численности экономически активного населения по субъктам РФ в 2010 году