Построение рядов распределения по факторному и результативному признакам

Федеральное агентство по образованию РФ

Казанский Государственный  Архитектурно-Строительный Университет

 

 

Кафедра экономики и предпринимательства  в строительстве

 

Курсовая работа по курсу  « Статистика» по специальности 060800

 

 

 

 

 

 

 

 

 

Выполнила:

Ст. гр. 11-202

Рахимзянова Э.

Проверила:

Абдуханова Н.Г.

 

Казань 2010

Содержание:

  1. Корреляционный анализ
    1. Построение рядов распределения по факторному и результативному признакам:

А) дискретный ряд распределения;

Б) интервальный ряд распределения;

    1. Построение поля корреляции;
    2. Построение корреляционной таблицы;
    3. Расчет и построение эмпирической линии регрессии;
    4. Расчет и построение теоретической линии регрессии;
    5. Измерение тесноты связи;
    6. Проверка правильности гипотезы о прямолинейной форме корреляционной связи;
    7. Анализ выполненных расчетов и вывод.
    8. Общий вывод по разделу «Корреляционный анализ»
  1. Определение показателей вариации
    1. Вычисление групповой дисперсии;
    2. Вычисление средней из групповых;
    3. Вычисление межгрупповой дисперсии
    4. Вычисление общей дисперсии
    5. Вычисление среднеквадратического отклонения
    6. Вычисление показателей вариации;
    7. Вычисление эмпирического коэффициента детерминации;
    8. Вычисление эмпирического корреляционного отношения.
    9. Общий вывод по разделу « Определение показателей вариации».
  2. Анализ динамических рядов.
    1. Определение данных для 3-ого динамического ряда по двум исходным данным;
    2. Установление вида ряда динамики;
    3. Определение среднего уровня динамики;
    4. Определение показателей изменения уровня ряда динамики: базисные и цепные абсолютные приросты, темпы роста и прироста, абсолютное значение прироста;
    5. Вычисление средний абсолютный прирост;
    6. Вычисление среднегодовых темпов роста и прироста;
    7. Графическое изображение (линейный график) показателей динамических рядов: базисные и цепные темпы роста по трем динамическим рядам;
    8. Выявление основной тенденции развития одного из динамических рядов методом скользящей средней (трехчленной);
    9. Провести аналитическое выравнивание динамического ряда
    10. Анализ полученных показателей динамических рядов.
    11. Графическое изображение скользящей прямой, прямой по исходным данным, выровненной прямой.
    12. Общий вывод по разделу « Анализ динамических рядов»

 

 

 

 

 

 

 

 

    1. Корреляционный анализ

Вариант I. 

Таблица 1.1.

Выработка на 1 рабочего, тыс.руб.(Y2)

6706

6387

6146

6586

7482

5234

5716

6580

6221

5980

6720

Уровень сборности, %.(X3)

55,3

56,9

57

59,6

63,4

69,2

56,2

54,6

57,8

66,3

68


 

    1. Построение рядов распределения по факторному и результативному признакам
  1. интервальный ряд распределения:

Для корреляционного анализа  зависимости результативного признака у от факторного признака х необходима статистическая обработка данных. Первоначально  систематизация статистического материала  производится по величине изучаемого признака в порядке убывания или  возрастания, то есть необходимо произвести ранжирование рядов распределения.

При построении интервального  ряда распределения определяем величину интервала i, которую вычисляем по формуле:

i =

где Rmax-максимальное значение переменной;

      Rmin-минимальное значение переменной;

      n- число интервалов.

Ориентировочно число  интервалов определяется по формуле

n= 1+3,32lgN

В нашем случае получаем n=10.

Итак, подставим значения из таблицы 1.1. в формулу (1) и получим  длину интервала по выработке  на 1 рабочего в год  по объему работ  собственными силами:

iy= == 224,8 т. руб.

ix===1,46 %

Начальная граница первого  интервального ряда равна i.

Для выработки на 1 рабочего: 1/2*224,8=112,4 , тогда

Нижняя граница 1 интервала: 5234-112,4=5121,6 т. руб.

Верхняя граница 1 интервала: 5121,6+224,8=5346, 4 т. руб.

Для объема работ собственными силами: 1/2*1,46=0,73 , тогда

Нижняя граница 1 интервала: 54,6-0,73=53,87%

Верхняя граница 1 интервала: 53,87+1,46=55,33 %

Интервальные ряды по функциональному  признаку (по выработке на 1 рабочего) и по факторному признаку (объем  работ собственными силами):

Таблица 1.2.

Y2

X3

5121,6-5346,4

53,87-55,33

5346,4-5571,2

55,33-56,79

5571,2-5796

56,79-58,25

5796-6020,8

58,25-59,71

6020,8-6245,6

59,71-61,17

6245,6-6470,4

61,17-62,63

6470,4-6695,2

62,63-64,09

6695,2-6920

64,09-65,55

6920-7144,8

65,55-67,01

7144,8-7369,6

67,01-68,47

7369,6-7594,4

68,47-69,93


б) дискретные ряды распределения:

С помощью таблицы 1.2. построим дискретные ряды распределения по y и x. Для выполнения корреляционных расчетов интервальные ряды распределения необходимо представить в дискретной форме. В связи с этим вместо размерности интервалов принимаем их центральные значения, которые рассчитываются как средние арифметические величины начала и конца интервалов. Результаты расчетов приведем в табличной форме:

Дискретный ряд  распределения по у (по выработке  на 1 рабочего)

Таблица 1.3.

Центральные значения интервалов

Величина интервала

Абсолютные частоты

Относительные частоты %

Плотность распределения

5234

i=224,8

1

9,09

0,04

5458,8

0

0

0

5683,6

1

9,09

0,04

5908,4

1

9,09

0,04

6133,2

2

18,18

0,08

6358

1

9,09

0,04

6582,8

2

18,18

0,08

6807,6

2

18,18

0,08

7032,4

0

0

0

7257,2

0

0

0

7482

1

9,09

0,04

   Итого                                            n=11

100 %

 

 

Плотность распределения  определяется по формуле:

ρ=

Таким образом, ряд распределения  по выработке на 1 рабочего показывает, что наиболее характерным является группа с центральным значением  интервала 6133,2, 6582,8, 6807,6 тыс. руб., так  как они составляют 18,18 % от всего  количества выработки на 1 рабочего.

Дискретный ряд  распределения по х (по уровню сборности)    

Таблица 1.4.

Центральные значения интервалов

Величина интервала

Абсолютные частоты

Относительные частоты

Плотность распределения

54,6

i=1,46

2

18,18

12,45

56,06

1

9,09

6,23

57,52

3

27,27

18,68

58,98

1

9,09

6,23

60,44

0

9,09

6,23

61,9

0

0

0

63,36

1

9,09

6,23

64,82

0

0

0

66,28

1

9,09

6,23

67,74

1

9,09

6,23

69,2

1

9,09

6,23

Итого:

n=11

100%

 

Таким образом, ряд распределения  по уровню сборности показывает, что наиболее характерным является группа центральным значением интервала 57,52% , так как она составляет по 27,27 %.

    1. Построение корреляционной таблицы

Для построения корреляционной таблицы на поле корреляции накладывается  сетка, соответствующая интервальным рядам распределения по факторному и функциональному признакам. Затем  подсчитывается число точек (частот) в каждой клетке координатной сетки.

Таблица 1.5

 

По выработке  на 1 рабочего в год

           х

 

 

у

Объем работ собственными силами

53,87-55,33

55,33-56,79

56,79-58,25

58,25-59,71

59,71-61,17

61,17-62,63

62,63-64,09

64,09-65,55

65,55-67,01

67,01-68,47

68,47-69,93

итого

7369,6-7594,4

           

1

       

1

7144,8-7369,6

                     

0

6920-7144,8

                     

0

6695,2-6920

1

               

1

 

2

6470,4-6695,2

1

   

1

             

2

6245,6-6470,4

   

1

               

1

6020,8-6245,6

   

2

               

2

5796-6020,8

               

1

   

1

5571,2-5796

 

1

                 

1

5346,4-5571,2

                     

0

5121,6-5346,4

                   

1

1

итого

2

1

3

1

0

0

1

0

1

1

1

n=11


 

 Результаты расчетов, выполненные  в таблице 1.5 , позволяют сделать вывод о том, что при переходе слева направо в сторону больших значений факторного признака х соответствующие ряды распределения функционального признака у смещаются сверху вниз, т.е. в сторону меньших значений функций. Следовательно, выработка на 1 рабочего в год находится в корреляционной зависимости от  уровня сборности.

    1. Расчет эмпирической линии регрессии

После установления наличия  корреляционной зависимости между  функциональным и факторным признаками, приступаем к следующему этапу статистического  моделирования - к исследованию формы  связи.

Под формой корреляционной связи понимают тип аналитической  формулы, выражающий зависимость между  изучаемыми величинами.

Необходимо установить, какие  изменяются средние значения у в  связи с изменением х.

Рассчитываются средние  величины для каждого ряда распределения  по формуле средней взвешенной арифметической величины:

y=

где у – средневзвешенное значение функции

      у – центральное  значения интервалов по функции

      m – абсолютные частоты вариантов у

Для сокращения вычислений при определении средней арифметической можно использовать метод отсчета  от условного нуля.

Расчетная формула имеет  вид

y=yi*iy+cy

 При этом уi, где:

у’ – упрощенные варианты у;

у – фактические варианты у;

Су-новое начало отсчета по оси у (условный ноль);

iy – интервал группировки по у.

Новое начало отсчета выбирается таким образом, чтобы число наблюдений распределялось примерно поровну между  положительным и отрицательным  направлениями оси ординат.

В нашем примере примем условный нуль в пятом интервале  по оси у, тогда су=6358 т. руб., а iy=224,8 т. руб. Результаты расчетов представим в таблицу 1.6.

Таблица 1.6.

Выработка на 1 рабочего

y’

x

y

Объем работ собственными силами

54,6

56,06

57,52

58,98

60,44

61,9

63,36

64,82

66,28

67,74

69,2

итого

5

7482

           

15

       

1

4

7257,2

                     

0

3

7032,4

                     

0

2

6807,6

12

               

12

 

2

1

6582,8

11

   

11

             

2

0

6358

   

10

               

1

-1

6133,2

   

2-1

               

2

-2

5908,4

               

1-2

   

1

-3

5683,6

 

1-3

                 

1

-4

5458,8

                     

0

-5

5234

                   

1-5

1

1

Итого hi

2

1

3

1

0

0

1

0

1

1

1

n=11

2

∑miyi

3

-3

-2

1

0

0

5

0

-2

2

-5

∑y’=-1

3

y’

1,5

-3

-0,67

1

0

0

5

0

-2

2

-5

-

4

y

6695,2

5683,6

6207,38

6582,8

6358

6358

7482

6358

5908,4

6807,6

5234

-


 

Упрощенные варианты y’ умножаются на частоты соответствующих клеток корреляционной таблицы и записываются в верхних правых углах каждой клетки.

Первая итоговая строка и  итоговый столбец таблицы 1.6. выражают абсолютные частоты интервальных рядов  распределения по функциональному  и факторному признакам.

Вторая итоговая строка характеризует  сумму произведений, записанных в  верхних углах клеток. Третья итоговая строка рассчитывается делением показателей  второй строки на первую. В четвертой  итоговой строке показаны искомые средние  yi, полученные по формуле y=yi*iy+cy.

Показатели четвертой  итоговой строки являются основой для  графического изображения выполненных  расчетов на поле корреляции.

Соединив между собой  средние значения в каждом интервале  отрезками прямых линий, получаем эмпирическую линию регрессии у по х, которая показывает, как в среднем изменяется у в связи с изменением х.

В нашем случае расчет эмпирической линии регрессии вновь подтвердил наличие корреляционной зависимости  между выработкой на 1 рабочего и уровнем сборности.

      1. Расчет теоретической линии регрессии

Теоретическая линия регрессии  представляет собой такую математически  правильную кривую (либо прямую) линию, которая проходит наиболее близко к  точкам эмпирической линии регрессии, выражает общую закономерность средних  изменений признака в связи со средними изменениями фактора.

В нашем случае характер размещения точек на корреляционном поле делает весьма вероятной гипотезу о линейной связи  у от х : у = a0 + a1x.

         Параметры уравнения найдем из  системы по способу наименьших  квадратов:

                                             naꞌ0 + aꞌ1∑ xꞌ = ∑ yꞌ

                                             aꞌ0∑xꞌ + aꞌ1∑( xꞌ)2 = ∑ xꞌyꞌ

        Исходную  информацию для решения данной  системы получаем из таблицы  1.7., которая основана на результатах  таблицы 1.6. Примем условный нуль  в пятом интервале по оси  Ох, тогда С =61,9%; i = 1,46 %.

 

 

 

 

 

 

 

 

 

 

Таблица 1.7.

Выработка на 1 рабочего , т. руб.

y’

Объем работ собственными силами, т. руб.

   

№ столбца 

x’2

25

16

  9

  4

   1

0

   1

  4

  9

16

25

1

2

3

4

x’

-5

-4

-3

-2

-1

0

   1

  2

  3

  4

5

li

liy’

y’2

li y’2

y         x

54,6

56,06

57,52

58,98

60,44

61,9

63,36

64,82

66,28

67,74

69,2

5

7482

           

1

       

1

5

25

25

4

7257,2

                     

0

0

16

0

3

7032,4

                     

0

0

9

0

2

6807,6

1

               

1

 

2

4

4

8

1

6582,8

1

   

1

             

2

2

1

2

0

6358

   

1

               

1

0

0

0

-1

6133,2

   

2

               

2

-2

1

2

-2

5908,4

               

1

   

1

-2

4

4

-3

5683,6

 

1

                 

1

-3

9

9

-4

5458,8

                     

0

0

16

0

-5

5234

                   

1

1

-5

25

25

№ столбца

1

Итого h i

2

1

3

1

0

0

1

0

1

1

1

11

-1

-

75

2

∑hix’

-10

-4

-9

-2

0

0

1

0

3

4

5

∑x’ =-12

3

∑ hix’2

50

16

27

4

0

0

1

0

9

16

25

∑х’2=148

4

∑ miyi

3

-3

-2

1

0

0

5

0

-2

2

-5

∑y’ =-1

5

∑ my’x’

-15

12

6

-2

0

0

5

0

-6

8

-25

∑ ху =-17


В качестве проверки правильности данной таблицы должно соблюдаться  равенство итогов четвертой строки и второго столбца. Если это условие  не соблюдается, то в расчетах допущена ошибка, которая может привести к  существенным искажениям величины параметров теоретической линии регрессии.

В систему уравнений, данную выше, и получим:

11*a0’-12*a1’= -1

-12*a0’+148*a1’=-17

В качестве метода решения  системы принимаем метод Гаусса, который позволяет находить решение  последовательно, исключая неизвестные. Для этого первое уравнение умножаем  на -12, а второе на 11 и вычтем:

-1772*а1’=-199

a1’=0.11

Затем в первое уравнение  системы подставим значение a1’ и находим величину a0’:

11*a0’-12*0.11= -1

 

a0’=0.03

Параметры a0’и  a1’ необходимо преобразовать исходя из фактических значений х и у.

Формулы перевода из упрощенных в реальные координаты:

a1=a1*                                                  a0=cy+iya0’-a1’**cx

где iy- интервал группировки по функции

      ix- интервал группировки по аргументу

      cy-новое начало отсчета по функции

      cx-новое начало отсчета по аргументу

По этим формулам получаем, что a0=5290.54, a1= 17.79

Уравнение теоретической  линии регрессии в реальных коэффициентах  имеет вид y=5290.54+17.79х.

В уравнении регрессии  первое слагаемой носит название свободного члена, второе слагаемое  называется коэффициентом регрессии. Он показывает, на сколько натуральных единиц изменяется в среднем результативный признак при изменении факторного признака на единицу.

В нашем примере из уравнения  теоретической линии регрессии  видно, что выработка на 1 рабочего повышаются на 17.79 % при увеличении уровня сборности 1 %. Выработка на 1 рабочего, не зависящие от рассматриваемых фактов, равен 5290,54 тыс. руб.

Для графического изображения  линии регрессии, рассчитанной по линейной гипотезе, достаточно определить две  точки, через которые можно провести прямую.

В нашем примере по х1=60 и х2=70,у1=6357,94 и у2=6535,84 проводим на поле корреляции прямую линию.

Вывод: Графическое изображение теоретической линии регрессии в виде уравнения прямой еще раз подтверждает наличие корреляционной связи между изучаемыми признаками.

 

      1. Измерение тесноты связи

Коэффициент корреляции ry/x является одним из наиболее совершенных методов измерения тесноты связи. Коэффициент корреляции отвечает на вопрос, в какой мере соблюдается строгая пропорциональность в изменениях функционального и факториального признаков.

Коэффициент корреляции может  принимать как положительные, так  и отрицательные значения, т.е. -1≤r≤1.

При выполнении корреляционных расчетов, когда связь между признаками х и у выражается прямой линией, соблюдается условие, при котором  знак при коэффициенте корреляции ry/x должен совпадать со знаком при коэффициенте регрессии а1.

Для расчета коэффициента корреляции существует формула, представленная в упрощенных координатах признаков  х и у.

ry/x=

В нашем случае исходную информацию для нахождения ry/x принимаем из таблицы 1.7.

ry/x==  0,16

Вывод: выполненные расчеты показывают, что между выработкой на 1 рабочего и уровнем сборности существует положительная корреляция, которая говорит о том, что с увеличением факторного признака х функциональный признак у увеличивается.

Знак при коэффициенте корреляции совпадает со знаком регрессии  а1, что свидетельствует о правильности произведенных вычислений. Имеем слабую связь между изучаемыми явлениями.

 

      1. Проверка правильности гипотезы о прямолинейной форме корреляционной связи.

Таблица 1.9.

    х

   х-х

(х-х)2

    у

ŷ

   у-ŷ

(у-ŷ)2

   у2

1

55,3

-5,09

25,91

5234

5365,63

-129,63

16803,94

27394756

2

56,9

-3,49

12,18

5458,8

6302,8

-844

712336

29798497,44

3

57

-3,39

11,49

5683,6

6304,57

-620,97

385603,74

32303308,96

4

59,6

-0,79

0,62

5908,4

6350,82

-442,42

195735,46

34909190,56

5

63,4

3,01

9,06

6133,2

6418,43

-285,23

81356,15

37616142,24

6

69,2

8,81

77,62

6358

6521,61

-163,61

26768,23

40424164

7

56,2

-4,19

14,56

6582,8

6290,34

292,46

85532,85

43333255,84

8

54,6

-5,79

33,52

6807,6

6261,87

545,73

297821,23

46344417,76

9

57,8

-2,59

6,71

7032,4

6318,8

713,6

509224,96

49454649,76

10

66,3

5,91

34,93

7257,2

6470,02

787,18

619652,35

52666951,84

11

68

7,61

57,91

7482

6500,26

981,74

963813,43

55980324

Итого

664,3

-

284,51

699338

69105,15

-

3894648,34

450225658,4


 

Расчеты при заполнении таблицы:

===60,39

Первой основной задачей, которую решает теория корреляции, является задача измерения связи. Систематизация статистического материала по двум качественным признакам производится графически путем построения поля корреляции.

Итоговая сумма частот по горизонтальным линиям поля корреляции должна соответствовать абсолютным частотам дискретного ряда распределения  факторного признака, а итоговая сумма  частот по вертикальным линиям поля корреляции- абсолютным частотам дискретного ряда распределения факторного признака. Общая сумма абсолютных частот точек  по всем горизонтальным линиям должна быть равна сумме частот (точек) по  всем вертикальным линиям поля корреляции и соответствовать числу единиц статистической совокупности, принятой для исследования

Прежде чем использовать уравнение теоретической линии  в последующем анализе, необходима проверка ее параметров (а10) на типичность. Для проверки типичности параметров уравнения регрессии используется t- критерий Стьюдента. При этом вычисляются фактические значения для параметра а0:

t а0=⃓a0

Для параметра а1:

ta1= ⃓a0⃓, где :

σост=- среднее квадратическое отклонение результативного признака у от выровненных значений ŷ

σх=-среднее квадратическое отклонение факторного признака х от общей средней х. вычисленные по формулам t а0 и ta1 сравнивают с критическим t, которое определяют по таблице Стьюдента с учетом принятого уровня значимости α и числом степеней свободы вариации k =п-2. В нашем случае α=0,1. Параметр признается значимым (существенным) при условии, что если tрасч.>tзнач.

По таблице распределения  Стьюдента для  k=9 и уровня значимости α=0,1 находим критическое значение tк=4,781.

          Так как ta0> tк< ta1 (0,04< 3.69 >0,004), следовательно параметры a1 и а0  не признаются значимыми.

Для оценки значимости коэффициента корреляции r используют t – критерий Стьюдента. При линейной однофакторной связи t – критерий рассчитывается по формуле:

 

 t

= r*
=0,16*=0,053

 

Получили, что t > tк (0,053 < 3,690), что свидетельствует о не значимости коэффициента корреляции и существенной связи между выработкой на 1 рабочего и уровнем сборности.

После того, как установлена  форма связи и измерена теснота  значимости между результативным и  факторным признаками, делается проверка правильности принятой гипотезы о прямолинейной  форме корреляционной связи. Проверка производится при сравнении двух показателей тесноты связи: эмпирического  корреляционного отношения  и линейного коэффициента корреляции r. При этом оба показателя возводятся в квадрат и называются коэффициентами детерминации. Осуществим эту проверку применительно к нашему примеру, для которого  = 0,76(вычисляется в разделе 2) и r = 0,16^2=0,026.

Разница между ними составляет  -0,76+0,026 = -0,73<0,1 . Полученная разница меньше, чем 0,1, следовательно, дальнейшие расчеты не ведутся.

      1. Общий вывод по разделу «Корреляционный анализ»

По данным таблицы 1.1 мы построили  интервальные и дискретные ряды. При  помощи таблицы 1.2. сделали вывод, что  ряд распределения по выработке  на 1 рабочего показывает, что наиболее характерным является группа с центральным  значением интервала 6133,2, 6582,8, 6807,6 тыс. руб., так как они составляют 18,18 % от всего количества выработки  на 1 рабочего. Ряд распределения  по уровню сборности показывает, что наиболее характерным является группа с центральным значением интервала 61,9 , так как составляет 27,27%.

Затем мы строим корреляционную таблицу, которая показывает, что  при переходе слева направо в сторону больших значений факторного признака х соответствующие ряды распределения функционального признака у смещаются сверху вниз, т.е. в сторону меньших значений функций. Следовательно, выработка на 1 рабочего в год находится в корреляционной зависимости от  уровня сборности

Далее считаем эмпирическую линию регрессии. После всех расчетов можно было сделать вывод о  том, что расчет эмпирической линии регрессии вновь подтвердил наличие корреляционной зависимости между выработкой на 1 рабочего и уровнем сборности . При расчете теоретической линии регрессии из уравнения теоретической линии регрессии видно, что выработка на 1 рабочего увеличивается на 17,79% при увеличении численности на 1 %. Уровень сборности , не зависящая от рассматриваемых факторов равна 5290,54

Затем просчитываем коэффициент  корреляции, который помогает определить тесноту связи между результативным и факторным признаком и сделали  вывод, что выполненные расчеты  показывают, что между выработкой на 1 рабочего в год и объемом  работ собственными силами существует положительная корреляция, которая говорит о том, что с увеличением факторного признака х функциональный признак у увеличивается.

Знак при коэффициенте корреляции совпадает со знаком регрессии  а1, что свидетельствует о правильности произведенных вычислений. Случайные факторы оказывают большое влияние на функцию, т.к. r=0,16, следовательно, имеем слабую связь между изучаемыми явлениями.

В заключении, мы выяснили при  помощи расчета коэффициента детерминации, что имеется кое какое отклонение, однако оно не существенно и доказали это утверждение нахождением  показателя t.

 

 

 

 

 

 

 

    1. Определение показателей вариации
Построение рядов распределения по факторному и результативному признакам