Парная линейная регрессия

МИНИСТЕРСТВО  ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное агентство по образованию

Рубцовский  индустриальный институт (филиал) ГОУ  ВПО

Алтайский государственный технический университет  им. И.И. Ползунова

Гуманитарно-экономический  факультет

Кафедра «Финансы и кредит» 
 
 
 
 
 

курсовая  работа 

по дисциплине: эконометрика 

     Вариант №4 
 
 
 
 
 

                                                   Выполнила: студентка  группы

                                                   ФиК-61д Конькова М.В.

                                                   Проверил: Рассказова Н.В. 
 
 
 
 
 
 
 
 
 

Рубцовск 2008

Содержание

  1. Задание №1: Парная линейная регрессия……………………………….3
  2. Задание №2: Нелинейная регрессия……………………...…………….11
  3. Задание №3: Множественная регрессия……………………...………..31

 

     Задание №1: Парная линейная регрессия

  1. Построить линейную парную регрессию (регрессию вида ỹ= a+bx). Вычисление коэффициентов выполнить методом наименьших квадратов, дать интерпретацию в терминах задачи.
  2. Построить корреляционное поле и линию регрессии линейного типа.
  3. Вычислить выборочный коэффициент корреляции и проверить гипотезу о его значимости.
  4. Проверить значимость коэффициентов регрессии, построить для них 95%-е доверительные интервалы.
  5. Используя построенное уравнение, спрогнозировать значение ỹр при хр= (х78)/2.
  6. Построить доверительный интервал для зависимой переменной для хр= (х78)/2 с надежностью γ= 0,95.
  7. Определить, есть или нет автокорреляция остатков с помощью критерия Дарбина-Уотсона.
  8. Вычислить коэффициент детерминации и проверить его значимость.
  9. Оценить прогнозные качества модели.
  10. Сделать необходимые выводы по каждому пункту и общий вывод по качеству построенной модели.
  11. Все расчеты подтвердить в пакете «Анализ данных» и программе Model.

 

      Исходные данные:

      Исследуется зависимость себестоимости 1т. литья Y (руб.) от выработки литья на одного работающего Х (т) по 11 литейным цехам заводов:

      Таблица №1

Количество X Y
  4,2 239
  5,5 254
  6,7 262
  7,7 251
  1,2 158
  2,2 101
  8,4 259
  6,4 186
  4,2 204
  3,2 198
11 3,1 170

      1. График зависимости переменных X и Y строится в прямоугольной системе координат. На оси абсцисс откладывается значения факторного признака Х, а по оси ординат – результативного признака Y.

      На  график наносятся точки, координаты которых соответствуют значениям  X и Y.

      

    Рисунок 1

      Характер  расположения точек на графике показывает, что связь между переменными может выражаться линейным уравнением регрессии.

      2. Параметры уравнения регрессии находим методом наименьших квадратов.

      Для проведения всех расчетов строится вспомогательная таблица.

      Таблица №2

Количество xy x2 y2
  1003,8 17,64 57121
  1397 30,25 64516
  1755,4 44,89 68644
  1932,7 59,29 63001
  189,6 1,44 24964
  222,2 4,84 10201
  2175,6 70,56 67081
  1190,4 40,96 34596
  856,8 17,64 41616
  633,6 10,24 39204
11 527 9,61 28900
Среднее 1080,373 27,9418 45440,36

      В таблице все средние находятся  по формуле средней арифметической простой: Хср. = ∑х / N.

      Параметры уравнения регрессии находятся  по формуле:

b = = = 17, 257

a = yср – b*xср = 207, 4545-17, 257*4, 8 = 124, 6207

ỹ = 124, 6207 + 17, 257* x

      Коэффициент b = 17, 257 показывает, на какую величину измениться себестоимость 1т литья, если брак от литья возрастет на единицу.

      Коэффициент a = 124, 6207 говорит о том, что при нулевом браке от литья себестоимость 1т литья составит в среднем 124,6207 условные единицы.

      3. При линейной зависимости, степень тесноты связи между переменными X и Y определяется с помощью коэффициента корреляции:

r xy = = =0,779418

      Так как значение коэффициента корреляции близко к единице, то между признаками связь сильная, прямая, близкая к линейной функциональной.

      Так как исходные данные являются выборочными, то необходимо оценить существенность или значимость величины коэффициента корреляции. Выдвигаем нулевую гипотезу: коэффициент корреляции в генеральной  совокупности равен нулю, и изучаемый фактор не влияет на результативный признак, Н0: r=0, при Н1: r≠0

      Для проверки нулевой гипотезы применим t-критерий Стьюдента. Найдем расчетное значение t-критерия:

tрасч = = =3,732224

      Теоретическое значение t находится по таблицам t-распределения Стьюдента при уровне значимости α=0,05 и числе степеней свободы ν=9,

tтеор = t ά/2; N-2 = 2, 262157

      Сравниваем  tрасч с tтеор, т.к. tрасч> tтеор, то нулевая гипотеза отвергается, коэффициент корреляции существенно отличен от нуля в генеральной совокупности. Значит, выработка литья на одного работающего оказывает статистически существенное влияние на себестоимость 1 т. литья, т.е. коэффициент корреляции статистически значим.

      4. Статистическая значимость коэффициентов регрессии также проводится с использованием t-критерия Стьюдента. Для этого добавляются необходимые данные:

    Таблица №3

    Вспомогательные данные

  Y-Yср X-Xср i ei ei ei - ei-1
  31,54545 -0,6 197,1003 41,89968 41,89968  
  46,54545 0,7 219,5345 34,46552 34,46552 -7,43416
  54,54545 1,9 240,2429 21,75706 21,75706 -12,7085
  43,54545 2,9 257,5 -6,49998 -6,49998 -28,257
  -49,4545 -3,6 145,3292 12,67083 12,67083 19,17081
  -106,455 -2,6 162,5862 -61,5862 -61,5862 -74,257
  51,54545 3,6 269,5799 -10,5799 -10,5799 51,00631
  -21,4545 1,6 235,0658 -49,0658 -49,0658 -38,4859
  -3,45455 -0,6 197,1003 6,899683 6,899683 55,9655
  -9,45455 -1,6 179,8433 18,15673 18,15673 11,25705
  -37,4545 -1,7 178,1176 -8,11756 -8,11756 -26,2743
СУММКВ 26432,73 53,92   10375,04 10375,04 14928,87

Они рассчитываются по формуле:

S2 = = = 1152,783

S2b = = = 21,3795

S2a = S2b * (x2)ср = 21,3795*27,9418 = 597,3821

    где Sa ,Sb – стандартные ошибки

Находится расчетное  значение критерия:

tрасч (b) = b/ Sb = 17,257 / 21,37950.5 = 3,732224

tрасч (a) = a/ Sa = 124,6207 / 597,38210.5 = 5,098755

tтеор = t ά/2; N-2 = 2,262159

Т.к. [tрасч b] > tтеор b, то коэффициент b статистически значим.

Т.к. [tрасч a] > tтеор a, то коэффициент a статистически значим.

      5. а) Определяем доверительный интервал для коэффициентов регрессии a и b.

Для b: (b- tтеор Sb; b+ tтеор Sb);

(17,257 - 2,262159*21,37950.5; 17,257 + 2,262159*21,37950.5) = (6,797291;27,7168)

т.о. коэффициент  b=17,25705 с вероятностью 0.95 находится в найденном интервале.

Для a: (a- tтеор Sa; a+ tтеор Sa);

(124,6207 - 2,262159*597,38210.5; 124,6207 - 2,262159*597,38210.5) =

= 69,33042;179,911)

т.о. коэффициент a=124,6207 с вероятностью 0.95 находится в найденном интервале

      б) Прогнозное значение результатирующего признака определятся путем подстановки в уравнение регрессии прогнозного или возможного факторного признака (хр).

xp = = = 7,4

    p = 124,6207 + 17,257* 7,4 = 252,3229

      в) Построить доверительный интервал для зависимой переменной для

xp = с надежностью γ = 0,95.

( ; ) =

= ( ; ) = (224,9452816;279,7005184)

p=252,3229 с вероятностью 0.95 находится в интервале (224,9452816;279,7005184).

      Тогда прогнозное значение себестоимости 1т. литья составит ỹр=a+bхр=252,32297. Значит, при выработке литья на одного работающего =7,4 возможная себестоимость 1т. литья составляет 252,3229.

      7. Определим автокорреляцию остатков

d = = = 1,438921

Для критерия d найдены критические границы, позволяющие принять и отвергнуть гипотезу об отсутствии автокорреляции остатков

По таблице  распределения Дарбина-Уотсона при  заданном уравнении значимость «α»=0,05 в числе «N»=11 и количестве объясняющих переменных «m»=1 определяют критические границы: d1 = 0,927, d2 = 1,324, (4 - d1) = 3, 073, (4 - d2) = 2, 676

    Так как d попадает в интервал (d2; 4-d2), то означает, что автокорреляция остатков отсутствует. Отсутствие автокорреляции остатков является одним из подтверждений высокого качества модели.

      8. Вычислить коэффициент детерминации  и проверить его значимость.

Коэффициент детерминации рассчитывается, как R2 =

R2= = 0, 607492; R=0,77942

      Коэффициент детерминации R=0,77942 показывает, что 77,94% различий в себестоимости 1т. литья объясняется вариацией выработки литья на одного работающего, а 22,06% другими неучтенными факторами.

      Статистическая  надежность уравнения регрессии  проверяется с использованием критерия F-Фишера.

      Расчетное значение F-критерия находится по формуле:

Fрасч = = = 8,72688

      При уровни значимости α=0,05 и числе степеней свободы ν1=1; ν2=9 по таблице находится теоретическое значение F-критерия, Fтеор= F(0,05;1;9)=5,117355. Так как Fрасч> Fтеор, то уравнение регрессии статистически значимое или надежное.

      9. Оценить прогнозные качества  модели.

    Таблица №4

     Вспомогательные данные

  (yi-ỹi)/yi | (yi-ỹi)/yi|
  0,175312 0,175312
  0,135691 0,135691
  0,083042 0,083042
  -0,0259 0,025896
  0,080195 0,080195
  -0,60976 0,609765
  -0,04085 0,040849
  -0,26379 0,263795
  0,033822 0,033822
  0,091701 0,091701
  -0,04775 0,04775
СУММ -0,38829 1,587819
 

      σ = = = 14,43471 

      Т.к σ = 14,43471 больше 10%, то модель не приемлема для прогнозирования.

      10. Вывод: отсутствие автокорреляции, статистическая значимость коэффициентов корреляции и коэффициентов уравнения, а также значимость коэффициентов детерминации говорят о высоком общем качестве построенного уравнения регрессии.

      11. Все расчеты подтвердить в  пакете «Анализ данных».

    Таблица №5

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R 0,779418
R-квадрат 0,607492
Нормированный R-квадрат 0,563881
Стандартная ошибка 33,95265
Наблюдения 11

Дисперсионный анализ

  df SS MS F Значимость F
Регрессия 1 16057,68 16057,683 13,9295 0,004681
Остаток 9 10375,04 1152,7827    
Итого 10 26432,73      
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 124,6 24,441 5,09875 6E-04 69,3304 179,911 69,3304 179,9111
Переменная X 1 17,26 4,6238 3,73222 0,005 6,79728 27,7168 6,79728 27,71681
 

 

Задание №2: Нелинейная регрессия

      1) Построить следующие нелинейные зависимости:

  • Гиперболическую;
  • Логарифмическую;
  • Степенную;
  • Параболическую;

      2) Рассчитать все необходимые характеристики для проведения спецификации модели, включая линейную.

      3) Выбрать наиболее адекватную  модель. Обосновать свой выбор

    1. Гиперболическая зависимость.

      1. Построить гиперболическую зависимость (регрессию вида Ŷ = a + b/x). Вычисление коэффициентов выполнить методом наименьших квадратов, дать интерпретацию в терминах задачи.

      Замена: ỹ= a+ bх*, где х*=1/х

      В таблице все средние находятся  по формуле средней арифметической простой: Хср. = ∑х / N.

    Таблица №6

    Вспомогательные данные

Количество X Y X* X*2 X*Y
1 4,2 239 0,238095 0,056689 56,90476
2 5,5 254 0,181818 0,033058 46,18182
3 6,7 262 0,149254 0,022277 39,10448
4 7,7 251 0,12987 0,016866 32,5974
5 1,2 158 0,833333 0,694444 131,6667
6 2,2 101 0,454545 0,206612 45,90909
7 8,4 259 0,119048 0,014172 30,83333
8 6,4 186 0,15625 0,024414 29,0625
9 4,2 204 0,238095 0,056689 48,57143
10 3,2 198 0,3125 0,097656 61,875
11 3,1 170 0,322581 0,104058 54,83871
Среднее 4,8 207,4545 0,285035 0,120631 52,50411

      b = = = -168, 28

      a = yср – b*x’ср = 207, 4545 – (-168, 28)*0, 285035 = 255, 4204

      ỹ = 255,4204 – 168,28x*

      Коэффициент регрессии показывает, что при  увеличении выработки литья на одного работающего в среднем уменьшается себестоимость 1т. литья на 168,28.

      2. Статистическая значимость коэффициентов регрессии проводится с использованием t-критерия Стьюдента.

      Находится расчетное значение критерия:

      tрасч=b/Sb ; tрасч=a/Sa ,

      где Sa ,Sb – стандартные ошибки

    Таблица №7

    Вспомогательные данные

  Y i - Y ср X*-X*ср ei ei-ei-1
  31,54545 -0,04694 215,3537 23,64635  
  46,54545 -0,10322 224,824 29,17603 5,529682
  54,54545 -0,13578 230,3039 31,69608 2,520046
  43,54545 -0,15517 233,5658 17,4342 -14,2619
  -49,4545 0,548298 115,1868 42,81317 25,37897
  -106,455 0,16951 178,9294 -77,9294 -120,743
  51,54545 -0,16599 235,387 23,61298 101,5423
  -21,4545 -0,12879 229,1266 -43,1266 -66,7396
  -3,45455 -0,04694 215,3537 -11,3537 31,77294
  -9,45455 0,027465 202,8328 -4,8328 6,520853
  -37,4545 0,037545 201,1364 -31,1364 -26,3036
СУММКВ 26432,73 0,433239   14164,15 31972,12

      S2 = = 1573,794

      S2b = = = 3632,621

      S2a = S2b * (x’2)ср = 438,2052

      tрасч (b) = b/ Sb = (-168, 28)/ 3632,6210.5 = -2,79205

      tрасч (a) = a/ Sa = 255, 4204/ 438,20520.5 = 12,2016

      tтеор = t ά/2; N-2 = 2,262159

      Т.к. [tрасч b] > tтеор b, то коэффициент b статистически значим.

      Т.к. [tрасч a] > tтеор a, то коэффициент a статистически значим.

      3. При нелинейной зависимости, степень тесноты связи между переменными X и Y определяется с помощью корреляционного отношения:

    η = = = 0,681281

      Т.к. η недостаточно близко к единице, то связь между X и Y слабая.

      4. Определим автокорреляцию остатков

      Для этого находим значения ei и определяем значения критерия d, который находится по формуле: d = = = 2,257257

      Для критерия d найдены критические границы, позволяющие принять и отвергнуть гипотезу об отсутствии автокорреляции остатков.

      По  таблице распределения Дарбина-Уотсона  при заданном уравнении значимость «α»=0,05 в числе «N»=11 и количестве объясняющих переменных «m»=1 определяют критические границы: d1 = 0,927, d2 = 1,324, (4 - d1) = 3, 073, (4 - d2) = 2, 676

      Так как d попадает в интервал (d2; 4-d2), то означает, что автокорреляция остатков отсутствует. Отсутствие автокорреляции остатков является одним из подтверждений высокого качества модели.

      5. Качество уравнения регрессии  оценивается с помощью средней ошибки аппроксимации

      Таблица №8

      Вспомогательные данные

  (yi - ỹ i)/ yi |( yi - ỹ i)/ yi |
  0,098939 0,098939
  0,114866 0,114866
  0,120977 0,120977
  0,069459 0,069459
  0,270969 0,270969
  -0,77158 0,771578
  0,09117 0,09117
  -0,23186 0,231863
  -0,05566 0,055655
  -0,02441 0,024408
  -0,18316 0,183155
СУММ -0,50028 2,03304
 

      σ = = = 18,48219

      Значит, фактическое значение себестоимости 1т. литья от расчетных по уравнению  регрессии в среднем различаются на σ=18,48219. Если ошибка аппроксимации не превышает 10%, полученное уравнение можно оценить как вполне хорошее, в нашем случае аппроксимация превышает 10%, значит модель не приемлема для прогнозирования.

      6. Все расчеты подтвердить в  пакете «Анализ данных».

Таблица №9

    ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R 0,681281
R-квадрат 0,464143
Нормированный R-квадрат 0,404604
Стандартная ошибка 39,67108
Наблюдения 11

    Дисперсионный анализ

  df SS MS F Значимость F
Регрессия 1 12268,58 12268,58 7,795541 0,020983
Остаток 9 14164,15 1573,794    
Итого 10 26432,73      
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95,0% Верхние 95,0%
Y-пересечение 255,4204 20,93335 12,2016 6,68E-07 208,0658 302,7749 208,0658 302,7749
Переменная X 1 -168,28 60,27123 -2,79205 0,020983 -304,623 -31,9372 -304,623 -31,9372
Парная линейная регрессия