Парная линейная регрессия
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное агентство по образованию
Рубцовский индустриальный институт (филиал) ГОУ ВПО
Алтайский
государственный технический
Гуманитарно-экономический факультет
Кафедра
«Финансы и кредит»
курсовая
работа
по дисциплине:
эконометрика
Вариант
№4
Рубцовск 2008
Содержание
- Задание №1: Парная линейная регрессия……………………………….3
- Задание №2: Нелинейная регрессия……………………...…………….11
- Задание №3: Множественная регрессия……………………...………..31
Задание №1: Парная линейная регрессия
- Построить линейную парную регрессию (регрессию вида ỹ= a+bx). Вычисление коэффициентов выполнить методом наименьших квадратов, дать интерпретацию в терминах задачи.
- Построить корреляционное поле и линию регрессии линейного типа.
- Вычислить выборочный коэффициент корреляции и проверить гипотезу о его значимости.
- Проверить значимость коэффициентов регрессии, построить для них 95%-е доверительные интервалы.
- Используя построенное уравнение, спрогнозировать значение ỹр при хр= (х7+х8)/2.
- Построить доверительный интервал для зависимой переменной для хр= (х7+х8)/2 с надежностью γ= 0,95.
- Определить, есть или нет автокорреляция остатков с помощью критерия Дарбина-Уотсона.
- Вычислить коэффициент детерминации и проверить его значимость.
- Оценить прогнозные качества модели.
- Сделать необходимые выводы по каждому пункту и общий вывод по качеству построенной модели.
- Все расчеты подтвердить в пакете «Анализ данных» и программе Model.
Исходные данные:
Исследуется зависимость себестоимости 1т. литья Y (руб.) от выработки литья на одного работающего Х (т) по 11 литейным цехам заводов:
Таблица №1
Количество | X | Y |
4,2 | 239 | |
5,5 | 254 | |
6,7 | 262 | |
7,7 | 251 | |
1,2 | 158 | |
2,2 | 101 | |
8,4 | 259 | |
6,4 | 186 | |
4,2 | 204 | |
3,2 | 198 | |
11 | 3,1 | 170 |
1. График зависимости переменных X и Y строится в прямоугольной системе координат. На оси абсцисс откладывается значения факторного признака Х, а по оси ординат – результативного признака Y.
На
график наносятся точки, координаты
которых соответствуют
Рисунок 1
Характер расположения точек на графике показывает, что связь между переменными может выражаться линейным уравнением регрессии.
2. Параметры уравнения регрессии находим методом наименьших квадратов.
Для проведения всех расчетов строится вспомогательная таблица.
Таблица №2
Количество | xy | x2 | y2 |
1003,8 | 17,64 | 57121 | |
1397 | 30,25 | 64516 | |
1755,4 | 44,89 | 68644 | |
1932,7 | 59,29 | 63001 | |
189,6 | 1,44 | 24964 | |
222,2 | 4,84 | 10201 | |
2175,6 | 70,56 | 67081 | |
1190,4 | 40,96 | 34596 | |
856,8 | 17,64 | 41616 | |
633,6 | 10,24 | 39204 | |
11 | 527 | 9,61 | 28900 |
Среднее | 1080,373 | 27,9418 | 45440,36 |
В таблице все средние находятся по формуле средней арифметической простой: Хср. = ∑х / N.
Параметры уравнения регрессии находятся по формуле:
b = = = 17, 257
a = yср – b*xср = 207, 4545-17, 257*4, 8 = 124, 6207
ỹ = 124, 6207 + 17, 257* x
Коэффициент b = 17, 257 показывает, на какую величину измениться себестоимость 1т литья, если брак от литья возрастет на единицу.
Коэффициент a = 124, 6207 говорит о том, что при нулевом браке от литья себестоимость 1т литья составит в среднем 124,6207 условные единицы.
3. При линейной зависимости, степень тесноты связи между переменными X и Y определяется с помощью коэффициента корреляции:
r xy = = =0,779418
Так как значение коэффициента корреляции близко к единице, то между признаками связь сильная, прямая, близкая к линейной функциональной.
Так как исходные данные являются выборочными, то необходимо оценить существенность или значимость величины коэффициента корреляции. Выдвигаем нулевую гипотезу: коэффициент корреляции в генеральной совокупности равен нулю, и изучаемый фактор не влияет на результативный признак, Н0: r=0, при Н1: r≠0
Для проверки нулевой гипотезы применим t-критерий Стьюдента. Найдем расчетное значение t-критерия:
tрасч = = =3,732224
Теоретическое значение t находится по таблицам t-распределения Стьюдента при уровне значимости α=0,05 и числе степеней свободы ν=9,
tтеор = t ά/2; N-2 = 2, 262157
Сравниваем tрасч с tтеор, т.к. tрасч> tтеор, то нулевая гипотеза отвергается, коэффициент корреляции существенно отличен от нуля в генеральной совокупности. Значит, выработка литья на одного работающего оказывает статистически существенное влияние на себестоимость 1 т. литья, т.е. коэффициент корреляции статистически значим.
4. Статистическая значимость коэффициентов регрессии также проводится с использованием t-критерия Стьюдента. Для этого добавляются необходимые данные:
Таблица №3
Вспомогательные данные
Y-Yср | X-Xср | ỹi | ei | ei | ei - ei-1 | |
31,54545 | -0,6 | 197,1003 | 41,89968 | 41,89968 | ||
46,54545 | 0,7 | 219,5345 | 34,46552 | 34,46552 | -7,43416 | |
54,54545 | 1,9 | 240,2429 | 21,75706 | 21,75706 | -12,7085 | |
43,54545 | 2,9 | 257,5 | -6,49998 | -6,49998 | -28,257 | |
-49,4545 | -3,6 | 145,3292 | 12,67083 | 12,67083 | 19,17081 | |
-106,455 | -2,6 | 162,5862 | -61,5862 | -61,5862 | -74,257 | |
51,54545 | 3,6 | 269,5799 | -10,5799 | -10,5799 | 51,00631 | |
-21,4545 | 1,6 | 235,0658 | -49,0658 | -49,0658 | -38,4859 | |
-3,45455 | -0,6 | 197,1003 | 6,899683 | 6,899683 | 55,9655 | |
-9,45455 | -1,6 | 179,8433 | 18,15673 | 18,15673 | 11,25705 | |
-37,4545 | -1,7 | 178,1176 | -8,11756 | -8,11756 | -26,2743 | |
СУММКВ | 26432,73 | 53,92 | 10375,04 | 10375,04 | 14928,87 |
Они рассчитываются по формуле:
S2 = = = 1152,783
S2b = = = 21,3795
S2a = S2b * (x2)ср = 21,3795*27,9418 = 597,3821
где Sa ,Sb – стандартные ошибки
Находится расчетное значение критерия:
tрасч (b) = b/ Sb = 17,257 / 21,37950.5 = 3,732224
tрасч (a) = a/ Sa = 124,6207 / 597,38210.5 = 5,098755
tтеор = t ά/2; N-2 = 2,262159
Т.к. [tрасч b] > tтеор b, то коэффициент b статистически значим.
Т.к. [tрасч a] > tтеор a, то коэффициент a статистически значим.
5. а) Определяем доверительный интервал для коэффициентов регрессии a и b.
Для b: (b- tтеор Sb; b+ tтеор Sb);
(17,257 - 2,262159*21,37950.5; 17,257 + 2,262159*21,37950.5) = (6,797291;27,7168)
т.о. коэффициент b=17,25705 с вероятностью 0.95 находится в найденном интервале.
Для a: (a- tтеор Sa; a+ tтеор Sa);
(124,6207 - 2,262159*597,38210.5; 124,6207 - 2,262159*597,38210.5) =
= 69,33042;179,911)
т.о. коэффициент a=124,6207 с вероятностью 0.95 находится в найденном интервале
б) Прогнозное значение результатирующего признака определятся путем подстановки в уравнение регрессии прогнозного или возможного факторного признака (хр).
xp = = = 7,4
ỹp = 124,6207 + 17,257* 7,4 = 252,3229
в) Построить доверительный интервал для зависимой переменной для
xp = с надежностью γ = 0,95.
( ; ) =
= ( ; ) = (224,9452816;279,7005184)
ỹp=252,3229 с вероятностью 0.95 находится в интервале (224,9452816;279,7005184).
Тогда прогнозное значение себестоимости 1т. литья составит ỹр=a+bхр=252,32297. Значит, при выработке литья на одного работающего =7,4 возможная себестоимость 1т. литья составляет 252,3229.
7. Определим автокорреляцию остатков
d = = = 1,438921
Для критерия d найдены критические границы, позволяющие принять и отвергнуть гипотезу об отсутствии автокорреляции остатков
По таблице
распределения Дарбина-Уотсона
Так как d попадает в интервал (d2; 4-d2), то означает, что автокорреляция остатков отсутствует. Отсутствие автокорреляции остатков является одним из подтверждений высокого качества модели.
8.
Вычислить коэффициент
Коэффициент детерминации рассчитывается, как R2 =
R2= = 0, 607492; R=0,77942
Коэффициент детерминации R=0,77942 показывает, что 77,94% различий в себестоимости 1т. литья объясняется вариацией выработки литья на одного работающего, а 22,06% другими неучтенными факторами.
Статистическая надежность уравнения регрессии проверяется с использованием критерия F-Фишера.
Расчетное значение F-критерия находится по формуле:
Fрасч = = = 8,72688
При уровни значимости α=0,05 и числе степеней свободы ν1=1; ν2=9 по таблице находится теоретическое значение F-критерия, Fтеор= F(0,05;1;9)=5,117355. Так как Fрасч> Fтеор, то уравнение регрессии статистически значимое или надежное.
9. Оценить прогнозные качества модели.
Таблица №4
Вспомогательные данные
(yi-ỹi)/yi | | (yi-ỹi)/yi| | |
0,175312 | 0,175312 | |
0,135691 | 0,135691 | |
0,083042 | 0,083042 | |
-0,0259 | 0,025896 | |
0,080195 | 0,080195 | |
-0,60976 | 0,609765 | |
-0,04085 | 0,040849 | |
-0,26379 | 0,263795 | |
0,033822 | 0,033822 | |
0,091701 | 0,091701 | |
-0,04775 | 0,04775 | |
СУММ | -0,38829 | 1,587819 |
σ =
=
= 14,43471
Т.к σ = 14,43471 больше 10%, то модель не приемлема для прогнозирования.
10. Вывод: отсутствие автокорреляции, статистическая значимость коэффициентов корреляции и коэффициентов уравнения, а также значимость коэффициентов детерминации говорят о высоком общем качестве построенного уравнения регрессии.
11. Все расчеты подтвердить в пакете «Анализ данных».
Таблица №5
ВЫВОД ИТОГОВ
Регрессионная статистика | |
Множественный R | 0,779418 |
R-квадрат | 0,607492 |
Нормированный R-квадрат | 0,563881 |
Стандартная ошибка | 33,95265 |
Наблюдения | 11 |
Дисперсионный анализ
df | SS | MS | F | Значимость F | ||||||||||
Регрессия | 1 | 16057,68 | 16057,683 | 13,9295 | 0,004681 | |||||||||
Остаток | 9 | 10375,04 | 1152,7827 | |||||||||||
Итого | 10 | 26432,73 | ||||||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |||||||
Y-пересечение | 124,6 | 24,441 | 5,09875 | 6E-04 | 69,3304 | 179,911 | 69,3304 | 179,9111 | ||||||
Переменная X 1 | 17,26 | 4,6238 | 3,73222 | 0,005 | 6,79728 | 27,7168 | 6,79728 | 27,71681 |
Задание №2: Нелинейная регрессия
1) Построить следующие нелинейные зависимости:
- Гиперболическую;
- Логарифмическую;
- Степенную;
- Параболическую;
2) Рассчитать все необходимые характеристики для проведения спецификации модели, включая линейную.
3) Выбрать наиболее адекватную модель. Обосновать свой выбор
- Гиперболическая зависимость.
1. Построить гиперболическую зависимость (регрессию вида Ŷ = a + b/x). Вычисление коэффициентов выполнить методом наименьших квадратов, дать интерпретацию в терминах задачи.
Замена: ỹ= a+ bх*, где х*=1/х
В таблице все средние находятся по формуле средней арифметической простой: Хср. = ∑х / N.
Таблица №6
Вспомогательные данные
Количество | X | Y | X* | X*2 | X*Y |
1 | 4,2 | 239 | 0,238095 | 0,056689 | 56,90476 |
2 | 5,5 | 254 | 0,181818 | 0,033058 | 46,18182 |
3 | 6,7 | 262 | 0,149254 | 0,022277 | 39,10448 |
4 | 7,7 | 251 | 0,12987 | 0,016866 | 32,5974 |
5 | 1,2 | 158 | 0,833333 | 0,694444 | 131,6667 |
6 | 2,2 | 101 | 0,454545 | 0,206612 | 45,90909 |
7 | 8,4 | 259 | 0,119048 | 0,014172 | 30,83333 |
8 | 6,4 | 186 | 0,15625 | 0,024414 | 29,0625 |
9 | 4,2 | 204 | 0,238095 | 0,056689 | 48,57143 |
10 | 3,2 | 198 | 0,3125 | 0,097656 | 61,875 |
11 | 3,1 | 170 | 0,322581 | 0,104058 | 54,83871 |
Среднее | 4,8 | 207,4545 | 0,285035 | 0,120631 | 52,50411 |
b = = = -168, 28
a = yср – b*x’ср = 207, 4545 – (-168, 28)*0, 285035 = 255, 4204
ỹ = 255,4204 – 168,28x*
Коэффициент регрессии показывает, что при увеличении выработки литья на одного работающего в среднем уменьшается себестоимость 1т. литья на 168,28.
2. Статистическая значимость коэффициентов регрессии проводится с использованием t-критерия Стьюдента.
Находится расчетное значение критерия:
tрасч=b/Sb ; tрасч=a/Sa ,
где Sa ,Sb – стандартные ошибки
Таблица №7
Вспомогательные данные
Y i - Y ср | X*-X*ср | ỹ | ei | ei-ei-1 | |
31,54545 | -0,04694 | 215,3537 | 23,64635 | ||
46,54545 | -0,10322 | 224,824 | 29,17603 | 5,529682 | |
54,54545 | -0,13578 | 230,3039 | 31,69608 | 2,520046 | |
43,54545 | -0,15517 | 233,5658 | 17,4342 | -14,2619 | |
-49,4545 | 0,548298 | 115,1868 | 42,81317 | 25,37897 | |
-106,455 | 0,16951 | 178,9294 | -77,9294 | -120,743 | |
51,54545 | -0,16599 | 235,387 | 23,61298 | 101,5423 | |
-21,4545 | -0,12879 | 229,1266 | -43,1266 | -66,7396 | |
-3,45455 | -0,04694 | 215,3537 | -11,3537 | 31,77294 | |
-9,45455 | 0,027465 | 202,8328 | -4,8328 | 6,520853 | |
-37,4545 | 0,037545 | 201,1364 | -31,1364 | -26,3036 | |
СУММКВ | 26432,73 | 0,433239 | 14164,15 | 31972,12 |
S2 = = = 1573,794
S2b = = = 3632,621
S2a = S2b * (x’2)ср = 438,2052
tрасч (b) = b/ Sb = (-168, 28)/ 3632,6210.5 = -2,79205
tрасч (a) = a/ Sa = 255, 4204/ 438,20520.5 = 12,2016
tтеор = t ά/2; N-2 = 2,262159
Т.к. [tрасч b] > tтеор b, то коэффициент b статистически значим.
Т.к. [tрасч a] > tтеор a, то коэффициент a статистически значим.
3. При нелинейной зависимости, степень тесноты связи между переменными X и Y определяется с помощью корреляционного отношения:
η = = = 0,681281
Т.к. η недостаточно близко к единице, то связь между X и Y слабая.
4. Определим автокорреляцию остатков
Для этого находим значения ei и определяем значения критерия d, который находится по формуле: d = = = 2,257257
Для критерия d найдены критические границы, позволяющие принять и отвергнуть гипотезу об отсутствии автокорреляции остатков.
По
таблице распределения Дарбина-
Так как d попадает в интервал (d2; 4-d2), то означает, что автокорреляция остатков отсутствует. Отсутствие автокорреляции остатков является одним из подтверждений высокого качества модели.
5. Качество уравнения регрессии оценивается с помощью средней ошибки аппроксимации
Таблица №8
Вспомогательные данные
(yi - ỹ i)/ yi | |( yi - ỹ i)/ yi | | |
0,098939 | 0,098939 | |
0,114866 | 0,114866 | |
0,120977 | 0,120977 | |
0,069459 | 0,069459 | |
0,270969 | 0,270969 | |
-0,77158 | 0,771578 | |
0,09117 | 0,09117 | |
-0,23186 | 0,231863 | |
-0,05566 | 0,055655 | |
-0,02441 | 0,024408 | |
-0,18316 | 0,183155 | |
СУММ | -0,50028 | 2,03304 |
σ = = = 18,48219
Значит,
фактическое значение себестоимости
1т. литья от расчетных по уравнению
регрессии в среднем
6. Все расчеты подтвердить в пакете «Анализ данных».
Таблица №9
ВЫВОД ИТОГОВ
Регрессионная статистика | |
Множественный R | 0,681281 |
R-квадрат | 0,464143 |
Нормированный R-квадрат | 0,404604 |
Стандартная ошибка | 39,67108 |
Наблюдения | 11 |
Дисперсионный анализ
df | SS | MS | F | Значимость F | ||||||||||
Регрессия | 1 | 12268,58 | 12268,58 | 7,795541 | 0,020983 | |||||||||
Остаток | 9 | 14164,15 | 1573,794 | |||||||||||
Итого | 10 | 26432,73 | ||||||||||||
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 95,0% | Верхние 95,0% | |||||||
Y-пересечение | 255,4204 | 20,93335 | 12,2016 | 6,68E-07 | 208,0658 | 302,7749 | 208,0658 | 302,7749 | ||||||
Переменная X 1 | -168,28 | 60,27123 | -2,79205 | 0,020983 | -304,623 | -31,9372 | -304,623 | -31,9372 |