Методы коррекции гетероскедастичности случайных отклонений, тестирование гетероскедастичности в скорректированной модели с помощью тес

МИНИСТЕРСТВО  ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Экономический факультет

Кафедра банковской и финансовой экономики 
 
 
 
 
 
 

КУРСОВОЕ  ПРОЕКТИРОВАНИЕ 

на тему: Методы коррекции гетероскедастичности случайных отклонений, тестирование гетероскедастичности в скорректированной модели с помощью теста Голдфелда-Квандта 
 
 
 

    Студентки 3 курса    __________  дневного отделения    
 
 

    Научный руководитель   __________  старший преподаватель    
 
 
 
 
 
 
 
 
 
 

Минск 2010

Содержание

Введение

     При проведении регрессионного анализа, основанного на методе наименьших квадратов, на практике следует обратить внимание на проблемы, связанные с выполнимостью свойств случайных отклонений модели. Одной из ключевых предпосылок МНК является условие постоянства дисперсий случайных отклонений. Данное условие подразумевает, что, несмотря на то, что при каждом конкретном наблюдении случайное отклонение может быть либо большим, либо меньшим, не должно быть некой априорной причины, вызывающей большую ошибку (отклонение).  Выполнимость данной предпосылки называется гомоскедастичностью. Невыполнимость данной предпосылки называется гетероскедастичностью. Гетероскедастичность может быть вызвана следующими причинами:

    1. Разброс в значениях переменных
    2. Наличие резко выделяющихся наблюдений
    3. Ошибки спецификации модели (наличие пропущенных переменных)
    4. Ассиметрия распределения данных по какой-либо экзогенной переменной
    5. Ошибки в преобразовании данных

     Обычно  проблема гетероскедастичности характерна для моделей, построенных на пространственных данных. Наличие гетероскедастичности влечет за собой следующие последствия:

     Оценки  коэффициентов модели остаются линейными  и несмещенными, но перестают быть эффективными. Оценки не будут даже асимптотически эффективными.

     Дисперсия случайного отклонения рассчитывается со смещением, поэтому дисперсии оценок или параметров модели также являются смещенными оценками;

     Выводы  о качестве регрессионной модели, сделанные на основании t- и F-статистик, становятся ненадежными, а заключение, сделанное на основании этих статистик, может быть ошибочным.

     Следовательно, при присутствии гетероскедастичности, модель не может давать адекватные прогнозы, и ее использование становится нецелесообразным. Поэтому при построении регрессионную модель необходимо тестировать  на наличие гетероскедастичности. Если по результатам анализа гетероскедастичность обнаруживается, исходная модель не может быть использована и требует проведения преобразований с целью устранения гетероскедастичности.

     Итак, иногда на практике, зная природу данных, проблему гетероскедастичности можно предвидеть и попытаться устранить ее на этапе спецификации модели. Однако чаще всего проблему обнаружения гетероскедастичности приходится решать уже после оценивания регрессионной модели.

     Для выявления проблемы гетероскедастичности могут использоваться следующие методы:

    1. Графический анализ
    2. Тест Голдфелда-Квандта
    3. Тест Парка
    4. Тест Глейзера

     При обнаружении гетероскедастичности ее необходимо устранить. Для этого  используется взвешенный метод наименьших квадратов.

       Я исследовала модель на гетероскедастичнось  с помощью теста Голдфелда-Квандта (как и по условию).

Таким образом, целью данной работы является исследование модели на наличие гетероскедастичности и последующее ее устранение. Для  проведения данного анализа будет  исследована зависимость цены квартиры в г. Минске от ее характеристик (приложение, таблица№1). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Теоретическое обоснование модели

     В исследуемой модели в качестве зависимой  переменной взята цена квартиры в  городе Минске. Целесообразно проводить  оценку продажной цены квартиры (price, $) по следующим факторам:

    1. общая площадь (м2) (totsq): при увеличении количества квадратных метров общей площади квартиры пропорционально возрастает ее стоимость;
    2. жилая площадь(м2) (livsq): при увеличении количества квадратных метров жилой площади квартиры пропорционально возрастает ее стоимость;
    3. площадь кухни(м2)( kitsq): при увеличении количества квадратных метров кухни пропорционально возрастает стоимость квартиры;
    4. расстояние до центра (м) (distc): чем меньше расстояние от квартиры до центра города, тем выше стоимость данной квартиры;
    5. этаж – 0 – первый или последний, 1 – нет(floor): стоимость квартиры, находящейся на первом или последнем этаже ниже стоимости квартир, находящихся на промежуточных этажах;
    6. наличие балкона – 1 – есть хотя бы один или лоджия, 0 – нет(bal): наличие в квартире балкона повышает ее стоимость;
    7. наличие телефона – 1- есть, 0 - нет (tel): наличие в квартире телефонной связи увеличивает ее стоимость;
    8. «возраст» дома (year): квартиры более раннего года постройки, как правило, дешевле аналогичных квартир более позднего года постройки.

     В модели предполагается положительная  зависимость PRICE от TOTSQ, LIVSQ, KITSQ, FLOOR, BAL, TEL;  отрицательная — от DISTC, YEAR. При исследовании зависимости между данными переменными вероятно возникновение проблемы гетероскедастичности (PRICE будет иметь большую ошибку для больших квартир.

     Для устранения гетероскедастичности используется взвешенный метод наименьших квадратов. Преобразование модели зависит от того, известны дисперсии случайных отклонений или нет. Если дисперсии случайных отклонений известны можно устранить гетероскедастичность, разделив каждое наблюдаемое значение на соответствующее ему значение среднего квадратического отклонения. Для преобразованной модели выполняются все предпосылки МНК; оценки, полученные по МНК являются BLUE- оценками. Оценки, полученные для исправленного уравнения, используются в исходном уравнении. Однако на практике значения дисперсии чаще всего неизвестны, и для применения взвешенного МНК необходимо сделать реалистичные предположения о дисперсии.

Построение  и анализ эконометрической модели

 Для начала необходимо проверить модель на адекватность.

Если  знак положителен , то это прямая зависимость: при повышении Х – растет Y,  и аналогично при уменьшении Х – падает Y. Это полностью согласовывается с экономической теорией. 

Для начала мы  исследуем значимость влияния  всех факторов на цену квартиры.

  Коэффициенты Ст. ошибка t-статистика P-Значение
Y-пересечение -23663,9 18732,7 -1,2632 0,21248
distc -2,14783 0,878342 -2,4453 0,01811
totsq 3904,6 1553,3 2,5137 0,01528
Livsq -2129,74 1632,66 -1,3045 0,19817
Kitsq 132,229 2208,8 0,0599 0,95251
dopsq -960,113 1207,84 -0,7949 0,43051
floor -717,44 5969,81 -0,1202 0,90483
totfloor 288,872 1208,88 0,2390 0,81213
bal 3163,87 10069,3 0,3142 0,75470
tel 13496,5 8115,84 1,6630 0,10270
year -34,0782 220,289 -0,1547 0,87770
 
 

     Для проверки значимости коэффициентов  используем P-value- вероятность того, что статистика будет меньше, чем t-набл.

     Так, если P-value<Alpha, то коэффициенты значимы, если же

P-value>Alpha, коэффициенты незначимы.

В нашем  случае P-value <0,05.

И в  итоге значимыми оказались факторы – distc, totsq. Все незначимые факторы мы исключим из модели и построим новую модель. 

R2=0,858209, F(R2)=29,65795

Регрессионная статистика
Множественный R 0,807777
R-квадрат 0,858209
Нормированный R-квадрат 0,829272
Стандартная ошибка 18590,73
Наблюдения 59
 

Полученное  при построении регрессии значение коэффициента детерминации R2=0,858209 свидетельствует о сравнительно невысокой точности модели, т.е. о том, что изменение данных факторов в совокупности лишь в некоторой степени определяет изменение зависимой переменной Y. Влияние случайной составляющей на наблюдаемые значения объясняемой переменной значительно.

  Коэффициенты Ст. ошибка t-статистика P-Значение
Y-пересечение -5290,571274 9675,674362 -0,546791 0,586657
distc -1,772805891 0,743724094 -2,383688 0,020494
totsq 2314,219149 138,915663 16,659166 1,44E-23
 

R2=0,837008, F(R2)=146, 3555

Регрессионная статистика
Множественный R 0,91488154
R-квадрат 0,837008233
Нормированный R-квадрат 0,831289223
Стандартная ошибка 18480,59217
Наблюдения 60
 

     Коэффициенты  модели статистически значимы, R-квадрат достаточно высокий, Высокое значение F- статистики (2,57) и соответствующее ему значение Pvalue =3,52 подтверждают его значимость.

    Проинтерпретируем коэффициенты при переменных.

     - коэффициент 2314,22 при totsq означает, что увеличение общей площади квартиры на 1 кв.м при прочих равных приводит к увеличению цены в среднем на 2314,22 долл.

     - коэффициент при distc означает, что увеличение расстояния до центра на 1 км при прочих равных приводит к уменьшению цены на 1,77281 долл., коэффициент значим, следовательно, цена квартиры зависит от расстояния до центра.

     Проверим  модель на мультиколлинеарность

Одним из условий Гаусса – Маркова для  множественной регрессии является то, что объясняющие переменные должны быть независимыми. Только в этом случае оценки коэффициентов регрессии, полученные по методу наименьших квадратов, являются эффективными. Нарушение условия о независимости переменных называется проблемой мультиколлинеарности.

Проведя соответствующие расчеты в Excel получи следующие парные коэффициенты корреляции:

Таблица (2)

  Столбец 1 Столбец 2 Столбец 3
Столбец 1 1    
Столбец 2 -0,20837 1  
Столбец 3 0,905958 -0,08987 1

        Из приведенной выше таблицы можно сделать вывод об отсутствии мультиколлинеарности в модели.

     Присутствие автокорреляции в данной модели маловероятно, т.к. приведенные данные являются перекрестными. 

     Проверим  остатки модели на нормальность. 
 
 

     Остатки модели имеют нормальный закон распределения.

     Высокое значение t-статистики коэффициента при переменной totsq (16,6592) может свидетельствовать о наличие в модели проблемы гетероскедастичности. Для того, чтобы исключить возможность ложных выводов о значимости коэффициентов при переменных и коэффициента детерминации, проведем тесты на гетероскедастичность.

     Тест  Голдфельда- Квандта проверяет, зависит ли дисперсия случайных возмущений от какого- то конкретного показателя.

Тест  применяется, как правило, когда  есть предположение о прямой зависимости  дисперсии ошибок от величины некоторой объясняющей переменной, входящей в модель.

Проверяем по Х1 (См. Приложение 4): по переменной Х1 ГС отсутствует.

Проверяем по Х2 (См. Приложение 5):по переменной Х2 ГС присутствует.

В результате проведенного теста Голдфелда-Квандта установлено, что

Fнабл < Fкрит, то есть гипотеза Но отвергается, то есть дисперсия случайных возмущений не зависит от Х1.

     Гомоскедастичность- дисперсия каждого отклонения εi одинакова для всех значений i.

     Гетероскедастичность- дисперсия объясняемой переменной не постоянна.

     В тесте на гетероскедастичность мы должны проверить основную гипотезу

     H0:σ12= σ22=…= σn2 (т.е. модель гомоскедастична) против альтернативной гипотезы     H1: не H0 (т.е. модель гетероскедастична).

     В ряде случаев на базе знаний характера данных появление проблемы гетероскедастичности можно предвидеть и попытаться устранить этот недостаток еще на этапе спецификации. Однако значительно чаще  эту  проблему  приходится  решать  после  построения  уравнения регрессии.

Использование  графического  представления  отклонений  позволяет  определиться  с  наличием  гетероскедастичности.

Проанализировав график остатков выдвигаем гипотезу Но: дисперсия случайных возмущений зависит от Х1.

Проанализировав график остатков выдвигаем гипотезу Но: дисперсия случайных возмущений зависит от Х2.

Делаем  вывод, что дисперсия случайных возмущений зависит отX1 (distc) и Х2(totsq). 

Попробуем изменить спецификацию модели. Построим логарифмическую модель. Возможно, это устранит проблему гетероскедастичности.

  Коэффициент Ст. ошибка t-статистика P-значение
const 8,26775 0,372518 22,1942 <0,00001
l_distc -0,097844 0,0348353 -2,8088 0,00680
l_totsq 1,0377 0,048156 21,5486 <0,00001
 
Регрессионная статистика
Множественный R 0,891053
R-квадрат 0, 894746
Нормированный R-квадрат 0,026731
Стандартная ошибка 0,121195
 

     Высокий коэффициент детерминации (0,89), его  значимость (F-stat=242,273  Pvalue=0,0000), значимые коэффициенты при независимых переменных, говорят о хорошем качестве модели.

    Проинтерпретируем коэффициенты при экзогенных переменных:

     - коэффициент 1,0377 при LNTOTSQ означает, что увеличение общей площади квартиры на 1% при прочих равных приводит к увеличению цены в среднем на 1,0377%.

     - коэффициент при DISTC проинтерпретируем следующим образом: при увеличении расстояния до центра на 1% при прочих равных приводит к увеличению цены в среднем на 0,097844%; этот коэффициент значим, следовательно, цена квартиры зависит от расстояния до центра.

Проверив  модель на мультиколлинеарность можно  сделать вывод  об её отсутствии.

     Высокое значение t-статистики коэффициента при переменной TOTSQ (21,5486) может свидетельствовать о наличие в модели проблемы гетероскедастичности. Для того, чтобы исключить возможность ложных выводов о значимости коэффициентов при переменных проверим наличие либо отсутствие в модели гетероскедастичности с помощью тестов.

Тест Вайта (White) на гетероскедастичность

МНК, использованы наблюдения 1-60

Зависимая переменная: uhat^2 

              Коэффициент   Ст. ошибка  t-статистика  P-значение

  --------------------------------------------------------------

  const        0,624788     2,00841       0,3111        0,7569 

  l_distc     -0,0284895    0,336370     -0,08470       0,9328 

  l_totsq     -0,278008     0,462921     -0,6006        0,5507 

  sq_l_distc   0,00165119   0,0155584     0,1061        0,9159 

  X2_X3       -0,000151004  0,0264857    -0,005701      0,9955 

  sq_l_totsq   0,0393224    0,0397294     0,9898        0,3267   

  Неисправленный R-квадрат = 0,134431 

Тестовая статистика: TR^2 = 8,065876,

р-значение = P(Хи-квадрат(5) > 8,065876) = 0,152642

     Тест  Вайта показал, что в модели отсутствует  гетероскедастичность. Таким образом, можно сделать вывод, что при  использовании преобразованных  данных можно избежать проблемы гетероскедастичности в модели. 
 
 
 
 
 
 

Заключение

     В ходе проведенной работы были построены  две регрессионные модели, описывающие  зависимость продажной цены квартиры от двух факторов: общей площади  квартиры и величины, равной расстоянию до центра. В качестве регрессоров были рассмотрены и другие факторы, но они оказались незначимыми, и поэтому были исключены из модели. Незначимость переменных может быть связана с рядом факторов: небольшой объем выборки, неточность данных или их действительно незначимый вклад в определение цены квартиры. В первой линейной модели было обнаружено одно из нарушений классических предпосылок МНК – непостоянство дисперсий отклонений – гетероскедастичность. Поэтому вопреки хорошим показателям модели (высокие t-статистики, коэффициент детерминации) вывод о ее хорошем качестве может быть ложным из-за нарушения предпосылки о гомоскедастичности остатков. Для борьбы с этим явлением была изменена спецификация модели. В новой логарифмической модели проблема гетероскедастичости по результатам теста Уайта устранилась, соответственно можно сделать вывод о том, что изменение спецификации модели может служить хорошим методом для устранения гетероскедастичности. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Список  использованных источников

  1. Магнус  Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2000.
  2. Катышев П.К., Пересецкий А.А. Сборник задач по начальному курсу эконометрики. — М.: Дело, 1999.
  3. Бородич С.А. Эконометика. – Мн., Новое знание, 2004
  4. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. проф. Н.Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2002. - 311 с.
  5. Твоя столица - [Электронный ресурс]. - Режим доступа: www.t-s.by

Приложение

Таблица №1: Данные, используемые в работе 

Price distc obrdistc totsq Livsq Kitsq dopsq floor totfloor bal tel year
55000 6307 0,000159 30 17 6 5 0 5 0 1 23
56000 18385 5,44E-05 31 16 6,8 1 0 5 1 0 17
57000 7131 0,00014 34 20 5,3 4 1 5 1 1 13
59500 14118 7,08E-05 34 17 7,1 1 0 9 1 1 2
60000 3822 0,000262 30 20 5,3 3 1 5 1 0 20
61000 5813 0,000172 32 19 5,7 4 0 4 1 1 40
61000 9367 0,000107 34 17 7,2 2 1 9 1 0 13
62000 6611 0,000151 34 17 7,1 3 0 9 1 1 17
62000 7374 0,000136 35 18 7,6 5 1 5 1 0 11
63000 7584 0,000132 33 17 7,6 1 1 9 1 1 1
63000 5608 0,000178 31 16 5,7 1 0 5 1 0 20
63000 14073 7,11E-05 34 18 9,2 10 0 10 1 1 27
64000 5341 0,000187 33 17 7 6 0 9 1 1 18
64000 7181 0,000139 33 17 7,1 6 0 9 1 1 18
65000 4309 0,000232 34 18 7 2 1 9 1 1 33
65800 6667 0,00015 35 18 7,4 3 1 5 1 0 5
66000 3776 0,000265 31 18 5,1 7,9 1 4 1 1 17
66000 5936 0,000168 33 17 7,5 8,5 1 9 1 1 10
67000 11172 8,95E-05 29 18 5,8 5,2 0 5 1 1 0
67000 11203 8,93E-05 34 18 9,3 6,7 0 9 0 1 33
67800 4566 0,000219 40,3 28 5,8 6,5 0 2 0 1 40
71000 4623 0,000216 37 27 5 5 1 3 0 1 1
72000 11232 8,9E-05 40,37 23,8 6,4 10,17 1 5 1 1 40
74000 3230 0,00031 45,5 29 6,2 10,3 0 4 0 1 22
76000 6598 0,000152 44 31 5,8 7,2 0 5 1 1 47
76000 5924 0,000169 45,7 30,6 5,7 9,4 1 5 1 1 43
80000 5560 0,00018 45 30 6 9 1 5 1 1 45
83000 6970 0,000143 44 28,7 6,1 9,2 1 5 1 1 2
83000 8524 0,000117 46,5 27,5 7,1 11,9 1 9 1 1 33
85000 6404 0,000156 43,5 31,8 5,8 5,9 1 4 1 1 23
88000 9170 0,000109 49 28,2 8 12,8 1 9 1 1 20
88000 9139 0,000109 48,8 30,37 6,1 12,33 1 5 1 1 41
88000 2361 0,000424 47,7 30,6 5,8 11,3 1 5 1 1 40
90000 11209 8,92E-05 46,7 28,3 7,1 11,3 0 9 1 1 13
93000 3095 0,000323 44 28 6 10 1 5 1 1 45
93000 7569 0,000132 49 34 6 9 0 5 1 1 39
93500 11784 8,49E-05 51 29 9,2 12,8 1 9 1 1 17
95000 8094 0,000124 67,1 43,8 8,5 14,8 1 9 1 1 20
98000 10854 9,21E-05 50,3 23,2 9,6 17,5 1 12 1 1 10
99000 11867 8,43E-05 58 36 8,3 13,7 0 5 1 1 27
104000 12306 8,13E-05 63,2 43,5 7,1 12,6 0 9 1 1 12
104500 10741 9,31E-05 67,5 46 7,4 14,1 1 9 1 1 2
107000 6798 0,000147 65,1 39,7 8,54 16,86 0 12 1 1 27
107000 12267 8,15E-05 64 44 7,2 12,8 0 9 1 1 14
111000 9178 0,000109 55 29 10,4 15,6 1 9 1 0 1
113000 8155 0,000123 61,6 32,7 11,1 17,8 1 8 1 0 1
122000 9810 0,000102 64,8 38,3 8,8 17,7 1 12 1 1 17
122000 6371 0,000157 63 43 7,5 12,5 1 9 1 1 13
123000 10631 9,41E-05 80 47 19,5 13,5 0 9 1 0 2
123000 5346 0,000187 63 43 7,2 12,8 1 9 1 1 2
125000 7349 0,000136 68,5 31,1 12,5 24,9 1 19 1 0 1
125000 7116 0,000141 72 43,5 9,3 19,2 1 9 1 1 11
138000 3267 0,000306 64,3 42,5 9 12,8 0 5 1 1 26
145000 4998 0,0002 62,9 37,1 8,9 16,9 1 12 1 1 23
147000 5647 0,000177 63,9 37,1 9,8 17 1 6 1 1 15
150000 10746 9,31E-05 73,5 45,3 7,8 20,4 0 18 1 1 12
165000 6355 0,000157 67,5 47,8 7 12,7 0 9 1 1 34
183600 4770 0,00021 90,5 50,8 12,2 27,5 1 9 1 0 1
189000 8685 0,000115 66 39 9,4 17,6 1 12 1 1 18
333000 1800 0,000556 114,6 66 18,5 30,1 1 16 1 1 1
Методы коррекции гетероскедастичности случайных отклонений, тестирование гетероскедастичности в скорректированной модели с помощью тес