Тестирование адекватности модели линейной регрессии согласно общей схеме (включая тестирование случайных отклонений на наличие нормаль



БЕЛОРУСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

 

 

ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ

 

КАФЕДРА ЭКОНОМИЧЕСКОЙ ИНФОРМАТИКИ И МАТЕМАТИЧЕСКОЙ ЭКОНОМИКИ

 

 

Курсовая работа на тему:

Тестирование адекватности модели линейной регрессии согласно общей схеме (включая тестирование случайных отклонений на наличие нормального распределения, отсутствие автокорреляции, гомоскедастичность с помощью хотя бы одного теста или статистики для каждой из предпосылок МНК)

 

 

 

 

 

Выполнил: студент 3 курса

группы Э-1 Акопян Арутюн

                                                                                               Научный руководитель:

                                                                                     Петлицкий А.И

 

                                                           Минск 2011
                                                         Содержание

 

                                                                                       стр.

Введение и теоретическое обоснование модели…………………………              3

Теоретический раздел……………………………………………………..              5

Критерий Дарбина- Уотсона………………………………………………              6

Метод наименьших квадратов (МНК)…………………………………….7

Нормальное паспределение……………………………………………….              8

Построение эконометрической модели…………………………………10

Заключение………………………………………………………………..17

Список использованных источников……………………………………18

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение и теоретическое обоснование модели

 

В данном курсовом проекте будет построена и проанализирована модель зависимости внутреннего валового продукта (GDP) Российской Федерации за 2004-2010 годы в зависимости от обменного курса (Exchange_rate), чистого экспорта (NX) и уровня безработицы (Unemp)  (Приложение 1).

Целью данной работы является построение эконометрической модели и ее дальнейший анализ. Так же в работе были поставлены такие задачи как:

      тестирование случайных отклонений модели на наличие нормального распределения

      проверка модели на отсутствие автокорелляции с помощью критерия Дарбина - Уотсона;

      проверка эконометрической модели на наличие в ней гомоскедастичности с помощью теста Вайта

Все расчеты и построения моделей будут проводиться в программе Eviews и с помощью программного обеспечения MS Office Excel 2007.

В работе в качестве зависимой переменной рассматривается валовой внутренний продукт. Валовой внутренний продукт (ВВП, англ. GDP) — общая рыночная стоимость всех конечных товаров и услуг, произведённых за год во всех отраслях экономики на территории государства для потребления, экспорта и накопления, вне зависимости от национальной принадлежности использованных факторов производства.

Независимыми переменными являются обменный курс, чистый экспорт и количество безработных.

Обменный курс – цена  денежной единицы одной страны, выраженная в денежной единице другой страны, драгоценных металлах, ценных бумагах.

Чистый экспорт – разность стоимости экспорта и импорта.

Уровень безработицы – незанятость экономически активного населения в хозяйственной деятельности; процент безработных от общего количества гражданской рабочей силы.

Исходя из экономической теории валовой внутренний продукт прямо пропорционально зависит от объема чистого экспорта, ( чем больше чистый экспорт, тем выше будет в стране внутренний валовой продукт и наоборот), который, в свою очередь, обратно зависит от обменного курса. Если курс национальной валюты дорожает, следствием из этого является удешевление импорта, экспорт дорожает, следовательно, чистый экспорт уменьшается и валовой внутренний продукт уменьшается.

На данный момент можно предположить, что зависимость ВВП от обменного курса будет не очень сильной. Насколько сильное влияние напрямую обменный курс оказывает на валовой внутренний продукт, мы сможем узнать только после проведенного нами исследования.

Зависимость между уровнем безработицы и ВВП описывает закон Оукена. Данный закон предполагает, что если фактический уровень безработицы выше естественного на 1%, то фактический объем производства будет ниже потенциального на 3%. Это обусловлен приростом населения, накоплением капитала и научно-техническим прогрессом.

Высокий уровень безработицы оказывает очень сильное влияние на экономику и в том числе на ВВП, основной ущерб от чрезмерно высокой безработицы – это невыпущенная продукция, или недопроизводство. Когда экономика страны не в состоянии создать достаточное количество рабочих мест для всех, кто способен и готов работать, потенциальное производство товаров и услуг теряется безвозвратно.

В модели, которая будет представлена ниже, мы можем предположить что, показатель уровня безработицы будет оказывать наибольшее влияние на величину ВВП, причём это влияние будет обратно пропорциональным.

Построение и анализ предполагаемой модели покажет, насколько верны все вышеизложенные              утверждения.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                               Теоретический раздел

 

 

                                             Автокорреляция

 

 

 

              Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные данные). Автокорреляция остатков(отклонения) обычно встречается в регрессионном анализе при использовании данных временных рядов.                                               

        Среди основных причин, вызывающих появление автокорреляции, можно выделить:

      ошибки спецификации

      инерцию в изменении экономических показателей

      эффект паутины

      сглаживание данных

 

           Последствия автокорреляции в определенной степени сходны с последствиями гетероскедастичности. Среди них при примени МНК обычно выделяются следующие:

      Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно они перестают обладать свойствами наилучших линейных несмещенных оценок (blue-оценок)

      Дисперсии оценок являются смещенными. Часто дисперсии, вычисляемые по стандартным формулам , являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут и не являться.

      Выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

 

Критерий Дарбина- Уотсона

 

              Критерий Дарбина-Уотсона (или DW-критерий) — статистический критерий, используемый для нахождения автокорреляции первого порядка элементов исследуемой последовательности. Наиболее часто применяется при анализе временных рядов и остатков регрессионных моделей. Критерий назван в честь Джеймса Дарбина и Джеффри Уотсона. Критерий Дарбина-Уотсона рассчитывается по следующей формуле:

 

 

где ρ1 — коэффициент автокорреляции первого порядка.

              В случае отсутствия автокорреляции d = 2, при положительной автокорреляции d стремится к нулю, а при отрицательной - к 4:

              На практике применение критерия Дарбина—Уотсона основано на сравнении величины d с теоретическими значениями dL и dU для заданных числа наблюдений n, числа независимых переменных модели k и уровня значимости α.

 

1.      Если 0 <DW < dL, то гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция);

2.      Если dL<DW> dU, то гипотеза не отвергается;

3.      Если dL < DW < dU, то нет достаточных оснований для принятия решений.

 

Когда расчетное значение DW превышает 2, то с dL и dU сравнивается не сам коэффициент DW, а выражение (4 − d).

              Также с помощью данного критерия выявляют наличие коинтеграции между двумя временными рядами. В этом случае проверяют гипотезу о том, что фактическое значение критерия равно нулю. С помощью метода Монте-Карло были получены критические значения для заданных уровней значимости. В случае, если фактическое значение критерия Дарбина—Уотсона превышает критическое, то нулевую гипотезу об отсутствии коинтеграции отвергают.

 

                                  Метод наименьших квадратов (МНК)

 

В основе метода наименьших квадратов лежит стремление исследователя подобрать такие оценки К0,К1….Кр   для неизвестных значений параметров функции регрессии соответственно Х0 , Х1….Хр   при которых сглаженные      (регрессионные) значения  К0 + К1Хi(1) +…+ КpXi(p) результирующего показателя как можно меньше отличались бы от соответствующих наблюдений значений  yi.. Другими словами суть данного метода состоит в минимизации суммы квадратов отклонений  наблюдаемых значений зависимой переменной У от ее значений У, получаемых по уравнению регрессии.

  Предпосылки МНК ( условия Гаусса-Маркова):

      Математическое ожидание случайного отклонения равно нулю:                   М (еi)=0 для всех наблюдений.

          Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения.

      Дисперсия случайных отклонений еi постоянна (гомоскедастичность).

М (еi2)=δ2

Данное условие подразумевает, что несмотря на то что при каждом конкретном наблюдении случайное отклонение может быть либо большим, либо меньшим, не должно быть некой априорной причины, вызывающей большую ошибку (отклонение). Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений).Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).

      Случайные отклонения еi и ej являются независимыми друг от друга. (Отсутствие автокорреляции)

   Выполнимость данной предпосылки предполагает, что отсутствует систематическая связь между любыми случайными отклонениями. Другими словами, величина и определенный знак любого случайного отклонения не должны быть причинами величины и знака любого другого отклонения.                    

       Выполнимость данной предпосылки влечет следующее соотношение:

δ еi ej = cov (еi ej) =               0,     если  i≠j

              δ2 ,   если  i=j

 

      Случайное  отклонение должно быть независимо от объясняющих переменных.

       Обычно это условие выполняется автоматически, если объясняющие переменные не являются случайными в данной модели. Следует отметить, что выполнимость данной предпосылки не столь критична для экономических моделей.

      Модель является линейной относительно параметров

             

                                 Нормальное распределение

 

     Нормальное распределение (распределение Гаусса) является предельным случаем почти всех реальных распределений вероятности. Поэтому оно используется в очень большом числе реальных приложений теории вероятностей. Говорят, что СВ Х имеет нормальное распределение, если ее плотность вероятности имеет вид:       

                             

СВ, имеющая нормальное распределение, называется нормально распределенной или нормальной.             

              Нормальное распределение зависит от 4-х параметров – среднего значения (математического ожидания), которое определяет расположения «пика» (моды) распределения, т.е. наиболее вероятного значения величины, дисперсии, которая характерезует степень разброса значений величины относительно среднего, а также коэффициентов асимметрии и эксцесса, задающих форму распределения (симметричность относительно среднего и остроту его пика, соответственно). Типичные формы нормального распределения для различных средних и дисперсии представлены на рисунке.

    

                   

 

Смысл нормального распределения становится понятен из его формы. Наиболее вероятные значения случайной величины расположены вблизи его пика (среднего). По мере удаления от него, вероятность значений уменьшается и если значение расположено в «хвосте» распределения, то оно очень маловероятно.

 

 

 

                             

 

                        Построение эконометрической модели

 

В этом разделе курсовой работы построю и проанализирую эконометрическую модель.

В качестве зависимой переменной рассматривается валовой внутренний продукт. Это наше У.

Х1 - NX(Чистый экспорт)

Х2 - Exchange rate (Обменный курс)

Х3  - Unempl (Уровень безработицы)

 

      Все расчеты и построения моделей будут проводиться в программе Eviews 3.1  Начальным этапом является ввод данных. Затем нужно проверить переменные на стационарность. 

ADF Test Statistic

-3.130529

    1%   Critical Value*

-3.7667

 

 

    5%   Critical Value

-3.0038

 

 

    10% Critical Value

-2.6417

*MacKinnon critical values for rejection of hypothesis of a unit root.

Х1:
 

ADF Test Statistic

-3.517001

    1%   Critical Value*

-2.6819

 

 

    5%   Critical Value

-1.9583

 

 

    10% Critical Value

-1.6242

*MacKinnon critical values for rejection of hypothesis of a unit root.

Х2:             
 

 

ADF Test Statistic

-3.025917

    1%   Critical Value*

-2.6819

 

 

    5%   Critical Value

-1.9583

 

 

    10% Critical Value

-1.6242

*MacKinnon critical values for rejection of hypothesis of a unit root.

Х3:     

 

 

 

Получили следующие данные:

Х1 стационарен по константе в 1ой разности;

Х2 стационарен по константе во второй разности;

Х3 стационарен по none во второй разности;

У  стационарен по константе в первой разности;

 

 

 

 

 

Следующим этапом работы является тестирование случайных отклонений модели на наличие нормального распределения.

 

Нормальное распределение Х1

 

 

                                   Нормальное распределение Х2

 

 

 

 

Нормальное распределение Х3

 

 

Данное окно содержит:

                       Mean - среднее значение.

                       Median - медиана. В случае симметричного модального распределения медиана совпадает со средним значением.

                       Maximum, Minimum - минимальное и максимальное значения ряда.

                       Std. Dev. - стандартное среднеквадратическое отклонение. Используется для характеристики степени рассеивания случайной величины.

                       Skewness - асимметрия. Для симметричного распределения, в частности для нормального распределения, асимметрия равна нулю.

                       Kurtosis – эксцесс

                       Статистика Jarque-Bera - используется для проверки гипотезы о нормальности распределения исследуемого ряда. Статистика основана на проверке того, насколько отличается эксцесс и асимметрия ряда от соответствующих характеристик нормального распределения.

Нулевая гипотеза:              распределение не отличается от нормального.   Альтернативная гипотеза: распределение существенно отличается от нормального.

      Probability - это вероятность того, что статистика Jarque-Bera превышает (по абсолютному значению) наблюдаемое значение для нулевой гипотезы.

      Observations – количество проведенных наблюдений

 

Чтобы определить нормальность распределения остатков воспользуемся статистикой Jarque-Bera, которая используется для проверки гипотезы о нормальности распределения исследуемого ряда.

Н0: распределение не отличается от нормального.

Н1: распределение существенно отличается от нормального.

Вероятность Probability - это вероятность того, что статистика Jarque-Bera превышает (по абсолютному значению) наблюдаемое значение для нулевой гипотезы.

В данной модели статистика Jarque-Bera больше 0,05.Следовательно можно говорить о нормальном распределении

 

Далее нужно проверить данную регрессионную модель на отсутствие автокорреляции. Все вычисления по-прежнему делаем в программе Eviews.

Программа выдает таблицу:

 

Dependent Variable: Y

Method: Least Squares

Date: 12/08/11   Time: 16:08

Sample: 2004:1 2010:4

Included observations: 28

Variable

Coefficient

Std. Error

t-Statistic

Prob. 

X1

0.116366

0.047904

2.429165

0.0230

X2

-43091.84

12962.20

-3.324423

0.0028

X3

11889.59

4403.561

2.699994

0.0125

C

63653.21

152861.6

0.416411

0.0808

R-squared

0.561023

    Mean dependent var

183669.7

Adjusted R-squared

0.506151

    S.D. dependent var

65251.18

S.E. of regression

45854.88

    Akaike info criterion

24.43591

Sum squared resid

5.05E+10

    Schwarz criterion

24.62623

Log likelihood

-338.1028

    F-statistic

10.22419

Durbin-Watson stat

1.030176

    Prob(F-statistic)

0.000159

 

 

 

 

 

 

Смотрим на статистику Durbin-Watson. Данный показатель меньше 1,5 следовательно автокорреляция случайных отклонений модели отсутствует. Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

 

Еще одной задачей, которая ставилась перед нами, была проверка модели на наличие гомоскедастичности. Для этого можно воспользоваться тестом Вайта. Итак, проведем данный тест для нашей модели: View/Residual Tests/White Heteroskedasticity. Здесь имеются две версии теста: Cross Terms и No Cross Terms. Cross Terms представляет собой описанную выше оригинальную версию теста Уайта. No Cross Terms отличается тем, что из квадратичной модели регрессии для дисперсии остатков исключаются слагаемые – произведения факторов (a7x1x2i, a8x1x3i, a9x2x3i). Это полезно, если в модель входит большое число факторов.

 

White Heteroskedasticity Test(сross):

F-statistic

0.786872

    Probability

0.631795

Obs*R-squared

7.905784

    Probability

0.543668

 

 

 

 

 

Test Equation:

Dependent Variable: RESID^2

Method: Least Squares

Date: 12/08/11   Time: 16:17

Sample: 2004:1 2010:4

Included observations: 28

Variable

Coefficient

Std. Error

t-Statistic

Prob. 

C

-2.84E+11

1.81E+11

-1.571585

0.1335

X1

94010.16

87947.57

1.068934

0.2992

X1^2

-0.012646

0.017772

-0.711548

0.4859

X1*X2

-139.8198

7728.348

-0.018092

0.9858

X1*X3

-2556.237

2481.779

-1.030002

0.3167

X2

8.83E+09

2.25E+10

0.392826

0.6991

X2^2

1.06E+09

1.68E+09

0.629231

0.5371

X2*X3

-9.27E+08

7.55E+08

-1.227737

0.2354

X3

1.51E+10

1.16E+10

1.297494

0.2108

X3^2

-98803910

1.39E+08

-0.709549

0.4871

R-squared

0.282349

    Mean dependent var

1.80E+09

Adjusted R-squared

-0.076476

    S.D. dependent var

3.22E+09

S.E. of regression

3.34E+09

    Akaike info criterion

46.97030

Sum squared resid

2.01E+20

    Schwarz criterion

47.44608

Log likelihood

-647.5842

    F-statistic

0.786872

Durbin-Watson stat

2.430354

    Prob(F-statistic)

0.631795

 

 

 

White Heteroskedasticity Test(no cross):

F-statistic

0.859819

    Probability

0.539772

Obs*R-squared

5.522005

    Probability

0.478801

 

 

 

 

 

Test Equation:

Dependent Variable: RESID^2

Method: Least Squares

Date: 12/08/11   Time: 16:18

Sample: 2004:1 2010:4

Included observations: 28

Variable

Coefficient

Std. Error

t-Statistic

Prob. 

C

-5.17E+10

6.77E+10

-0.762517

0.4542

X1

7667.240

18904.30

0.405582

0.6892

X1^2

-0.004552

0.010530

-0.432296

0.6699

X2

3.00E+09

9.49E+09

0.315964

0.7551

X2^2

-2.72E+08

6.49E+08

-0.418344

0.6799

X3

2.53E+09

5.15E+09

0.491810

0.6280

X3^2

-35189960

88807397

-0.396250

0.6959

R-squared

0.197214

    Mean dependent var

1.80E+09

Adjusted R-squared

-0.032153

    S.D. dependent var

3.22E+09

S.E. of regression

3.27E+09

    Akaike info criterion

46.86812

Sum squared resid

2.25E+20

    Schwarz criterion

47.20117

Log likelihood

-649.1536

    F-statistic

0.859819

Durbin-Watson stat

2.021253

    Prob(F-statistic)

0.539772