Анализ регрессионной модели на наличие гетероскедастичности с помощью тестов Бреуша-Пагана и Парка
МИНИСТЕРСТВО
ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ
Курсовая работа
Анализ
регрессионной модели
на наличие гетероскедастичности
с помощью тестов Бреуша-Пагана
и Парка
Минск, 2010
Содержание
Введение
Глава 1. Теоретическое обоснование модели и её анализа
1.1 Экономическое обоснование модели
1.2 Гетероскедастичность: теория
Глава 2. Построение регрессионной модели и её анализ на проблему гетероскедастичности
Заключение
Список использованных источников
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Введение
В данной работе будет построена регрессионная модель, которая основана на реальных статистических данных. Среди основных задач выделяются:
- построение графика показателей и их интепритация;
- запись математической формулы модели, оценка параметров с помощью МНК;
- интепритация статистической характеристики модели;
-
исследование на
- проверка остатков модели на автокорреляцию.
Статистические данные использованных в работе показателей были взяты из Системы Национальных Счетов Российской Федерации. Это поквартальные данные с первого квартала 1999 года по 3-ой квартал 2009 года включительно.
Целью данной работы является доказательство существования определённой зависимости между экономическими показателями, а также более глубокое изучение проблемы гетероскедастичности в регрессионной модели.
Глава 1. Теоретическое обоснование модели и её анализа
1.1 Экономическое обоснование модели
Для построения регрессионной модели были выбраны следующие экономические показатели:
- Х1 – переменная определяется как разность экспорта и импорта страны, и в экономической среде получила название чистого экспорта (E).
- Х2 - расходы на конечное потребление товаров и услуг (С) - показатель, который включает в себя расходы домашних хозяйств, расходов государственного управления, некоммерческих организаций, обслуживающих домашние хозяйства;
- Х3 – валовое накопление (I) – включает в себя валовое накопление основного капитала (включая чистое приобретение ценностей) и изменение запасов материальных оборотных средств.
- Y – валовый внутренний продукт (GDP) – ВВП.
Согласно методу конечного использования ВВП определяется как сумма следующих компонентов: 1) расходы на конечное потребление товаров и услуг; 2) валовое накопление; 3) сальдо экспорта и импорта товаров и услуг.
GDP = C + I + E,
где: GDP – валовой внутренний продукт;
C – конечное потребление; I –
инвестиции (валовое накопление
основных фонов, прирост
Зависимость принимает следующий вид:
Y
= Х1 + Х2 + Х3 (1)
В
данной работе зависимость (1) будет использоваться
для построения модели с анализом на гетероскедастичность.
1.2 Гетероскедастичность: теория
В этом разделе мы рассмотрим частный случай обобщенной регрессионной модели, а именно, модель с гетероскедастичностью.
Это означает, что ошибки некоррелированы, но имеют непостоянные дисперсии. (Классическая модель с постоянными дисперсиями ошибок называется гомоскедастичной.) Гетероскедастичность довольно часто возникает, если анализируемые объекты, говоря нестрого, неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов, скажем, от размера основного фонда, то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых.
Часто обобщенный метод наименьших квадратов для системы с гетероскедастичностыо называют методом взвешенных наименьших квадратов. Можно непосредственно проверить, что применение метода взвешенных наименьших квадратов приводит к уменьшению дисперсий оценок по сравнению с обычным методом наименьших квадратов.
Коррекция на гетероскедастичность
Если числа σ2 неизвестны (что, как правило, и бывает на практике), необходимо использовать доступный обобщенный метод наименьших квадратов, который требует оценивания дисперсий σ2t .
Так как число этих параметров равно n, то без дополнительных ограничений на структуру матрицы Ώ пет надежды получить приемлемые оценки дисперсий. Ниже мы рассмотрим несколько классов моделей с гетероскедастичностью, где такие ограничения накладываются и благодаря этому удается построить удовлетворительные оценки матрицы Ώ а следовательно, используя доступный обобщенный метод наименьших квадратов, и оценку βFGLS.
1. Стандартное отклонение ошибки пропорционально независимой переменной. В некоторых ситуациях априорно можно считать, что стандартное отклонение ошибки прямо пропорционально одной из независимых переменных, например, Хк : σt2 = σ2 x2tk.
Тогда, разделив t-e уравнение на xtk, t= 1,... ,n, и вводя новые независимые переменные х*tj- = xtj/xtk и новую зависимую переменную yt* = yt/xtk, t = 1,..., n, j = 1,..., к, получим классическую регрессионную модель. МНК-оценки коэффициентов этой модели дают непосредственно оценки исходной модели. Следует только помнить, что если первый регрессор в X есть набор единиц, то оценки свободного члена и коэффициента при х^ = 1/xtk в новой модели являются оценками соответственно коэффициента при xtk и свободного члена в исходной модели.
Возникает естественный вопрос, при каких обстоятельствах можно пользоваться описанным выше методом.
Если есть предположение о зависимости ошибок от одной из независимых переменных, то целесообразно расположить наблюдения в порядке возрастания значений этой переменной, а затем провести обычную регрессию и получить остатки. Если размах их колебаний тоже возрастает (это хорошо заметно при обычном визуальном исследовании), то это говорит в пользу исходного предположения. Тогда надо сделать описанное выше преобразование, вновь провести регрессию и исследовать остатки. Если теперь их колебание имеет неупорядоченный характер, то это может служить показателем того, что коррекция на гетероскедастичность прошла успешно. Естественно, следует сравнивать и другие параметры регрессии (значимость оценок, сумму квадратов отклонений и т. п.) и только тогда принимать окончательное решение, какая из моделей более приемлема.
Тест Бреуша-Пагана (Breusch-Pagan).
Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии σ2t зависят от некоторых дополнительных переменных:
σ2t = γo + γzt'. t= 1,...,n,
где Zt = (zt1,..., ztp) '— вектор (наблюдаемых) независимых переменных, γo, γzt = (γ1…γр)' — неизвестные параметры. В соответствии с тестом Бреуша-Пагана следует действовать так:
1) провести обычную регрессию и получить вектор остатков е = (e1,... ,еn)';
2) построить оценку ^σ2 = (1/n) ;
3) провести регрессию = γo+ zt / γ + υt и найти для нее объясненную часть вариации RSS;
4) построить статистику RSS/2. В работе (Breusch, Pagan,1979) установлено, что если верна гипотеза Но (отсутствие гетероскедастичности), то величина RSS/2 асимптотически имеет распределение χ2(р).
При выявлении гетероскедастичности с помощью этого теста можно попытаться осуществить коррекцию с помощью метода взвешенных наименьших квадратов, выбирая в качестве весов величины ( o+ zt / )-1/2 где ( o, — оценки, полученные в п.З).
При этом может оказаться, что ( o+ zt / ) < О для некоторых t. Если число таких наблюдений невелико, то их можно просто выбросить. В противном случае можно попытаться использовать мультипликативную форму гетероскедастичности: t=l,...,n.
σ2t = ?, t=l,...,n.
Процедура теста Бреуша-Пагана тогда выглядит совершенно аналогично изложенной выше в п.З). Точно так же можно действовать для произвольной формы гетероскедастичности
σ2t = (γ0+zt’γ)
Выводы:
1)
применение обобщенного метода
наименьших квадратов при наличии
гетероскедастичности сводится к минимизации
суммы взвешенных квадратов отклонений;
2)
использование доступного обобщенного
метода наименьших квадратов
в общем случае требует оценивания
n параметров по n наблюдениям, что
не позволяет получать состоятельные
оценки;
3)
в некоторых ситуациях (ошибка
пропорциональна одной из независимых
переменных, дисперсии ошибок принимают
два значения) можно применять
доступный обобщенный метод наименьших
квадратов и получать состоятельные
оценки коэффициентов регрессии;
4)
если в модели с гетероскедастичностью
использовать обычный метод наименьших
квадратов, то для получения состоятельной
оценки соответствующей матрицы ковариаций
можно применять оценки ошибок в форме
Уайта или Ньюи- Веста.
Тест Парка
Здесь предполагается, что дисперсии связаны
с фактором пропорциональности Z в виде:
Т.к. дисперсии неизвестны, то их заменяют
оценками
квадратов отклонений ei2.
1. Строится уравнение регрессии:
и
вычисляются остатки
2.
Выбирается фактор
оценивают вспомогательное уравнение регрессии:
3.
Проверяют значимость
Глава
2. Построение регрессионной
модели и ее анализ
на проблему гетероскедастичности
Поскольку в данной работе при построении уравнения регрессии будут использоваться временные ряды, то перед построением модели следует проверить ряды на стационарность.
Как видно из Рис.1 Приложения 1 все ряды исследуемых показателей не имеют постоянного математического ожидания, но имеют восходящий линейный тренд, из чего возможно сделать предварительный вывод о том, что ряды будут стационарными относительного тренда.
ВВП имеет дело с волнообразностью деловой активности и ряды IG и GDP имеют чётко видную сезонность, что видно на Рисунке 1 Приложения.
Имеем:
- ряды нестационарны в уровнях, но стационарны в первых разностях;
- по имеющимся данным можно строить модель множественной классической линейной регрессии.
Строим
уравнение регрессии:
Модель 1: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)
Зависимая
переменная: Y__
| Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
| const | -6,13203 | 24,4276 | -0,2510 | 0,80311 | |
| X1__ | 0,980562 | 0,0651078 | 15,0606 | <0,00001 | *** |
| X2___ | 1,01482 | 0,0117572 | 86,3143 | <0,00001 | *** |
| X3__ | 0,982136 | 0,0290587 | 33,7984 | <0,00001 | *** |
| Среднее зав. перемен | 4972,126 | Ст. откл. зав. перемен | 3133,642 | |
| Сумма кв. остатков | 186106,2 | Ст. ошибка модели | 69,07933 | |
| R-квадрат | 0,999549 | Испр. R-квадрат | 0,999514 | |
| F(3, 39) | 28796,16 | Р-значение (F) | 2,93e-65 | |
| Лог. правдоподобие | -241,0311 | Крит. Акаике | 490,0622 | |
| Крит. Шварца | 497,1070 | Крит. Хеннана-Куинна | 492,6601 | |
| Параметр rho | -0,120124 | Стат. Дарбина-Вотсона | 1,929132 |
После
округления оно будет иметь следующий
вид:
Y=-6.13+
0,98*X1+1,01*
X2+0,98*X3
(3)
Как видно из таблицы, все объясняющие переменные статистически значимы, а высокий коэффициент детерминации говорит о высоком качестве этой модели. Высокие значения имеют t-статистики, соответственно все объясняющие переменные данной модели значимы. Верны и коэффициенты при переменных, то есть они имеют верный знак и значение близкое к теоретическому уравнению (1). В нашем случае а<0, что говорит о том, что относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора – коэффициент вариации по фактору Х выше коэффициента вариации для результата у.
С(1) статистически незначим, что можно проинтерпретировать таким образом, что модель наиболее приближена к исходному теоретическому уравнению (1).
Анализ данного уравнения позволяет сделать вывод – с возрастанием чистого экспорта на единицу ВВП возрастет на 0,98 единицы, расходов на конечное потребление на 1 единицу повысит ВВП на 1,01 единиц, а увеличение валового накопления – на 0,98 единиц.
Прежде чем делать выводы о качестве и адекватности, следует проверить построенную модель на автокорреляцию и гетероскедастичность. В качестве предварительного анализа на проблему автокорреляции легко заметить, что значение статистики Дарбина-Уотсона находится в области отсутствия автокорреляции (d1=1,3663, du=1,6632).
Проверим модель на автокорреляцию графическим методом (приложение 4).
Существует
несколько вариантов
В
современных эконометрических пакетах
аналитическое выражение
Сопоставив
эти графики, можно выдвинуть
гипотезу об отсутствии автокорреляции
остатков, так как эти графики
часто пересекаются или совпадают.
Из всего вышесказанного можно сделать следующие выводы:
-
модель не имеет проблем
-
предварительный анализ по
На проблему гетероскедастичности исследуем модель при помощи теста Бреуша-Пэгана (Breusch-Pagan) :
Тест Бриша-Пэгана (Breusch-Pagan) на гетероскедастичность
МНК, использованы наблюдения 1999:1-2009:3 (T = 43)
Зависимая переменная:
масштабированное uhat^2
Коэффициент Ст. ошибка t-статистика P-значение
------------------------------
const 0,00189556 0,650096 0,002916 0,9977
X1__ -0,00149471 0,00173273 -0,8626 0,3936
X2___ 0,000250845 0,000312898 0,8017 0,4276
X3__
0,000901121 0,000773346 1,165
0,2510
Объясненная
сумма квадратов = 38,944
Тестовая статистика: LM = 19,471975,
р-значение = P(Хи-квадрат(3)
> 19,471975) = 0,000218
Нулевая гипотеза: гетероскедастичность отсутствует.
Тест
Парка.
Критерий Парка включает следующие этапы:
- Строится уравнение регрессии у=b0 + b1x1+e.
- Для каждого наблюдения определяются lni2=ln(yi-)2
- Строится регрессия ln еi2 = α + βlnxi + vi , (2) где α = lnσ2. Так как регрессия множественная, то зависимость строится для каждой объясняющей переменной
Проверяется статистическая
значимость коэффициента β уравнения
(2) на основе t-статистики t=в/Sв. Если
коэффициент β статистически значим, то
это означает наличие связи между ln ei2
и ln xi, т. е. гетероскедастичности
в статистических данных.
Модель 6: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)
Зависимая
переменная: l_usq1
| Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
| const | -15,4914 | 3,94563 | -3,9262 | 0,00032 | *** |
| l_X1__ | 3,52834 | 0,638295 | 5,5277 | <0,00001 | *** |
| Среднее зав. перемен | 6,238278 | Ст. откл. зав. перемен | 2,903703 | |
| Сумма кв. остатков | 202,9044 | Ст. ошибка модели | 2,224609 | |
| R-квадрат | 0,427022 | Испр. R-квадрат | 0,413047 | |
| F(1, 41) | 30,55599 | Р-значение (F) | 2,03e-06 | |
| Лог. правдоподобие | -94,37235 | Крит. Акаике | 192,7447 | |
| Крит. Шварца | 196,2671 | Крит. Хеннана-Куинна | 194,0437 | |
| Параметр rho | 0,182527 | Стат. Дарбина-Вотсона | 1,591751 |
Модель 7: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)
Зависимая
переменная: l_usq1
| Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
| const | -15,8827 | 3,7444 | -4,2417 | 0,00012 | *** |
| l_X2___ | 2,80248 | 0,472541 | 5,9307 | <0,00001 | *** |
| Среднее зав. перемен | 6,238278 | Ст. откл. зав. перемен | 2,903703 | |
| Сумма кв. остатков | 190,6062 | Ст. ошибка модели | 2,156138 | |
| R-квадрат | 0,461751 | Испр. R-квадрат | 0,448623 | |
| F(1, 41) | 35,17287 | Р-значение (F) | 5,43e-07 | |
| Лог. правдоподобие | -93,02806 | Крит. Акаике | 190,0561 | |
| Крит. Шварца | 193,5785 | Крит. Хеннана-Куинна | 191,3551 | |
| Параметр rho | 0,185897 | Стат. Дарбина-Вотсона | 1,566146 |
Модель 8: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)
Зависимая
переменная: l_usq1
| Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
| const | -9,63737 | 2,36613 | -4,0730 | 0,00021 | *** |
| l_X3__ | 2,388 | 0,352883 | 6,7671 | <0,00001 | *** |
| Среднее зав. перемен | 6,238278 | Ст. откл. зав. перемен | 2,903703 | |
| Сумма кв. остатков | 167,2814 | Ст. ошибка модели | 2,019910 | |
| R-квадрат | 0,527617 | Испр. R-квадрат | 0,516096 | |
| F(1, 41) | 45,79400 | Р-значение (F) | 3,52e-08 | |
| Лог. правдоподобие | -90,22162 | Крит. Акаике | 184,4432 | |
| Крит. Шварца | 187,9656 | Крит. Хеннана-Куинна | 185,7422 | |
| Параметр rho | 0,176677 | Стат. Дарбина-Вотсона | 1,624706 |

- Анализ режима труда и отдыха на предприятии «Айсберри»
- Анализ режима труда и отдыха работников на предприятии МУП «Зеленстрой»
- Анализ режимов колебаний решета
- Анализ режимов работы длинной линии
- Анализ резервов повышения прибыли предприятия
- Анализ резервов снижения себестоимости выпускаемой продукции
- Анализ резервов улучшения использования персонала на предприятии
- Анализ регионального рынка туристических услуг
- Анализ регионального управления на примере Калининградской области
- Анализ региональной экономической политики в Ростовской области
- Анализ региональных особенностей деятельности туристских фирм (на примере Санкт-Петербурга)
- Анализ региональных условий внешнеэкономической деятельности
- Анализ региональных фармакологических особенностей гликопептидных антибиотиков и монобактамов
- Анализ регрессии в изучении экономических проблем