Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Анализ регрессионной модели на наличие гетероскедастичности с помощью тестов Бреуша-Пагана и Парка

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

Курсовая работа

Анализ регрессионной модели на наличие гетероскедастичности с помощью тестов Бреуша-Пагана и Парка

Минск, 2010

Содержание

Введение

Глава 1. Теоретическое обоснование модели и её анализа

1.1 Экономическое обоснование модели

1.2 Гетероскедастичность: теория

Глава 2. Построение регрессионной модели и её анализ на проблему гетероскедастичности

Заключение

Список использованных источников

Приложение 1

Приложение 2

Приложение 3

Приложение 4

Введение

В данной работе будет построена регрессионная модель, которая основана на реальных статистических данных. Среди основных задач выделяются:

- построение графика показателей и их интепритация;

- запись математической формулы модели, оценка параметров с помощью МНК;

- интепритация статистической характеристики модели;

- исследование на гетероскедастичность остатков с помощью тестов Бреуша-Пагана и Парка;

- проверка остатков модели на автокорреляцию.

Статистические данные использованных в работе показателей были взяты из Системы Национальных Счетов Российской Федерации. Это поквартальные данные с первого квартала 1999 года по 3-ой квартал 2009 года включительно.

Целью данной работы является доказательство существования определённой зависимости между экономическими показателями, а также более глубокое изучение проблемы гетероскедастичности в регрессионной модели.

Глава 1. Теоретическое обоснование модели и её анализа

1.1 Экономическое обоснование модели

Для построения регрессионной модели были выбраны следующие экономические показатели:

- Х1 – переменная определяется как разность экспорта и импорта страны, и в экономической среде получила название чистого экспорта (E).

- Х2 - расходы на конечное потребление товаров и услуг (С) - показатель, который включает в себя расходы домашних хозяйств, расходов государственного управления, некоммерческих организаций, обслуживающих домашние хозяйства;

- Х3 – валовое накопление (I) – включает в себя валовое накопление основного капитала (включая чистое приобретение ценностей) и изменение запасов материальных оборотных средств.

- Y – валовый внутренний продукт (GDP) – ВВП.

Согласно методу конечного использования ВВП определяется как сумма следующих компонентов: 1) расходы на конечное потребление товаров и услуг; 2) валовое накопление; 3) сальдо экспорта и импорта товаров и услуг.

GDP = C + I + E,

где: GDP – валовой внутренний продукт; C – конечное потребление; I – инвестиции (валовое накопление основных фонов, прирост запасов материальных оборотных средств, чистое приобретение ценностей); E – чистый экспорт.

Зависимость принимает следующий вид:

_{Y
= Х1 + Х2 + Х3 (1)}

В данной работе зависимость (1) будет использоваться для построения модели с анализом на гетероскедастичность.

1.2 Гетероскедастичность: теория

В этом разделе мы рассмотрим частный случай обобщенной регрессионной модели, а именно, модель с гетероскедастичностью.

Это означает, что ошибки некоррелированы, но имеют непостоянные дисперсии. (Классическая модель с постоянными дисперсиями ошибок называется гомоскедастичной.) Гетероскедастичность довольно часто возникает, если анализируемые объекты, говоря нестрого, неоднородны. Например, если исследуется зависимость прибыли предприятия от каких-либо факторов, скажем, от размера основного фонда, то естественно ожидать, что для больших предприятий колебание прибыли будет выше, чем для малых.

Часто обобщенный метод наименьших квадратов для системы с гетероскедастичностыо называют методом взвешенных наименьших квадратов. Можно непосредственно проверить, что применение метода взвешенных наименьших квадратов приводит к уменьшению дисперсий оценок по сравнению с обычным методом наименьших квадратов.

Коррекция на гетероскедастичность

Если числа σ² неизвестны (что, как правило, и бывает на практике), необходимо использовать доступный обобщенный метод наименьших квадратов, который требует оценивания дисперсий σ²_t .

Так как число этих параметров равно n, то без дополнительных ограничений на структуру матрицы Ώ пет надежды получить приемлемые оценки дисперсий. Ниже мы рассмотрим несколько классов моделей с гетероскедастичностью, где такие ограничения накладываются и благодаря этому удается построить удовлетворительные оценки матрицы Ώ а следовательно, используя доступный обобщенный метод наименьших квадратов, и оценку βFGLS.

1. Стандартное отклонение ошибки пропорционально независимой переменной. В некоторых ситуациях априорно можно считать, что стандартное отклонение ошибки прямо пропорционально одной из независимых переменных, например, Х_к: σ_t² = σ²x²_tk.

Тогда, разделив t-e уравнение на x_tk, t= 1,... ,n, и вводя новые независимые переменные х^*_tj- = x_tj/x_tk и новую зависимую переменную y_t* = y_t/x_tk, t = 1,..., n, j = 1,..., к, получим классическую регрессионную модель. МНК-оценки коэффициентов этой модели дают непосредственно оценки исходной модели. Следует только помнить, что если первый регрессор в X есть набор единиц, то оценки свободного члена и коэффициента при х^ = 1/x_tk в новой модели являются оценками соответственно коэффициента при x_tk и свободного члена в исходной модели.

Возникает естественный вопрос, при каких обстоятельствах можно пользоваться описанным выше методом.

Если есть предположение о зависимости ошибок от одной из независимых переменных, то целесообразно расположить наблюдения в порядке возрастания значений этой переменной, а затем провести обычную регрессию и получить остатки. Если размах их колебаний тоже возрастает (это хорошо заметно при обычном визуальном исследовании), то это говорит в пользу исходного предположения. Тогда надо сделать описанное выше преобразование, вновь провести регрессию и исследовать остатки. Если теперь их колебание имеет неупорядоченный характер, то это может служить показателем того, что коррекция на гетероскедастичность прошла успешно. Естественно, следует сравнивать и другие параметры регрессии (значимость оценок, сумму квадратов отклонений и т. п.) и только тогда принимать окончательное решение, какая из моделей более приемлема.

Тест Бреуша-Пагана (Breusch-Pagan).

Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии σ²_t зависят от некоторых дополнительных переменных:

σ²_t = γo + γz_t'. t= 1,...,n,

где Z_t = (z_t1,..., ztp) '— вектор (наблюдаемых) независимых переменных, γo, γz_t = (γ1…γр)' — неизвестные параметры. В соответствии с тестом Бреуша-Пагана следует действовать так:

1) провести обычную регрессию и получить вектор остатков е = (e₁,... ,е_n)';

2) построить оценку ^{^}σ² = (1/n) ;

3) провести регрессию = γ_o+ z_t ^/ γ + υ_t и найти для нее объясненную часть вариации RSS;

4) построить статистику RSS/2. В работе (Breusch, Pagan,1979) установлено, что если верна гипотеза Но (отсутствие гетероскедастичности), то величина RSS/2 асимптотически имеет распределение χ2(р).

При выявлении гетероскедастичности с помощью этого теста можно попытаться осуществить коррекцию с помощью метода взвешенных наименьших квадратов, выбирая в качестве весов величины ( _o+ z_t^/ )^-1/2 где ( _o, — оценки, полученные в п.З).

При этом может оказаться, что ( _o+ z_t^/ ) < О для некоторых t. Если число таких наблюдений невелико, то их можно просто выбросить. В противном случае можно попытаться использовать мультипликативную форму гетероскедастичности: t=l,...,n.

σ²_t = ?, t=l,...,n.

Процедура теста Бреуша-Пагана тогда выглядит совершенно аналогично изложенной выше в п.З). Точно так же можно действовать для произвольной формы гетероскедастичности

σ²_t = (γ₀+z_t^’γ)

Выводы:

1) применение обобщенного метода наименьших квадратов при наличии гетероскедастичности сводится к минимизации суммы взвешенных квадратов отклонений;

2) использование доступного обобщенного метода наименьших квадратов в общем случае требует оценивания n параметров по n наблюдениям, что не позволяет получать состоятельные оценки;

3) в некоторых ситуациях (ошибка пропорциональна одной из независимых переменных, дисперсии ошибок принимают два значения) можно применять доступный обобщенный метод наименьших квадратов и получать состоятельные оценки коэффициентов регрессии;

4) если в модели с гетероскедастичностью использовать обычный метод наименьших квадратов, то для получения состоятельной оценки соответствующей матрицы ковариаций можно применять оценки ошибок в форме Уайта или Ньюи- Веста.

Тест Парка

Здесь предполагается, что дисперсии связаны

с фактором пропорциональности Z в виде:

Т.к. дисперсии неизвестны, то их заменяют

оценками квадратов отклонений e_i².

1. Строится уравнение регрессии:

и вычисляются остатки .

2. Выбирается фактор пропорциональности Z и

оценивают вспомогательное уравнение регрессии:

3. Проверяют значимость коэффициента при

Глава 2. Построение регрессионной модели и ее анализ на проблему гетероскедастичности

Поскольку в данной работе при построении уравнения регрессии будут использоваться временные ряды, то перед построением модели следует проверить ряды на стационарность.

Как видно из Рис.1 Приложения 1 все ряды исследуемых показателей не имеют постоянного математического ожидания, но имеют восходящий линейный тренд, из чего возможно сделать предварительный вывод о том, что ряды будут стационарными относительного тренда.

ВВП имеет дело с волнообразностью деловой активности и ряды IG и GDP имеют чётко видную сезонность, что видно на Рисунке 1 Приложения.

Имеем:

- ряды нестационарны в уровнях, но стационарны в первых разностях;

- по имеющимся данным можно строить модель множественной классической линейной регрессии.

Строим уравнение регрессии:

Модель 1: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)

Зависимая переменная: Y__

	Коэффициент	Ст. ошибка	t-статистика	P-значение
const	-6,13203	24,4276	-0,2510	0,80311
X1__	0,980562	0,0651078	15,0606	<0,00001	***
X2___	1,01482	0,0117572	86,3143	<0,00001	***
X3__	0,982136	0,0290587	33,7984	<0,00001	***

Среднее зав. перемен	4972,126	Ст. откл. зав. перемен	3133,642
Сумма кв. остатков	186106,2	Ст. ошибка модели	69,07933
R-квадрат	0,999549	Испр. R-квадрат	0,999514
F(3, 39)	28796,16	Р-значение (F)	2,93e-65
Лог. правдоподобие	-241,0311	Крит. Акаике	490,0622
Крит. Шварца	497,1070	Крит. Хеннана-Куинна	492,6601
Параметр rho	-0,120124	Стат. Дарбина-Вотсона	1,929132

После округления оно будет иметь следующий вид:

Y=-6.13+ 0,98*X1+1,01* X2+0,98*X3 (3)

Как видно из таблицы, все объясняющие переменные статистически значимы, а высокий коэффициент детерминации говорит о высоком качестве этой модели. Высокие значения имеют t-статистики, соответственно все объясняющие переменные данной модели значимы. Верны и коэффициенты при переменных, то есть они имеют верный знак и значение близкое к теоретическому уравнению (1). В нашем случае а<0, что говорит о том, что относительное изменение результата происходит медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора – коэффициент вариации по фактору Х выше коэффициента вариации для результата у.

С(1) статистически незначим, что можно проинтерпретировать таким образом, что модель наиболее приближена к исходному теоретическому уравнению (1).

Анализ данного уравнения позволяет сделать вывод – с возрастанием чистого экспорта на единицу ВВП возрастет на 0,98 единицы, расходов на конечное потребление на 1 единицу повысит ВВП на 1,01 единиц, а увеличение валового накопления – на 0,98 единиц.

Прежде чем делать выводы о качестве и адекватности, следует проверить построенную модель на автокорреляцию и гетероскедастичность. В качестве предварительного анализа на проблему автокорреляции легко заметить, что значение статистики Дарбина-Уотсона находится в области отсутствия автокорреляции (d1=1,3663, du=1,6632).

Проверим модель на автокорреляцию графическим методом (приложение 4).

Существует несколько вариантов графического определения автокорреляции. Один из них, увязывающий отклонения е_t с моментами t их получения (их порядковыми номерами i) - это последовательно-временные графики.

В современных эконометрических пакетах аналитическое выражение регрессии дополняется графическим представлением результатов. На график реальных колебаний зависимой переменной накладывается график колебаний переменной по уравнению регрессии.

Сопоставив эти графики, можно выдвинуть гипотезу об отсутствии автокорреляции остатков, так как эти графики часто пересекаются или совпадают.

Из всего вышесказанного можно сделать следующие выводы:

- модель не имеет проблем спецификации, она качественна и адекватна по первоначальному анализу;

- предварительный анализ по статистике Дарбина-Уотсона указал на отсутствие автокорреляции, подтверждение графическим методом.

На проблему гетероскедастичности исследуем модель при помощи теста Бреуша-Пэгана (Breusch-Pagan) :

Тест Бриша-Пэгана (Breusch-Pagan) на гетероскедастичность

МНК, использованы наблюдения 1999:1-2009:3 (T = 43)

Зависимая переменная: масштабированное uhat^2

Коэффициент Ст. ошибка t-статистика P-значение

-----------------------------------------------------------------

const 0,00189556 0,650096 0,002916 0,9977

X1__ -0,00149471 0,00173273 -0,8626 0,3936

X2___ 0,000250845 0,000312898 0,8017 0,4276

X3__ 0,000901121 0,000773346 1,165 0,2510

Объясненная сумма квадратов = 38,944

Тестовая статистика: LM = 19,471975,

р-значение = P(Хи-квадрат(3) > 19,471975) = 0,000218

Нулевая гипотеза: гетероскедастичность отсутствует.

Тест Парка.

Критерий Парка включает следующие этапы:

Строится уравнение регрессии у=b₀ + b₁x₁+e.
Для каждого наблюдения определяются ln_i²=ln(y_i-)²
Строится регрессия ln е_i² = α + βlnx_i + v_i , (2) где α = lnσ². Так как регрессия множественная, то зависимость строится для каждой объясняющей переменной

Проверяется статистическая значимость коэффициента β уравнения (2) на основе t-статистики t=в/S_в. Если коэффициент β статистически значим, то это означает наличие связи между ln e_i² и ln x_i, т. е. гетероскедастичности в статистических данных.

Модель 6: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)

Зависимая переменная: l_usq1

	Коэффициент	Ст. ошибка	t-статистика	P-значение
const	-15,4914	3,94563	-3,9262	0,00032	***
l_X1__	3,52834	0,638295	5,5277	<0,00001	***

Среднее зав. перемен	6,238278	Ст. откл. зав. перемен	2,903703
Сумма кв. остатков	202,9044	Ст. ошибка модели	2,224609
R-квадрат	0,427022	Испр. R-квадрат	0,413047
F(1, 41)	30,55599	Р-значение (F)	2,03e-06
Лог. правдоподобие	-94,37235	Крит. Акаике	192,7447
Крит. Шварца	196,2671	Крит. Хеннана-Куинна	194,0437
Параметр rho	0,182527	Стат. Дарбина-Вотсона	1,591751

Модель 7: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)

Зависимая переменная: l_usq1

	Коэффициент	Ст. ошибка	t-статистика	P-значение
const	-15,8827	3,7444	-4,2417	0,00012	***
l_X2___	2,80248	0,472541	5,9307	<0,00001	***

Среднее зав. перемен	6,238278	Ст. откл. зав. перемен	2,903703
Сумма кв. остатков	190,6062	Ст. ошибка модели	2,156138
R-квадрат	0,461751	Испр. R-квадрат	0,448623
F(1, 41)	35,17287	Р-значение (F)	5,43e-07
Лог. правдоподобие	-93,02806	Крит. Акаике	190,0561
Крит. Шварца	193,5785	Крит. Хеннана-Куинна	191,3551
Параметр rho	0,185897	Стат. Дарбина-Вотсона	1,566146

Модель 8: МНК, использованы наблюдения 1999:1-2009:3 (T = 43)

Зависимая переменная: l_usq1

	Коэффициент	Ст. ошибка	t-статистика	P-значение
const	-9,63737	2,36613	-4,0730	0,00021	***
l_X3__	2,388	0,352883	6,7671	<0,00001	***

Среднее зав. перемен	6,238278	Ст. откл. зав. перемен	2,903703
Сумма кв. остатков	167,2814	Ст. ошибка модели	2,019910
R-квадрат	0,527617	Испр. R-квадрат	0,516096
F(1, 41)	45,79400	Р-значение (F)	3,52e-08
Лог. правдоподобие	-90,22162	Крит. Акаике	184,4432
Крит. Шварца	187,9656	Крит. Хеннана-Куинна	185,7422
Параметр rho	0,176677	Стат. Дарбина-Вотсона	1,624706

Анализ регрессионной модели на наличие гетероскедастичности с помощью тестов Бреуша-Пагана и Парка 📙 Курсовая → 🆔 17866

Анализ регрессионной модели на наличие гетероскедастичности с помощью тестов Бреуша-Пагана и Парка

Глава 1. Теоретическое обоснование модели и её анализа

1.1 Экономическое обоснование модели

1.2 Гетероскедастичность: теория

Тест Бреуша-Пагана (Breusch-Pagan).

Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии σ2t зависят от некоторых дополнительных переменных:

σ2t = γo + γzt'. t= 1,...,n,

1) провести обычную регрессию и получить вектор остатков е = (e1,... ,еn)';

2) построить оценку ^σ2 = (1/n) ;

3) провести регрессию = γo+ zt / γ + υt и найти для нее объясненную часть вариации RSS;

σ2t = ?, t=l,...,n.

Выводы:

1) применение обобщенного метода наименьших квадратов при наличии гетероскедастичности сводится к минимизации суммы взвешенных квадратов отклонений;

Тест Парка

Этот тест применяется в тех случаях, когда априорно предполагается, что дисперсии σ²_t зависят от некоторых дополнительных переменных:

σ²_t = γo + γz_t'. t= 1,...,n,

1) провести обычную регрессию и получить вектор остатков е = (e₁,... ,е_n)';

2) построить оценку ^{^}σ² = (1/n) ;

3) провести регрессию = γ_o+ z_t ^/ γ + υ_t и найти для нее объясненную часть вариации RSS;

σ²_t = ?, t=l,...,n.