Мультиколінеарність та її вплив на оцінку параметрів моделі

Поняття про мультиколінеарність  та її вплив на оцінку параметрів моделі

Одна з передумов  застосування методу найменших квадратів  до оцінювання параметрів лінійних багатофакторних  моделей — відсутність лінійних зв'язків між незалежними змінними моделі. Якщо такі зв'язки існують, то це явище називають мультиколінеарністю.

Суть мультиколінеарності  полягає в тому, що в багатофакторній  регресійній моделі дві або більше незалежних змінних пов'язані між  собою лінійною залежністю або, іншими словами, мають високий ступінь кореляції:

Наявність мультиколінеарності  створює певні проблеми при розробці моделей. Насамперед, визначник матриці  спостережень ІХТХ| наближається до нуля, і оператор оцінювання за звичайним  МНК стає надзвичайно чутливий до похибок вимірювань і похибок обчислень. При цьому МНК-оцінки можуть мати значне зміщення відносно дійсних оцінок узагальненої моделі, а в деяких випадках можуть стати взагалі беззмістовними.

Передусім потрібно зрозуміти  природу мультиколінеарності.

Наприклад, коли вивчається залежність між ціною акції, дивідендами на акцію та отриманим прибутком на акцію, то дивіденди та отриманий прибуток на одну акцію мають високий ступінь кореляції. Іншими словами, виникає ситуація, коли два колінеарних фактори змінюються в одному напрямку. У такому разі майже неможливо оцінити вплив кожного з них на досліджуваний показник.

З’ясуємо, до яких наслідків  може призвести мультиколінеарність. Це одне з найважливіших питань, яке потрібно зрозуміти при розробці економетричних моделей.

Практичні наслідки мультиколінеарності: мультиколінеарність незалежних змінних (факторів) призводить до зміщення оцінок параметрів моделі, які розраховуються за методом найменших квадратів. На основі цих оцінок неможливо зробити конкретні висновки про результати взаємозв’язку між показником і факторами; збільшення дисперсії та коваріації оцінок параметрів, обчисле-них за методом найменших квадратів.

Для ілюстрації розглянемо двофакторну регресійну модель та її вибірковий аналог

Дисперсія оцінок параметрів a1 і a2 має вигляд

де r - коефіцієнт кореляції  між х1 і х2.

З рівнянь випливає, що якщо r зростає, то D(a1), D(a2) також зростають.

Звідси випливає, що якщо г збільшується, cov(a1, a2) зростає за абсолютною величиною. Причому при наближенні до граничного значення це збільшення має експоненціальний характер.

• збільшення довірчого  інтервалу (оскільки збільшується середній квадрат відхилення параметрів);

• незначущість статистик.

Зауваження. Мультиколінеарність  не є проблемою, якщо єдиною метою  регресійного аналізу є прогноз (оскільки чим більше значення R2, тим точніший прогноз). Якщо метою аналізу є не прогноз, а дійсне значення параметрів, то мультиколінеарність перетворюється на проблему, оскільки її наявність призводить до значних стандартних похибок оцінок параметрів.

 

 

 

 

Тестування  наявності мультиколінеарності

Єдиного способу визначення мультиколінеарності, на жаль, немає. Зовнішні ознаки наявності мультиколінеарності  такі:

• велике значення R2 і  незначущість статистики. Наявність  цих двох факторів одночасно є "класичною" ознакою мультиколінеарності.

З одного боку, незначущість статистики Стьюдента означає, що один або більше оцінених параметрів статистично  незначуще відрізняються від  нуля. З іншого боку, якщо значення R2 велике, ми приймаємо з великою  ймовірністю _Р-критерій Фішера, який відкидає нульову гіпотезу (Н0 : а12 = ... = а =0). Суперечність свідчить про наявність мультиколінеарності;

• велике значення парних коефіцієнтів кореляції.

Якщо значення хоча б одного коефіцієнта  кореляції > 0,8, і Ф ), то мультиколінеарність є серйозною проблемою.

Зауважимо, що велике значення парних коефіцієнтів кореляції —  достатня, але не необхідна умова  наявності мультиколінеарності. Мультиколінеарність  може мати місце навіть при відносно невеликих значеннях парних коефіцієнтах кореляції у більш ніж двофакторній регресійній моделі.

Для визначення мультиколінеарності  здебільшого застосовують такі тести:

• F-mecm, запропонований Глобером і Фарраром (він має й іншу назву: побудова допоміжної регресії);

• характеристичні значення та умовний індекс. Розглянемо їх більш детально.

Перший із них базується  на тому що за наявності мультиколінеарності  один чи більше факторів пов’язані  між собою лінійною або приблизно  лінійною залежністю. Одним із способів визначення щільності регресійного зв’язку є побудова регресійної залежності кожного фактора х. з усіма іншими факторами. Тому f-тест має іншу назву: побудова допоміжної регресії. Обчислення відповідного коефіцієнта детермінації для цього допоміжного регресійного рівняння та його перевірка за допомогою ^-критерію дають змогу виявити лінійні зв’язки між незалежними змінними.

Нехай R2x i x1x2,...,xm - коефіцієнт детермінації в регресії, яка пов’язує фактор хз іншими факторами. Тоді F-тест виконується так:

1) для кожного коефіцієнта  детермінації розраховуємо ^-відношення:

де n - кількість спостережень; m - кількість факторів.

F-тест перевіряє гіпотезу H0: R2xi,x1, xm = 0 проти гіпотези H1:

R2 ≠0;

2) Екр знаходимо за  таблицею f-розподілу Фішера з  (m–1) і (n–m) ступенями свободи  і заданим рівнем значущості;

3) якщо Fi > F , то гіпотезу Н0 відкидаємо (х — мультиколінеарний фактор), якщо F < F , то гіпотезу Н0 приймаємо  (фактор х- не є мультиколінеарним).

Тест, що застосовує характеристичні  значення (власні числа матриці спостережень) та умовний індекс R (що обчислюється як відношення максимального власного числа матриці до її мінімального власного числа), використовується в сучасних статистичних пакетах. Ми не розглядатимемо його детально, бо це потребує застосування апарату теорії матриць.

Ми розглянули лише основні методи тестування мультиколінеарності. Жоден з них не є універсальним. Усі вони мають один спільний недолік: жоден із них не проводить чіткої межі між тим, що треба вважати “суттєвою” мультиколінеарністю, яку необхідно враховувати, і тим, коли нею можна знехтувати.

Алгоритм Фаррара  — Глобера

Найповніше дослідити  мультиколінеарність дає змогу  алгоритм Фаррара - Глобера, який застосовує три види статистичних критеріїв  для виявлення мультиколінеарності:

    • усього масиву незалежних змінних (критерій х2);
    • кожної незалежної змінної з усіма іншими (^-критерій);
    • кожної пари незалежних змінних (t-критерій).

Порівнявши ці критерії з їх критичними значеннями, можна  зро-бити конкретні висновки щодо наявності  чи відсутності мультиколінеарності  незалежних змінних. Опишемо цей алгоритм.

Складемо покроковий алгоритм Фаррара - Глобера.

1-й крок:

нормалізувати змінні x1, х2, ..., х економетричної моделі, обчисливши

2-й крок:

на основі матриці X*, елементами якої є нормалізовані незалежні  змінні x*i j , обчислити кореляційну матрицю (матрицю моментів нормалізованої системи нормальних рівнянь):

де X*tr - транспонована  матриця X* (елементи матриці R характе-ризують  щільність зв’язку однієї незалежної змінної з іншою);

rij = rxixj — парні коефіцієнти  кореляції.

Однак на основі цієї залежності не можна стверджувати, що от-риманий  зв’язок є явищем мультиколінеарності. Якщо діагональні елементи матриці R не дорівнюють одиниці, то на діагоналі  цієї матриці ми проставляємо одиниці, а до решти елементів додаємо різницю між одиницею й значенням діагонального елемента.

3-й крок: визначити  |R| - визначник кореляційної матриці  R; обчислити критерій χ2:

порівняти значення χ  з табличним при 1 m(m-1) ступенях свободи  і рівні значущості α (якщо χ2 > χ2табл , то в масиві незалежних змінних існує мультиколінеарність).

4-й крок: визначити матрицю похибок:

5-й крок: розрахувати  ^-критерії:

де ckk - діагональні елементи матриці О;

значення критеріїв Fk порівняти  з табличним при (n–m) і (m–1) ступенях свободи й рівні значущості а (якщо Fk > F б , то відповідна k-та незалежна змінна мультиколінеарна з іншими);

розрахувати коефіцієнти детермінації для кожної змінної:

6-й крок: знайти часткові  коефіцієнти кореляції, які характеризують  щільність зв’язку між двома  змінними за умови, що інші змінні xl1, xl2, ... , xlm не впливають на цей зв’язок (існування парної мульти-колінеарності):

де ckj - елементи матриці  С, що розміщені в k-му рядку та j-му стовпці, k = 1, 2, ..., m; j = 1, 2, ..., m; ckk і с - діагональні елементи матриці С

Однак якщо порівняти конкретні  числові значення часткових і  парних коефіцієнтів, то можна побачити, що перші значно менші,

ніж останні. Тому на основі знання парних коефіцієнтів кореляції  висновок про мультиколінеарність  робити неможливо. Для цього не-обхідно  виконати 7-й крок.

7-й крок: розрахувати  ^-критерії:

значення критеріїв tkj порівняти з табличними при (т-п) ступенях свободи та рівні значущості а; якщо tkj > t б , то між незалеж-ними змінними xk і Xj існує мультиколінеарність.

Висновки:

1. Між незалежними  змінними може існувати лінійна  залежність, однак вона може й  не бути явищем мультиколінеарності  змінних, а тому не впливатиме на кількісні оцінки параметрів моделі, розрахованих за допомогою звичайного МНК.

2. Якщо Fk > F б , то xk залежить  від усіх інших незалежних  змінних і треба вирішити питання  про її виключення з переліку  змінних.

3. Якщо tk > t б , то xk і  хj щільно пов’язані між собою.

4. Аналізуючи F- i t-критерії, робимо висновок, яку зі змінних  треба виключити з моделі (зрозуміло,  якщо це можливо з економіко-логіко-теоретичних  міркувань).

5. Якщо виконавши пп. 2-4, ми не досягли мети, тобто  не усунули мультиколінеарність, оцінку параметрів моделі слід обчислювати за допомогою іншого методу, наприклад методу головних компонентів (або однієї з його модифікацій).

Приклад дослідження  наявності мультиколінеарності  на основі алгоритму Фаррара —  Глобера

Розглянемо дослідження впливу на економічний показник у - реальне споживання країни (у млрд грн.) трьох факторів: х1 - купівлі та оплати товарів і послуг (у млрд грн.), х2 - усіх заощаджень від загального грошового доходу (у % від загальної суми доходу), х3 - рівня ставки ПДВ (у %). Необхідно перевірити фактори на мультиколінеарність.

Розв'язання. 1-й крок:

нормалізуємо змінні x1, x2, х3 економетричної моделі, обчисливши

де n = 20 кількість спостережень (і = 1, 2, ..., n); m = 3 кількість не-залежних змінних (j=1, m); xj - середня арифметичнаj-! незалеж-ної змінної:

x1 =9,3505; x2 =18,874; x3 =37,788; σ  2x j - дисперсія j-ї незалежної змінної:

2-й крок:

на основі нової матриці X', елементами якої є нормалізовані  не-залежні змінні 4,

обчислимо кореляційну  матрицю (матрицю моментів нормалізованої системи нормальних рівнянь):

де X*tr транспонована матриця  Ґ; елементи матриці R характеризу-ють  щільність зв’язку однієї незалежної змінної з іншою ( rij = rxixj -парні  коефіцієнти кореляції);

3-й крок: визначимо  |R| - визначник кореляційної матриці R:

обчислимо значення критерію χ2:

порівняємо значення χ 2 з табличним при 1 m(m-1)=3 ступе-нях  свободи й рівні значущості α = 0,05 (дод. 3):

Оскільки χ2 >χ2табл, то в масиві незалежних змінних існує  муль-тиколінеарність у сукупності. 4-й крок: визначимо матрицю похибок:

 

5-й крок: розрахуємо ^-критерії:

значення критеріїв F, порівняємо з табличним при (п–т) = 17 і (т–1) = 2 ступенях свободи і рівні  значущості α = 0,05 (дод. 5):

Оскільки F1 >F 6,F2 >F 6,F3 >F 6, робимо висновок, що перша, друга й третя незалежні змінні мультиколінеарні з іншими; визначимо коефіцієнти детермінації для кожної змінної:

6-й крок: знайдемо часткові  коефіцієнти кореляції, які характеризують  щільність зв’язку між двома  змінними за умови, що інші змінні x1, x2, ..., x[ не впливають на цей зв’язок (існування парної мультиколінеарності):

де сkj - елементи матриці  С, що розміщені в k-му рядку та j-му стовпці, k = 1, 2,..., m, j = 1, 2, ..., m; ckk і с  діагональні елементи матриці С;

r12 = 0,910257, r13 = 0,070234, r23 = 0,297472.

Однак якщо порівняти  абсолютні значення часткових парних коефіцієнтів, то можна побачити, що перші значно менші, ніж останні. Тому на основі знання парних коефіцієнтів кореляції висновок про мультиколінеарність робити неможливо. Для цього необхідно ще виконати 7-й крок.

7-й крок: розрахуємо t-критерії:

t12 = 9,064506, t13 = 0,290302, t23 = 1,284666;

значення критеріїв tkj порівняємо з табличними при (n–m) = 17 ступенях свободи й рівні значущості α=0,05 (дод. 4): tтабл = 2,109818.

Оскільки t12 > tтабл, t13 < tтабл, t23 < tтабл, то між першою та дру-гою  незалежними змінними існує мультиколінеарність.

Якщо ^-критерій перевищує  табличне значення, а це означає  що k-та змінна залежить від інших  змінних у масиві, необхідно вирішу-вати питання про її виключення з переліку змінних.

Якщо tkj-критерій перевищує  табличне значення, то ця пара змінних (k i j) тісно взаємопов’язана. Звідси, аналізуючи рівень обох видів кри-теріїв F i t, можна зробити обґрунтований  висновок про те, яку зі змінних необхідно виключити із дослідження чи замінити її іншою. Але заміна масиву незалежних змінних завжди має узгоджуватися з еко-номічною доцільністю, що зумовлена метою дослідження.

 

 

 

 

 

 

 

 

Засоби усунення мультиколінеарності. Метод головних компонентів

Виявлення мультиколінеарності  є лише частиною справи. Інша частина - як її усунути. Безпомилкових і  абсолютно правильних порад немає, оскільки мультиколінеарність є  прикладною проблемою.

Звичайно, усе залежить від ступеня мультиколінеарності, однак у будь-якому разі можна запропонувати кілька простих методів усунення мультиколінеарності:

1) використання додаткової  або первинної інформації;

2) об’єднання інформації;

3) відкидання змінної  з високою кореляцією;

4) перетворення даних  (використання перших різниць);

5) збільшення кількості  спостережень.

Які поради спрацюють  на практиці, залежить від істотності про-блеми та її характеру.

Якщо переліченими методами не вдається усунути мультиколіне-арність, то для оцінювання параметрів багатовимірної моделі доціль-но застосувати метод головних компонентів.

Алгоритм методу головних компонентів

Цей алгоритм включає  дев’ять кроків.

1-й крок: нормалізувати  змінні x1 x2, ... хт регресійної моделі, обчисливши  де п кількість спостережень (і= 1, «);

т - кількість пояснюючих змінних у моделі (/= 1, т); х. - середня арифметична ;-ї незалежної змінної;

σ - середньоквадратичне  відхилення ;-ї незалежної змінної.

2-й крок: побудувати  нову матрицю Ґ, елементами  якої є нормалізовані незалежні  змінні.

3-й крок: обчислити кореляційну матрицю (матрицю моментів нормалізованої системи нормальних рівнянь) за формулою

де X** - транспонована  матриця Ґ:

(недіагональні елементи  матриці R характеризують щільність  зв’яз-ку однієї незалежної змінної  з іншою (rij = rxixj ), тобто є парними ко-ефіцієнтами кореляції).

4-й крок: знайти характеристичні  числа матриці r, тобто визначити  корені

X1,X2,..., Хm рівняння m-то  порядку:

 де E - одинична матриця розмірності  mxm; Хj, j = 1, 2,..., m - харак-теристичні числа  матриці r.

5-й крок: ранжувати власні значення Я , i = 1, 2, ..., m, за абсолютним рівнем внеску кожного головного компонента в загальну дисперсію.

6-й крок: розв’язати  систему рівнянь

і обчислити власні вектори ai , і = 1, 2, ..., m, за умови, що вони відповідають таким співвідношенням:

7-й крок:

знайти головні компоненти векторів zi=xai, і= 1, 2, ..., m, які задо-вольняють  умови 

8-й крок: визначити  параметри моделі Y = ZP :

9-й крок: знайти параметри  моделі Y = XА:

Зауважимо, що метод головних компонентів доцільно застосовувати, по-перше, для оцінювання параметрів моделей з великою кількістю факторів, по-друге, для моделей, у яких незалежні змінні (стовпці матриці спостережень X) мають однакові одиниці вимірювання.

 

Список використаної літератури

 

 

 

 

  1. Хеш Д. Причинный анализ в статистических исследованиях. — М.: Финансы и статистика, 1981. — 224 с.
  2. Венецкий И. Г., Венецкая В. И. Основные математико-статистические понятия и формулы в экономическом анализе: Справочник. — 2-е изд., перераб. и доп. — М.: Статистика, 1979. — 448 с.
  3. Винн Р., Холден К. Введение в прикладной эконометрический анализ. — М: Финансы и статистика, 1981. — 294 с.
  4. Геец В. М. Отраслевое прогнозирование: методологический и организационный аспекты. — К.: Наук, думка, 1990. — 120 с.
  5. Гранберг А. Г. Динамические модели народного хозяйства. — М.: Экономика, 1985. — 204 с.
  6. Гранберг А. Г. Статистическое моделирование и прогнозирование. — М.: Финансы и статистика, 1990. — 378 с.
  7. Дадаян В. С. Моделирование глобальных экономических процессов. — М.: Экономика, 1984. - 278 с.
  8. Демиденко Е. 3. Линейная и нелинейная регрессии. — М.: Финансы и статистика, 1981. — 302 с.
  9. Дружинин В. В., Конторов Д. С. Проблемы системологии. Проблемы теории сложных систем. — М.: Радио и связь, 1986. — 296 с.
  10. Дружинин В. В., Конторов Д. С. Системотехника. — М.: Радио и связь, 1985. - 200 с.
  11. Дюран Б., Одел П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.
  12. Емельянов А. С. Общественное производство: Динамика, тенденции, модели. - К.: Наук, думка, 1980. - С. 347-409.

 


Мультиколінеарність та її вплив на оцінку параметрів моделі