Оцінювання якості прогнозів. Комбінування прогнозів

ЛАБОРАТОРНА РОБОТА №7 (4 години)

Тема: «Оцінювання якості прогнозів. Комбінування прогнозів»

 

    1. Теоретичні відомості
    1. Критерії точності прогнозів

Найбільш простою мірою  якості прогнозів за умови, що є дані про їхню реалізацію, може стати  відносне число випадків, коли фактична реалізація попадала у довірчий інтервал прогнозу, до загального числа прогнозів, тобто

де m – кількість прогнозів, підтверджених фактичними даними;

n – кількість прогнозів, не підтверджених фактичними даними. Коли всі прогнози підтверджуються, n = 0 і η = 1, якщо ж усі прогнози не підтвердилися, то m і η рівні 0.

Одним із дослідників  проблем економічного прогнозування, Г. Тейлом, запропонований за міру якості прогнозу коефіцієнт розбіжності (або  коефіцієнт невідповідності), чисельником якого є середньоквадратична помилка прогнозу, а знаменник дорівнює квадратному кореню із середнього квадрата реалізації, тобто:

.

Коефіцієнт v = 0, коли всі (випадок ідеального прогнозування); v = 1, коли процес прогнозування призводить до середньоквадратичної помилки "наївної" екстраполяції незмінності приростів; нарешті, v > 1, коли прогноз дає гірші результати, ніж припущення про незмінність досліджуваного явища.

Коефіцієнт невідповідності  може бути використаний при зіставленні  якості прогнозів, одержаних на основі різноманітних методів і моделей, у чому полягає його безсумнівна привабливість.

Іноді коефіцієнт Тейла  розраховують через середньоквадратичне  значення похибки прогнозу приростів:

.

У стандартній статистиці для міри точності прогнозів частіше використовуються такі характеристики:

 − середньоквадратична похибка  прогнозу за n кроків.

 − корінь із середньоквадратичної похибки прогнозу за n кроків.

 − середня абсолютна похибка за n кроків.

 – корінь із середньоквадратичної  похибки у відсотках від фактичних значень за n кроків.

 – середня абсолютна похибка  у відсотках за n кроків.

На практиці ці характеристики використовуються досить часто. Перші  три критерії виражають похибку  у одиницях виміру, тому їх величина залежить від специфіки часового ряду. Останні два критерії вимірюються у відносних одиницях, тому можна говорити про деякий загальний рівень адекватності моделі на основі їх порівняння. Чим меншою є величина критерію похибки, тим краще побудована модель для прогнозування.

 

    1. Числові характеристики часових рядів

Для будь-якого часового ряду можна знайти деякі числові  характеристики.

Для аналізу часових  рядів найважливішими є математичне  сподівання, дисперсія, коваріація, кореляція.

Математичне сподівання часового ряду {YT} є

 – функція розподілу yt, t = −∞, …,.∞.

Дисперсія часового ряду {YT} визначається за формулою:

.

Нарешті, автоковаріація часового ряду {YT} дорівнює:

Для отримання практичних оцінок для часових рядів користуються формулами:

математичне сподівання – ,

дисперсія – ,

автоковаріація j-го порядку .

Часовий ряд є стаціонарним, якщо

1) математичне сподівання Eyt = µ <∞ для всіх t,

2) дисперсія var(yt) =γ0 < ∞ для всіх t ,

3) автоковаріація j-го порядку cov(yt, yt−j) = γ < ∞ для всіх t, j = 1,2 , 3,….

Звичайно, жоден з рядів, що представляє реальну економічну інформацію, не може бути ідеально стаціонарним. Але якщо для деякого часового ряду з деяким наближенням виконуються умови стаціонарності, то для його аналізу можна використати широкий спектр методів аналізу та прогнозування стаціонарних часових рядів.

Крім вищенаведених характеристик  при аналіз часових рядів застосовується автокореляція та автокореляційна  функція. Автокореляція j -го порядку визначається за допомогою рівності:

Цей коефіцієнт визначає ступінь залежності між спостереженнями, які знаходяться на відстані j періодів.

Якщо побудувати залежність ρj на графіку, то отримаємо корелограму. Вона представляє деяку криву, що показує, як змінюється взаємовплив між спостереженнями в залежності від часу.

 

    1. Метод поворотних значень

Під випадковим часовим  рядом будемо розуміти такий ряд, у якому значення є випадковими  незалежними величинами, що мають  один закон розподілу. Якщо вдається показати, що часовий ряд є випадковим, то подальше його дослідження можна припинити, вирахувавши, при необхідності, середнє значення та дисперсію ряду або інші статистичні характеристики.

Одним з методів перевірки часового ряду на випадковість є метод поворотних значень.

Для часового ряду {YT} значення yi є поворотним, якщо yi−1 < yi > yi+1 або yi−1 > yi < yi+1. У першому випадку значення yi є «піком», у другому –– «впадиною». Зауважимо, що перше й останнє значення не можуть бути поворотними.

Метод поворотних значень зводиться  до підрахунку кількості впадин і  піків у ряду {YT} і порівнянні цієї кількості з теоретичним значенням, яке дорівнює математичному сподіванню кількості поворотних точок у «чисто випадковому» ряду, що складається з T спостережень.

Нехай

Математичне сподівання кількості поворотних точок у  випадковому ряді {YT}, у силу незалежності xi, буде дорівнювати:

.

середнє квадратичне  відхилення:

.

Для перевірки гіпотези про випадковість ряду використовується значення:

,

яке порівнюється з теоретичним Uteor. Якщо Upr < Uteor, то немає підстави відхилити нульову гіпотезу, тобто ми повинні прийняти твердження, що даний ряд випадковий. У протилежному випадку, коли Upr > Uteor, треба прийняти твердження про невипадковість ряду.

Для найбільш поширених  значень α відповідні величини Ukr наведені у таблиці.

 

1.4. Метод усереднення

Цей метод є одним  з найпростіших, який дозволяє виділити тренд. Для застосування цього методу дослідник повинен мати доволі довгий ряд спостережень. Формально метод  описується виразом:

Для квартальних даних  часового ряду при k1 = 3, k2 = 0 формула набуває вигляду

З формули видно, що нова кількість спостережень становить T − k. За допомогою цього методу можна не тільки більш чітко спостерігати трендовий компонент, але й сезонні та випадкові коливання. Для цього треба використовувати мультиплікативну модель часового ряду:

Тоді 

Єдиною складністю є  визначення чисел k1 та k2. Як правило, їх сума дорівнює повному циклу сезонності, тобто, наприклад, для квартальних даних – року.

Більш гладкий тренд  дозволяє виділити метод подвійного усереднення, яке двічі використовує усереднення часового ряду. При цьому кількість спостережень зменшується на два повних цикли сезонності, тому для використання методу необхідно мати часовий ряд, який складається щонайменше з 3-х повних циклів сезонності.

 

1.5 Комбінування прогнозів

На практиці дослідники застосовують багато методів прогнозування, користуючись своїми уподобаннями, навичками, володінням програмним забезпеченням, замовленням на застосування визначеної методики тощо.

Звичайно, при використанні будь-якого методу спеціалісти намагаються добитися мінімальної похибки при прогнозуванні. Іноді буває, що один з методів, який добре зарекомендував себе в минулому, дає погані прогнози і навпаки. Щоб застрахуватися від подібних ситуацій, а також поліпшити точність прогнозування необхідно використовувати комбінації прогнозів.

Найбільш відомими є дві методики :

1) дисперсійно-коваріаційний метод,  що дозволяє зводити декілька  незміщених прогнозів в лінійну  комбінацію з найменшою дисперсією, ваги якої залежать від дисперсій та коваріацій похибок прогнозів;

2) регресійний метод, який є  узагальненням дисперсійно-коваріаційного  на випадок зміщеності прогнозів. 

 

1.5.1 Дисперсійно-коваріаційний метод

Нехай існує два незміщених прогнози на період t: F1t та F2t. Нехай також дисперсія прогнозів σ12 та σ22, коваріація σ12. Новий незміщений прогноз будується за правилом:

.

Дисперсія похибки становитиме:

.

Мінімізуючи вираз по λ, отримаємо

.

Звідси

, де 
.

Оскільки  та , то комбінований прогноз є не гіршим, ніж найкращий з двох прогнозів.

На практиці часто значення дисперсій  та коваріацій похибок прогнозу є  невідомими, тому замість них використовують їх оцінки. Таким чином обираються ваги для побудови нового комбінованого прогнозу.

У випадку N прогнозів, N -мірний вектор оптимальних вагів визначається за формулою:

де V – коваріаційна матриця похибок розмірності N × N,

     I – N -мірний вектор одиниць.

З вищесказаного робимо висновок, використання дисперсійно-коваріаційної комбінації є кращою, ніж вибір найкращого з прогнозів з найменшою дисперсією.

 

1.5.2 Регресійний метод

Регресійний метод є  узагальненням попереднього методу, який інтерпретується як оцінка коефіцієнтів регресійного рівняння виду:

.

Новий комбінований прогноз Ft є лінійною комбінацією N прогнозів. Коефіцієнти βi, i = 0, 2,… N оцінюються за методом найменших квадратів. Якщо всі прогнози є незміщеними, то доданок β0 можна опустити. В цьому випадку оцінки коефіцієнтів будуть співпадати з оцінками вектора Λ з попереднього методу.

 

1.6 Проблема дезагрегування часових рядів

Більшість макроекономічної інформації подається щоквартально або щорічно. Тому іноді виникає  проблема співставлення таких даних  з іншими, що мають, наприклад, місячну  структуру. Можлива також і така ситуація: для одного чи декількох років не подана щоквартальна розбивка. Таким чином, для того щоб можна було використовувати всю наявну інформацію, необхідно вміти розбивати, наприклад, щорічні дані на квартальні.

Припустимо, що ми розглядаємо часовий ряд {YT} з річною структурою даних. Наша задача – утворити новий часовий ряд {X4T}, який буде відповідати за значення процесу у кварталах кожного року. Очевидно, що така розбивка часового ряду повинна проводитися за умови

.

Розглянемо основні методи, які застосовуються для утворення часового ряду{X4T}.

 

1.6.1 Процентне відношення

Якщо відома розбивка якогось року по кварталах, то ми можемо використати її для утворення  нового ряду з квартальною структурою. Нехай для деякого року yτ відомі квартальні значення dτ1, dτ2, dτ3, dτ4. Тоді новий ряд будується за правилом:

, де 
.

Цей метод утворить новий  ряд, який матиме пропорційну структуру. Якщо дослідник має квартальну розбивку по декількох роках, номери яких складають  множину , то

.

Якщо множина S є пустою, тобто невідомо розбивки по кварталах жодного року, то використовується елементарне усереднення:

.

яке виключає сезонні коливання.

 

1.6.2 Поліноміальна інтерполяція

Цей метод спочатку утворює новий ряд за правилом

Ряд {ZT} представляє собою акумулятивні суми початкового ряду. Після цього, послідовно через чотири точки ряду {ZT} будується кубічна інтерполяція, тобто знаходяться коефіцієнти функції f(t) = at3 + bt2 + ct + d. Наприклад, для розбиття y3 нам необхідно побудувати інтерполяцію по точках

Тепер підраховуємо значення f(2), f(2.25), f(2.5), f (2.75), f(3).

Тоді 

Зазначимо, що сума

.

 

1.6.3 BFL–FD та BFL–SD методи

Математично цей метод записується у формі:

за умови

Деякою модифікацією є мінімізація суми квадратів других різниць:

за умови

.

 

1.7 Етапи сучасного прогнозування

Сучасне прогнозування  неможливе без широкого поєднання  статистичних методів та експертних оцінок. В останні роки статистичні  методи набули достатньо великого розвитку. Необхідно виділити 5 етапів побудови прогнозів:

1. Постановка задачі.

2. Отримання інформації.

3. Виконання методів  прогнозування. 

4. Оцінка методів прогнозування. 

5. Використання прогнозів. 

Перший етап складається  з постановки цілей дослідження, визначення взаємовпливу прогнозів та зовнішнього середовища. Наступним кроком є структурування задачі, виділення її компонентів, детермінованих (тренд, сезонні коливання тощо) та випадкових. Останні можуть бути викликані як одночасними подіями, так і цілими ланцюгами зовнішніх впливів.

На другому етапі  слід виділити і визначити джерела  отримання інформації.

При цьому доцільно:

а) уникати використання недостовірної або помилкової інформації, оскільки навіть її наявність може призвести до невірних висновків;

б) визначити, яка саме інформація є важливою, причому слід використовувати останню наявну інформацію, оскільки вона може змінювати попередню і не узгоджуватися з нею;

в) користуватися не одним, а декількома джерелам;

г) використати досвід експертів.

Наступним кроком є так  звана “чистка” даних. Вона вимагає виключення з інформації помилок, зміни значень внаслідок зміни визначень економічних понять, інфляції тощо. Крім того, необхідно виключити минулі систематичні та несистематичні зміни, сезонні коливання, відомі шоки. В деяких випадках такі зміни фіксуються графічним аналізом.

На третьому етапі  слід обрати відповідні експертні та статистичні методи прогнозування. Якщо прогнози мають політичний вплив  на економіку, то вибір значно ускладнюється. Для вибору найкращого методу залучаються експерти, які б на основі свого досвіду проранжували методи. Краще використовувати статистичні методи, які для рівних початкових умов видають однакові прогнози, що значно полегшує подальший аналіз.

При застосуванні статистичного  прогнозування слід використовувати прості, надійні методи, особливо в умовах високої невпевненості в майбутньому. Не варто також забувати про зміну прогнозного значення у зв’язку з майбутніми передбаченими подіями. Не слід намагатися виділяти циклічні коливання, оскільки на сьогоднішній час ще не розроблено загально прийнятного методу.

При використанні експертних методів слід вимагати від експертів  повного розуміння питання і  їх письмового прогнозу з його обґрунтуванням. Крім того, лише залучення достатньої кількості експертів призводить до покращання точності прогнозів. Можна вимагати від них також розробляти сценарні підходи, після чого проводити ранжування експертів по точності їх прогнозів.

При одночасному застосуванні експертних та статистичних методів  потрібно заздалегідь визначити правила їх комбінування. Комбінування прогнозів є особливо нагальним, коли потрібно отримати не найточніший з прогнозів, а запобігти великій похибці.

На четвертому етапі  дослідник повинен обрати один з  декількох методів.

Найкращий метод потрібно обрати після повного аналізу залишків, порівняння критерії точності, а також витрат на застосування методів. При порівнянні методів іноді використовують надійні інтервали. Доцільним є й обґрунтування дослідником причин, за яких прогноз може бути неточним. Такі дані дозволяють полегшувати майбутній аналіз.

На п’ятому етапі  необхідно подати результати дослідження  до замовника. Данні повинні бути представлені у зручній для сприйняття формі, обґрунтування методів подано просто і точно, всі припущення, зроблені дослідником, мають бути чітко окреслені. Крім загальних результатів роботи слід подати міркування щодо використання адаптивних методів, коли дослідник має змогу змінювати коефіцієнти моделі в процесі роботи.

 

 

  1. Завдання

Задача 1. Провести графічний аналіз рядів даних (Таблиця до лаб. роб. №3 – варіант + 15). Для обраних рядів даних визначити основні числові характеристики:

• вибіркове середнє;

• вибіркову дисперсію;

• коваріацію перших 10 порядків.

Побудувати гістограми часових рядів.

Задача 2. Побудувати корелограму та часткову кореляційну функцію для рівнів часових рядів, їх перших та других різниць.

Задача 3. Перевірити Ваші часові ряди на випадковість за допомогою методу поворотних значень.

Задача 4. Розбити всі ряди на дві однакові за розмірами вибірки. Перевірити гіпотезу про

• рівність математичних сподівань;

• диспесій у вибірках.

Задача 5. Створити на основі змінних бази даних нові, що являють собою перші різниці відповідних часових рядів. На основі отриманих значень перевірити гіпотези:

• про випадковість за допомогою методу поворотних значень;

• про нормальний розподіл за допомогою декількох методів.

Задача 6. Обчислити ряди других різниць початкових даних. Перевірити гіпотези:

• про випадковість за допомогою методу поворотних значень;

• про нормальний розподіл за допомогою декількох методів;

• про рівність вибіркового  середнього 0.

Задача 7. Для „наївної”  моделі (прогноз дорівнює останньому значенню часового ряду) підрахувати помилки прогнозування за критеріями:

• MSE;

• RMSE;

• MAD;

• RMSPE;

• MAPE;

• коефіцієнтом Тейла.

Задача 8. На основі отриманих прогнозів для Ваших часових рядів (Таблиця до Лаб. роб. №3 – варіант + 15) побудувати комбінований прогноз на основі:

• методу усереднення;

• дисперсійно-коваріаційного методу;

• регресійного методу.

Для кожного з методів підрахувати похибку прогнозування.

Задача 9. Проранжувати для кожного з часових рядів всі методи за точністю прогнозування на поточний рік.

Задача 10. Підготувати заключний звіт про виконання всіх завдань з економічним аналізом відповідних часових рядів.


Оцінювання якості прогнозів. Комбінування прогнозів