Анализ и прогнозирование временных рядов

 

Содержание 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Однофакторный регрессионно-корреляционный анализ

1. Построим поле корреляции, для чего отложим на плоскости в прямоугольной системе координат точки (xi и yi)
k=100+10∙4+4=144            
                        Таблица 1          
№ региона Среднедневная зарплата,руб.x Среднедушевой прожиточный  минимум в день, руб. y          
1 97 152          
2 79 128          
3 86 148          
4 77 132          
5 104 148          
6 69 124          
7 100 140          
8 93 152          
9 81 140          
10 102 160          
11 74 132          
12 90 144          
 
 
 
             
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
               
 
 
 
 
 
 
 
 

Рисунок 1 - Поле корреляции 
 
 
 

 

x y yx x2 y2 ŷ y - ŷ 100 |Ai| (y - ŷ)2
1 97 152 14744 9409 23104 148,947 3,053 2,009 9,321 87,111 53,003 106,778
2 79 128 10112 6241 16384 134,907 -6,907 5,396 47,707 75,111 45,693 186,778
3 86 148 12728 7396 21904 140,367 7,633 5,157 58,263 2,778 1,689 40,111
4 77 132 10164 5929 17424 133,347 -1,347 1,020 1,814 113,778 69,217 93,444
5 104 148 15392 10816 21904 154,407 -6,407 4,329 41,050 266,778 162,316 40,111
6 69 124 8556 4761 15376 127,107 -3,107 2,506 9,653 348,444 211,984 312,111
7 100 140 14000 10000 19600 151,287 -11,287 8,062 127,396 152,111 92,551 2,778
8 93 152 14136 8649 23104 145,827 6,173 4,061 38,106 28,444 17,308 106,778
9 81 140 11340 6561 19600 136,467 3,533 2,524 12,482 44,444 27,037 2,778
10 102 160 16320 10404 25600 152,847 7,153 4,471 51,165 205,444 125,000 336,111
11 74 132 9768 5476 17424 131,007 0,993 0,752 0,986 186,778 113,628 93,444
12 90 144 12960 8100 20736 143,487 0,513 0,356 0,263 5,444 3,314 5,444
Итого 1052 1700 150220 93742 242160 1700,004 -0,004 40,643 398,207 1516,667 922,740 1326,667
Ср.зн. 87,67 141,67 12518,33 7811,83 20180,00 141,667   3,387        
   11,242 10,515                    
     126,389 110,556                    

2. Для расчета параметров линейной регрессии строим расчетную таблицу (табл. 2)

Таблица 2    
 

 

    . Построим линейное уравнение парной регрессии y по x. Используя данные таблицы 2, имеем

    

 

    

 

    Тогда линейное уравнение парной регрессии имеет вид:

    

    Оно показывает, что с увеличением  среднедушевого прожиточного минимума на 1 руб. средняя зарплата возрастает в среднем на 0,78 руб. 

    2б. Учитывая:

    

                     

    оценим  тесноту линейной связи с помощью  линейного коэффициента парной корреляции:

    

    Найдем  коэффициент детерминации:

    

 

    Это значит, что почти 70% вариации заработной платы y объясняется вариацией фактора x-среднедушевого прожиточного минимума.

    2в. Для оценки качества полученной модели найдем среднюю ошибку аппроксимации:

    

    В среднем, расчетные значения отклоняются  от фактических на 3,387%. Качество построенной модели оценивается как хорошее, т.к. значение -       менее 8%.

    2г. Для оценки силы связи признаков y и x найдем средний коэффициент эластичности:

    

 

    Таким образом, в среднем на 0,48% по совокупности изменится среднедневная зарплата от своей величины при изменении среднедушевого прожиточного минимума в день одного трудоспособного на 1%.

    Бета-коэффициент:

    

    показывает, что среднее квадратическое отклонение среднедневной зарплаты изменится в среднем на 83% от своего значения при изменении прожиточного минимума в день одного трудоспособного на величину его среднего квадратического отклонения.

    2д. Для оценки статистической надежности результатов использования F -критерий Фишера.

    Выдвигаем нулевую гипотезу H0 о статистической незначимости полученного линейного уравнения.

    Рассчитаем  фактическое значение F -критерия при  заданном уровне значимости :

    

    Сравнивая табличное и фактическое значения, отмечаем, что

    

    что указывает на необходимость отвергнуть выдвинутую гипотезу H0.

    2е. Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей.

    Выдвигаем гипотезу H0 о статистически незначимом отличии показателей регрессии от нуля:

    Табличное значение t-статистики для числа степеней свободы

    

    при заданном уровне значимости составляет 2,23.

    Определим величину случайных ошибок: 

    

    

 

    

 

    

 

    Найдем  соответствующие фактические значения t-критерия Стьюдента:

    

    

    

 

    Фактические значения t-статистики превосходят табличное значение =2,23

                              

    поэтому гипотеза H0 о статистически незначимом отличии показателей регрессии от нуля отклоняется, т.е. параметры и не случайно отличаются от нуля, а статистически значимы.

    Для расчета доверительных интервалов для параметров и определим их предельные ошибки

    

    Доверительные интервалы

    для параметра : (41,351; 105,223),

    для параметра  (0,419; 1,141).

    С вероятностью

    

    можно утверждать, что параметры  и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

    3. Проверим результаты, полученные в п.2 с помощью ППП Excel.

Рисунок 2 - Диалоговое окно «Мастер функций»

 

Рисунок 3 - Диалоговое окно ввода аргументов функции ЛИНЕЙН 
 

    Дополнительная  регрессионная статистика будет  выводиться в порядке, указанном  в следующей схеме (табл. 3): 

          Таблица 3

Значение  коэффициента b Значение коэффициента a
Среднее квадратическое

отклонение b

Среднее квадратическое

отклонение a

Коэффициент

детерминации R2

Cреднеквадратическое отклонение у
F – статистика Число степеней свободы
Регрессионная сумма 

квадратов

Остаточная  сумма квадратов
 

Рисунок 4 - Результат вычисления функции ЛИНЕЙН 

Рисунок 5 - Подключение надстройки Пакет анализа

Рисунок 6 - Диалоговое окно Анализ данных 

Рисунок 7 - Диалоговое окно ввода параметров

инструмента Регрессия 

Рисунок 8 - Результаты применения инструмента Регрессия 

    4. Построению показательной модели

                                                                        (1)

      предшествует процедура линеаризации  переменных.

    Прологарифмируем  обе части уравнения (1), получим:

                                                              (2)

    Введем  обозначения

    

            
             

    Тогда уравнение (2) запишем в виде:

                                                         (3)

    Параметры полученной линейной модели (3) рассчитываем аналогично тому, как это было сделано ранее. Используем данные расчетной таблицы 4. 
 

 

x Y Yx x2 Y2
100 |Ai|
 
 
 
1 97 5,024 487,316 9409 25,239 5,000 0,024 0,473 0,001 87,111 0,002 0,005
2 79 4,852 383,310 6241 23,542 4,905 -0,053 1,086 0,003 75,111 0,002 0,010
3 86 4,997 429,760 7396 24,972 4,942 0,055 1,109 0,003 2,778 0,000 0,002
4 77 4,883 375,976 5929 23,842 4,894 -0,011 0,231 0,000 113,778 0,003 0,005
5 104 4,997 519,710 10816 24,972 5,037 -0,040 0,800 0,002 266,778 0,007 0,002
6 69 4,820 332,599 4761 23,235 4,852 -0,031 0,652 0,001 348,444 0,010 0,017
7 100 4,942 494,164 10000 24,420 5,016 -0,074 1,505 0,006 152,111 0,004 0,000
8 93 5,024 467,221 8649 25,239 4,979 0,045 0,895 0,002 28,444 0,001 0,005
9 81 4,942 400,273 6561 24,420 4,915 0,026 0,533 0,001 44,444 0,001 0,000
10 102 5,075 517,668 10404 25,757 5,027 0,049 0,957 0,002 205,444 0,006 0,015
11 74 4,883 361,327 5476 23,842 4,878 0,005 0,094 0,000 186,778 0,005 0,005
12 90 4,970 447,283 8100 24,699 4,963 0,007 0,137 0,000 5,444 0,000 0,000
Итого 1052 59,408 5216,609 93742 294,180 59,408 0,001 8,473 0,020 1516,667 0,043 0,067
Ср.зн. 87,67 4,951 434,717 7811,83 24,515 4,951   0,706        
 
11,242 0,075                    
126,389 0,006                    

Таблица 4 
 
 
 
 
 

 

    Построим  линейное уравнение парной регрессии  Y по X. Используя данные таблицы 3, имеем:

    

    Получим линейное уравнение регрессии:

                                                   (4)

    Тесноту полученной линейной модели характеризует  линейный коэффициент парной корреляции:

    

    Коэффициент детерминации при этом равен:

    

    Это означает, что 63% вариации фактора  Y объясняется вариацией фактора x.

    Средняя ошибка линейной аппроксимации составляет:

    

    Проведя потенцирование  уравнения (4), получим  искомую нелинейную (показательную) модель

                             (5) 

    Результаты вычисления параметров показательной кривой (1) проверим с помощью ППП Excel , для чего используем встроенную статистическую функцию ЛГРФПРИБЛ. 

Рисунок 9 - Результат вычисления функции ЛГРФПРИБЛ 

    Для расчета индекса корреляции нелинейной регрессии воспользуемся вспомогательной таблицей 5. 
 
 
 
 
 
 

 

Таблица 5

x y ŷ (y - ŷ)2  
 
1 97 152 148,947 9,321 106,778 87,111
2 79 128 134,907 47,707 186,778 75,111
3 86 148 140,367 58,263 40,111 2,778
4 77 132 133,347 1,814 93,444 113,778
5 104 148 154,407 41,050 40,111 266,778
6 69 124 127,107 9,653 312,111 348,444
7 100 140 151,287 127,396 2,778 152,111
8 93 152 145,827 38,106 106,778 28,444
9 81 140 136,467 12,482 2,778 44,444
10 102 160 152,847 51,165 336,111 205,444
11 74 132 131,007 0,986 93,444 186,778
12 90 144 143,487 0,263 5,444 5,444
Итого 1052 1700 1700,004 398,207 1326,667 1516,667
 

 

    Найдем  коэффициент детерминации

    

=0,7.

    Это означает, что 70% вариации заработной платы  y объясняется вариацией фактора   x- среднедушевого прожиточного минимума.

    Рассчитаем  фактическое значение F- критерия при заданном уровне значимости = 0,05:

    

    Сравнивая табличное  =4,96 и фактическое =23,3 значения, отмечаем, что

    

    что указывает на необходимость отвергнуть выдвинутую гипотезу H0 о статистически незначимых параметрах уравнения (5). 
 

    5. Так как коэффициенты детерминации, соответствующие линейной и показательной моделям практически равны (около 70% вариации заработной платы y объясняется вариацией фактора   x- среднедушевого прожиточного минимума в обеих моделях), то нет весомых оснований отдать предпочтение какой-либо модели. Тем не менее, прогнозное значение результата рассчитаем по показательной модели (

    По  условию задачи прогнозное значение фактора выше его среднего уровня на 5%, тогда оно составляет:

    

    и прогнозное значение зарплаты при этом составит:

    

    Найдем  ошибку прогноза:

    

    и доверительный интервал прогноза при  уровне значимости  = 0,05.

    Предельная  ошибка прогноза, которая 95% случаев  не будет превышена, составит:

    

    Доверительный интервал прогноза

    (125,7871; 155,2529). 
 
 
 
 
 
 
 
 

Анализ  и прогнозирование  временных рядов

    Заданы временные ряды:

  • первый из них Y-объем реализации продукции фирмы. Это зависимая переменная.
  • Следующие ряды:

    Х1 – время,

    Х2 – расходы на рекламу,

    Х3 – цена товара,

    Х4 – средняя цена конкурентов,

    X5 – индекс потребительских расходов

являются  рядами независимых переменных.

Статистические  данные по всем переменным приведены в таблице 6.

    В рассматриваемом примере число  наблюдений n = 20, факторных признаков m = 5.

    Таблица 6

    

 

    1. Для проведения корреляционного анализа нужно выполнить следующие действия:

    1) расположить данные в смежных диапазонах ячеек;

    2) выбрать команду Сервис => Анализ данных (рисунок 10). Появится диалоговое окно Анализ данных (рисунок  11); 
 

    

    Рисунок  10 - Выбор команды анализ данных

    3) в диалоговом окне Анализ данных выбрать инструмент Корреляция (рисунок 11), щелкнуть по кнопке ОК. появится диалоговое окно Корреляция;

    

    Рисунок  11 – Диалоговое окно анализ данных

    4) в диалоговом окне Корреляция в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если также выделены заголовки столбцов, то установить флажок «Метки в первой строке» (рисунок  12);

    5) выбрать параметры вывода. В данном  примере – установить переключатель «Новый рабочий лист»;

    6) щелкнуть по кнопке ОК. 

    

    Рисунок  12 - Диалоговое окно Корреляция 

    На  новом рабочем листе получаем результаты вычислений – таблицу значений коэффициентов парной корреляции (рисунок  13). 

    

Рисунок  13 - Результаты корреляционного анализа

    Выбор вида модели

    Анализ  матрицы коэффициентов парной корреляции показывает, что зависимая переменная, т.е. объем реализации, имеет тесную связь:

    – с индексом потребительских расходов

,

    – с расходами на рекламу           ,

    – со временем                                .

    Однако  факторы Х1 и X5 тесно связаны между собой

,

что свидетельствует  о наличии коллинеарности. Из этих двух переменных оставим в модели X5 – индекс потребительских расходов. Переменные Х3 (цена товара), и Х4 (цена конкурента) также исключаем из модели, т.к. связь их с результативным признаком Y (объемом реализации) невысокая.

    После исключения незначимых факторов имеем n = 20, k = 2.

    Модель  приобретает вид:

.

    Оценка  параметров модели

    На  основе метода наименьших квадратов  проведем оценку параметров регрессии. При этом используем данные, приведенные в таблице 7.

    Таблица 7

Y Х0 Х2 Х5
328 1 5,1 67
336 1 4,5 71
342 1 4,6 73
276 1 7 65
296 1 4,5 79
296 1 3,9 81
307 1 5,1 90
312 1 3,6 92
400 1 3,8 126
395 1 3,8 102
391 1 5 94
391 1 5,5 96
250 1 3 91
283 1 4 101
358 1 4,5 103
363 1 10,3 104
374 1 12,7 88
395 1 13,8 101
402 1 15 105
406 1 16,0 106
Анализ и прогнозирование временных рядов