Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Анализ и прогнозирование временных рядов

Содержание

Однофакторный регрессионно-корреляционный анализ

1. Построим поле корреляции, для чего отложим на плоскости в прямоугольной системе координат точки (x_i и y_i)

k=100+10∙4+4=144

Таблица 1

№ региона

Среднедневная зарплата,руб.x

Среднедушевой прожиточный минимум в день, руб. y

152

128

148

132

104

148

124

100

140

152

140

102

160

132

144

Рисунок 1 - Поле корреляции

№	x	y	yx	x²	y²	ŷ	y - ŷ	100 \|A_i\|	(y - ŷ)²
1	97	152	14744	9409	23104	148,947	3,053	2,009	9,321	87,111	53,003	106,778
2	79	128	10112	6241	16384	134,907	-6,907	5,396	47,707	75,111	45,693	186,778
3	86	148	12728	7396	21904	140,367	7,633	5,157	58,263	2,778	1,689	40,111
4	77	132	10164	5929	17424	133,347	-1,347	1,020	1,814	113,778	69,217	93,444
5	104	148	15392	10816	21904	154,407	-6,407	4,329	41,050	266,778	162,316	40,111
6	69	124	8556	4761	15376	127,107	-3,107	2,506	9,653	348,444	211,984	312,111
7	100	140	14000	10000	19600	151,287	-11,287	8,062	127,396	152,111	92,551	2,778
8	93	152	14136	8649	23104	145,827	6,173	4,061	38,106	28,444	17,308	106,778
9	81	140	11340	6561	19600	136,467	3,533	2,524	12,482	44,444	27,037	2,778
10	102	160	16320	10404	25600	152,847	7,153	4,471	51,165	205,444	125,000	336,111
11	74	132	9768	5476	17424	131,007	0,993	0,752	0,986	186,778	113,628	93,444
12	90	144	12960	8100	20736	143,487	0,513	0,356	0,263	5,444	3,314	5,444
Итого	1052	1700	150220	93742	242160	1700,004	-0,004	40,643	398,207	1516,667	922,740	1326,667
Ср.зн.	87,67	141,67	12518,33	7811,83	20180,00	141,667		3,387
	11,242	10,515
	126,389	110,556

2. Для расчета параметров линейной регрессии строим расчетную таблицу (табл. 2)

Таблица 2

2а. Построим линейное уравнение парной регрессии y по x. Используя данные таблицы 2, имеем

Тогда линейное уравнение парной регрессии имеет вид:

Оно показывает, что с увеличением среднедушевого прожиточного минимума на 1 руб. средняя зарплата возрастает в среднем на 0,78 руб.

2б. Учитывая:

оценим тесноту линейной связи с помощью линейного коэффициента парной корреляции:

Найдем коэффициент детерминации:

Это значит, что почти 70% вариации заработной платы y объясняется вариацией фактора x-среднедушевого прожиточного минимума.

2в. Для оценки качества полученной модели найдем среднюю ошибку аппроксимации:

В среднем, расчетные значения отклоняются от фактических на 3,387%. Качество построенной модели оценивается как хорошее, т.к. значение - менее 8%.

2г. Для оценки силы связи признаков y и x найдем средний коэффициент эластичности:

Таким образом, в среднем на 0,48% по совокупности изменится среднедневная зарплата от своей величины при изменении среднедушевого прожиточного минимума в день одного трудоспособного на 1%.

Бета-коэффициент:

показывает, что среднее квадратическое отклонение среднедневной зарплаты изменится в среднем на 83% от своего значения при изменении прожиточного минимума в день одного трудоспособного на величину его среднего квадратического отклонения.

2д. Для оценки статистической надежности результатов использования F -критерий Фишера.

Выдвигаем нулевую гипотезу H₀ о статистической незначимости полученного линейного уравнения.

Рассчитаем фактическое значение F -критерия при заданном уровне значимости :

Сравнивая табличное и фактическое значения, отмечаем, что

что указывает на необходимость отвергнуть выдвинутую гипотезу H₀.

2е. Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей.

Выдвигаем гипотезу H₀ о статистически незначимом отличии показателей регрессии от нуля:

Табличное значение t-статистики для числа степеней свободы

при заданном уровне значимости составляет 2,23.

Определим величину случайных ошибок:

Найдем соответствующие фактические значения t-критерия Стьюдента:

Фактические значения t-статистики превосходят табличное значение =2,23

поэтому гипотеза H₀ о статистически незначимом отличии показателей регрессии от нуля отклоняется, т.е. параметры и не случайно отличаются от нуля, а статистически значимы.

Для расчета доверительных интервалов для параметров и определим их предельные ошибки

Доверительные интервалы

для параметра : (41,351; 105,223),

для параметра (0,419; 1,141).

С вероятностью

можно утверждать, что параметры и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

3. Проверим результаты, полученные в п.2 с помощью ППП Excel.

Рисунок 2 - Диалоговое окно «Мастер функций»

Рисунок 3 - Диалоговое окно ввода аргументов функции ЛИНЕЙН

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме (табл. 3):

Таблица 3

Значение коэффициента b	Значение коэффициента a
Среднее квадратическое отклонение b	Среднее квадратическое отклонение a
Коэффициент детерминации R²	Cреднеквадратическое отклонение у
F – статистика	Число степеней свободы
Регрессионная сумма квадратов	Остаточная сумма квадратов

Рисунок 4 - Результат вычисления функции ЛИНЕЙН

Рисунок 5 - Подключение надстройки Пакет анализа

Рисунок 6 - Диалоговое окно Анализ данных

Рисунок 7 - Диалоговое окно ввода параметров

инструмента Регрессия

Рисунок 8 - Результаты применения инструмента Регрессия

4. Построению показательной модели

(1)

предшествует процедура линеаризации переменных.

Прологарифмируем обе части уравнения (1), получим:

(2)

Введем обозначения

Тогда уравнение (2) запишем в виде:

(3)

Параметры полученной линейной модели (3) рассчитываем аналогично тому, как это было сделано ранее. Используем данные расчетной таблицы 4.

№	x	Y	Yx	x²	Y²			100 \|A_i\|
1	97	5,024	487,316	9409	25,239	5,000	0,024	0,473	0,001	87,111	0,002	0,005
2	79	4,852	383,310	6241	23,542	4,905	-0,053	1,086	0,003	75,111	0,002	0,010
3	86	4,997	429,760	7396	24,972	4,942	0,055	1,109	0,003	2,778	0,000	0,002
4	77	4,883	375,976	5929	23,842	4,894	-0,011	0,231	0,000	113,778	0,003	0,005
5	104	4,997	519,710	10816	24,972	5,037	-0,040	0,800	0,002	266,778	0,007	0,002
6	69	4,820	332,599	4761	23,235	4,852	-0,031	0,652	0,001	348,444	0,010	0,017
7	100	4,942	494,164	10000	24,420	5,016	-0,074	1,505	0,006	152,111	0,004	0,000
8	93	5,024	467,221	8649	25,239	4,979	0,045	0,895	0,002	28,444	0,001	0,005
9	81	4,942	400,273	6561	24,420	4,915	0,026	0,533	0,001	44,444	0,001	0,000
10	102	5,075	517,668	10404	25,757	5,027	0,049	0,957	0,002	205,444	0,006	0,015
11	74	4,883	361,327	5476	23,842	4,878	0,005	0,094	0,000	186,778	0,005	0,005
12	90	4,970	447,283	8100	24,699	4,963	0,007	0,137	0,000	5,444	0,000	0,000
Итого	1052	59,408	5216,609	93742	294,180	59,408	0,001	8,473	0,020	1516,667	0,043	0,067
Ср.зн.	87,67	4,951	434,717	7811,83	24,515	4,951		0,706
	11,242	0,075
	126,389	0,006

Таблица 4

Построим линейное уравнение парной регрессии Y по X. Используя данные таблицы 3, имеем:

Получим линейное уравнение регрессии:

(4)

Тесноту полученной линейной модели характеризует линейный коэффициент парной корреляции:

Коэффициент детерминации при этом равен:

Это означает, что 63% вариации фактора Y объясняется вариацией фактора x.

Средняя ошибка линейной аппроксимации составляет:

Проведя потенцирование уравнения (4), получим искомую нелинейную (показательную) модель

(5)

Результаты вычисления параметров показательной кривой (1) проверим с помощью ППП Excel , для чего используем встроенную статистическую функцию ЛГРФПРИБЛ.

Рисунок 9 - Результат вычисления функции ЛГРФПРИБЛ

Для расчета индекса корреляции нелинейной регрессии воспользуемся вспомогательной таблицей 5.

Таблица 5

№	x	y	ŷ	(y - ŷ)²
1	97	152	148,947	9,321	106,778	87,111
2	79	128	134,907	47,707	186,778	75,111
3	86	148	140,367	58,263	40,111	2,778
4	77	132	133,347	1,814	93,444	113,778
5	104	148	154,407	41,050	40,111	266,778
6	69	124	127,107	9,653	312,111	348,444
7	100	140	151,287	127,396	2,778	152,111
8	93	152	145,827	38,106	106,778	28,444
9	81	140	136,467	12,482	2,778	44,444
10	102	160	152,847	51,165	336,111	205,444
11	74	132	131,007	0,986	93,444	186,778
12	90	144	143,487	0,263	5,444	5,444
Итого	1052	1700	1700,004	398,207	1326,667	1516,667

Найдем коэффициент детерминации

=0,7.

Это означает, что 70% вариации заработной платы y объясняется вариацией фактора x- среднедушевого прожиточного минимума.

Рассчитаем фактическое значение F- критерия при заданном уровне значимости = 0,05:

Сравнивая табличное =4,96 и фактическое =23,3 значения, отмечаем, что

что указывает на необходимость отвергнуть выдвинутую гипотезу H₀ о статистически незначимых параметрах уравнения (5).

5. Так как коэффициенты детерминации, соответствующие линейной и показательной моделям практически равны (около 70% вариации заработной платы y объясняется вариацией фактора x- среднедушевого прожиточного минимума в обеих моделях), то нет весомых оснований отдать предпочтение какой-либо модели. Тем не менее, прогнозное значение результата рассчитаем по показательной модели (

По условию задачи прогнозное значение фактора выше его среднего уровня на 5%, тогда оно составляет:

и прогнозное значение зарплаты при этом составит:

Найдем ошибку прогноза:

и доверительный интервал прогноза при уровне значимости = 0,05.

Предельная ошибка прогноза, которая 95% случаев не будет превышена, составит:

Доверительный интервал прогноза

(125,7871; 155,2529).

Анализ и прогнозирование временных рядов

Заданы временные ряды:

первый из них Y-объем реализации продукции фирмы. Это зависимая переменная.
Следующие ряды:

Х₁ – время,

Х₂ – расходы на рекламу,

Х₃ – цена товара,

Х₄ – средняя цена конкурентов,

X₅ – индекс потребительских расходов

являются рядами независимых переменных.

Статистические данные по всем переменным приведены в таблице 6.

В рассматриваемом примере число наблюдений n = 20, факторных признаков m = 5.

Таблица 6

1. Для проведения корреляционного анализа нужно выполнить следующие действия:

1) расположить данные в смежных диапазонах ячеек;

2) выбрать команду Сервис => Анализ данных (рисунок 10). Появится диалоговое окно Анализ данных (рисунок 11);

Рисунок 10 - Выбор команды анализ данных

3) в диалоговом окне Анализ данных выбрать инструмент Корреляция (рисунок 11), щелкнуть по кнопке ОК. появится диалоговое окно Корреляция;

Рисунок 11 – Диалоговое окно анализ данных

4) в диалоговом окне Корреляция в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если также выделены заголовки столбцов, то установить флажок «Метки в первой строке» (рисунок 12);

5) выбрать параметры вывода. В данном примере – установить переключатель «Новый рабочий лист»;

6) щелкнуть по кнопке ОК.

Рисунок 12 - Диалоговое окно Корреляция

На новом рабочем листе получаем результаты вычислений – таблицу значений коэффициентов парной корреляции (рисунок 13).

Рисунок 13 - Результаты корреляционного анализа

Выбор вида модели

Анализ матрицы коэффициентов парной корреляции показывает, что зависимая переменная, т.е. объем реализации, имеет тесную связь:

– с индексом потребительских расходов

– с расходами на рекламу ,

– со временем .

Однако факторы Х₁ и X₅ тесно связаны между собой

что свидетельствует о наличии коллинеарности. Из этих двух переменных оставим в модели X₅ – индекс потребительских расходов. Переменные Х₃ (цена товара), и Х₄ (цена конкурента) также исключаем из модели, т.к. связь их с результативным признаком Y (объемом реализации) невысокая.

После исключения незначимых факторов имеем n = 20, k = 2.

Модель приобретает вид:

Оценка параметров модели

На основе метода наименьших квадратов проведем оценку параметров регрессии. При этом используем данные, приведенные в таблице 7.

Таблица 7

Y	Х₀	Х₂	Х₅
328	1	5,1	67
336	1	4,5	71
342	1	4,6	73
276	1	7	65
296	1	4,5	79
296	1	3,9	81
307	1	5,1	90
312	1	3,6	92
400	1	3,8	126
395	1	3,8	102
391	1	5	94
391	1	5,5	96
250	1	3	91
283	1	4	101
358	1	4,5	103
363	1	10,3	104
374	1	12,7	88
395	1	13,8	101
402	1	15	105
406	1	16,0	106

Анализ и прогнозирование временных рядов 📙 Контрольная → 🆔 3891