Анализ и прогнозирование динамики средней продолжительности жизни в 30 странах мира
Министерство образования и науки Российской Федерации
Бердский филиал ФГБОУ ВПО «Новосибирский Государственный Технический Университет»
Курсовая работа
по дисциплине: «Эконометрика»
на тему: «Анализ и прогнозирование динамики средней продолжительности жизни в 30 странах мира»
Выполнила: Студентка III курса Группа: ОТЗ-052 Шифр: 505669103
Проверил:
к.ф.м.н. доцент .
г. Новосибирск
2013 г.
Содержание
Введение
В данной работе я использовала методы эконометрического анализа с целью моделирования и прогнозирования, данных средней продолжительности жизни в странах мира. Значения представляют собой временной ряд данных 30 стран мира. Актуальность данной работы заключается в необходимости точного анализа и прогнозирования, данных временного ряда с целью определения дальнейшего изменения продолжительности жизни. Исследования проводились на основе статистических данных средней продолжительности жизни 30 стран мира.
Целью данной курсовой работы является описание, моделирование и выявление тенденций временного ряда средней продолжительности жизни стран мира. Но главная задача данной работы – это построение наиболее точных прогнозов относительно средней продолжительности жизни.
Первая часть курсовой работы состоит из теоретических аспектов. Даётся полное описание временных рядов, методов моделирования, анализа и прогнозирования временных рядов. Вторая часть представляет собой исследования и расчеты данных о средней продолжительности жизни стран мира. Строится трендовая модель, производится её анализ, и в конце работы производится прогнозирование на основе полученных данных.
1 Теоретическая часть
1.1 Временные ряды и задачи их анализа
Последовательность наблюдений некоторых показателей упорядоченных в зависимости от последовательно возрастающих или убывающих значений другого показателя называется динамическим рядом или рядом динамики.
Если в качестве показателя в зависимости от которого идет упорядочение, берется время, то такой ряд называется временным рядом. Отдельные наблюдения называются уровнями ряда, которые будем обозначать yt (t= 1,2,..., n), где n — число уровней.
В общем виде при исследовании экономического временного ряда yt выделяются несколько составляющих:
yt=ut+vt+ct+Еt (t = 1,2,..., п)- временной ряд
где ut — тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов, т. е. длительную («вековую») тенденцию изменения признака (например, рост населения, экономическое развитие, изменение структуры потребления и т. п.). Если во временном ряду меняется длительная тенденция к изменению показателя, то говорят, что в этом ряду есть тренд;
vt — сезонная компонента, отражающая повторяемость экономических процессов в течение не очень длительного периода (года, иногда месяца, недели и т. д., например, объем продаж товаров или перевозок пассажиров в различные времена года);
ct — циклическая компонента, отражающая повторяемость экономических процессов в течение длительных периодов (например, влияние волн экономической активности Кондратьева, демографических «ям», циклов солнечной активности и т. п.);
Еt — случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов.
Следует обратить внимание на то, что в отличие от Еt первые три составляющие (компоненты) ut,, vt, ct являются закономерными, неслучайными.
Отметим основные этапы анализа временных радов:
- графическое представление и описание поведения временного рада;
- выделение и удаление закономерных (неслучайных) составляющих временного рада (тренда, сезонных и циклических составляющих);
- сглаживание и фильтрация (удаление низко- или высокочастотных составляющих временного рада);
- исследование случайной составляющей временного рада, построение и проверка адекватности математической модели для ее описания;
- прогнозирование развития изучаемого процесса на основе имеющегося временного рада;
- исследование взаимосвязи между различными временными радами.
1.2 Выявление аномальных наблюдений
Аномальный уровень – отдельное значение уровня временного ряда, которое не отвечает потенциальным возможностям исследуемого показателя и оказывает существенное влияние на значения основных характеристик временного ряда.
Выявление аномальных наблюдений является обязательной процедурой во время предварительного анализа временного ряда. Для диагностики аномальных наблюдений разработаны различные критерии, например, метод Ирвина.
Для всех или только для подозреваемых в аномальности наблюдений вычисляется величина λt :
t=2, 3…n
Если рассчитанная величина λt превышает табличное значение, т.е. , то уровень yt считается аномальным. После выявления аномальных уровней определяются причины их возникновения, если точно установлено, что они вызваны ошибками первого рода, то они устраняются, либо заменяются простой средней арифметической двух соседних значений, либо заменой аномальных уровней соответствующими заменами по кривой, аппроксимирующей данный временной ряд.
1.3 Определение наличия тренда
Проверка гипотезы существования тенденции во временном ряду
Прогнозирование временных рядов целесообразно начинать с построения графика исследуемого показателя. Однако в нём не всегда прослеживается присутствие тренда. Поэтому в этих случаях необходимо выяснить – существует ли тенденция во временном ряду или она отсутствует.
Отметим, что о наличии тренда говорит не только изменение среднего значения показателя (уменьшение, увеличение), но и изменение дисперсии, автокорреляции, корреляции с другими показателями и т.д. Тенденцию среднего, дисперсии можно определить визуально из графика исходных данных. Проверка наличия или отсутствия неслучайной (зависящей от времени t) составляющей сводится к проверке гипотезы о неизменности среднего значения временного ряда. Процедура проверки может быть осуществлена с помощью различных методов, например:
- метод проверки разностей средних уровней;
- метод проверки Фостера – Стьюарта.
Метод проверки разностей средних уровней.
Реализация этого метода состоит из четырех этапов. На первом этапе исходный временной ряд y1, y2, y3, …, yn разбивается на две примерно равные по числу уровней части: в первой части n1 первых уровней исходного ряда, во второй — n2 остальных уровней (n1 + n2 = n).
На втором этапе для каждой из этих частей вычисляются средние значения и дисперсии:
Третий этап заключается в проверке равенства (однородности) дисперсий обеих частей ряда с помощью критерия Фишера, которая основана на сравнении расчетного значения этого критерия:
С табличным (критическим) значением критерия Фишера Fтабл с заданным уровнем значимости (уровнем ошибки) a. Чаще всего a=0,05. Величина (1–a) называется доверительной вероятностью.
Если расчетное значение Fрасч меньше критического Fтабл, то гипотеза о равенстве дисперсий принимается, и переходят к четвертому этапу. Если Fрасч больше или равно Fтабл, гипотеза о равенстве дисперсий отклоняется и делается вывод, что данный метод для определения наличия тренда ответа не дает.
На четвертом этапе проверяется гипотеза об отсутствии тренда с использованием t-критерия Стьюдента. Для этого определяется расчетное значение критерия Стьюдента по формуле:
где s — среднеквадратическое отклонение разности средних:
Если расчетное значение t меньше критического значения статистики Стьюдента tтабл с заданным уровнем значимости a, гипотеза принимается, т.е. тренда нет, в противном случае тренд есть.
Метод Фостера-Стьюарта выявления тенденции во временном ряду.
Основными показателями Фостера-Стьюарта являются:
Где wt=Ct+Vt, dt=Ct-Vt, t=1,..n
Параметры Ct , Vt определяются следующим способом:
Из соотношений следует, что 0 ≤W ≤ n −1, а −(n −1) ≤ D ≤ n −1.
Если все уровни ряда одинаковы, то есть y1 = y2 = ... = yn , то W = 0, а если y1 < y2 < ...< yn , то W = n −1.
Показатели D и W используются для определения тенденции изменения во времени соответственного среднего значения и дисперсии St2 .
После определения для ряда значений D и W по критерию Стьюдента проверяется гипотеза об отсутствии тенденции в среднем значении D и W:
,
где σ1 , σ2 – среднеквадратические отклонения для D и W , W – среднее значение параметра W .
Теоретическое значение tтабл – критерий, определяют по таблицам Стьюдента при а=0,05. Если tpасч (1) > tтабл и tpасч(2) > tтабл , то гипотеза об отсутствии тренда с вероятностью 0,95 отклоняется. Если tpасч (1) < tтабл и tpасч(2) < tтабл, то с вероятностью 0,95 гипотеза об отсутствии тренда принимается.
1.4 Сглаживание (выравнивание) временных рядов
С целью более четкого выявления тенденции развития, в том числе для дальнейшего применения методов прогнозирования на основе трендовых моделей, производят сглаживание временных рядов.
Сглаживание временного ряда – это замена фактических уровней расчётными значениями, имеющими меньшую колеблемость, чем исходные данные. Соответствующие преобразования называются фильтрованием. Сглаживание временных рядов проводится в следующих случаях: если при графическом изображении временного ряда тренд прослеживается недостаточно хорошо; применяемые методы для анализа и прогнозирования требуют сглаживания временного ряда; при устранении аномальных наблюдений; при непосредственном прогнозировании экономических показателей и прогнозировании изменения тренда – точек поворота.
Существующие методы сглаживания делятся на две группы:
- Аналитические методы: Сглаживание с использованием кривой, проведенной между конкретными уровнями ряда так, чтобы она отображала тенденцию, присущую ряду и одновременно освобождала его от незначительных колебаний.
- Методы механического сглаживания: Сглаживается каждый отдельный уровень ряда с использованием фактических значений соседних с ним уровней. Для сглаживания временных рядов часто используются такие методы: простой скользящей средней; взвешенной скользящей средней; экспоненциального сглаживания.
Метод простой скользящей средней состоит в следующем. Определяется количество наблюдений, входящих в интервал сглаживания. При этом, если необходимо сгладить мелкие беспорядочные колебания, то интервал сглаживания берут по возможности большим. Если нужно сохранить более мелкие волны, но освободиться от периодических, повторяющихся колебаний, то интервал сглаживания уменьшают. Вычисляется среднее значение наблюдений, образующих интервал сглаживания, которое одновременно является сглаженным значением уровня, находящегося в центре интервала сглаживания. Длину интервала сглаживания удобно брать в виде нечётного числа. В этом случае расчётное значение скользящей средней будет приходиться на средний интервал ряда.
Если m нечётное число, то:
где m – количество наблюдений, входящих в интервал сглаживания, p – количество наблюдений, стоящих по разные стороны от сглаживаемого.
Если количество наблюдений в интервале сглаживания нечетно, то:
Первым сглаженным наблюдением будет .
В частности, если m = 3, то = (yt-1+yt+yt+1)/3, t=2,3…, (n-1).
Если m = 5, то = (yt-2+yt-1+ yt+yt+1+yt+2)/5, t=3,4…, (n-2).
Для того, чтобы не потерять первый и последний уровни ряда, их можно вычислить по формулам параболического интерполирования:
= (5y1+2y2-y3)/6
= (5yn+2yn-1-yn-2)/6
Метод простой скользящей средней даёт хорошие результаты во временных рядах с линейной тенденцией развития. Интервал сглаживания несколько раз сдвигается вправо, пока в интервал сглаживания не войдёт последнее наблюдение временного ряда.
Если развитие процесса носит нелинейный характер, то применение метода простой скользящей средней может привести к значительным искажениям исследуемого процесса. В таких случаях более надёжным является использование других методов сглаживания, например метода взвешенной скользящей средней.
Метод взвешенной скользящей средней. Сглаживание ведётся не по прямой, а по кривой более высокого порядка. Если сглаживание производится с помощью полинома второго или третьего порядка, то веса берутся, например, следующие:
1/35(-3; 12; 17; 12; -3) для m=5,
1/21(-2; 3; 6; 7; 6; 3; -2) для m =7.
Веса определяются экспериментальным путем, но с учетом следующих особенностей: веса симметричны относительно центрального члена; сумма весов с учётом общего множителя равна единице. Недостаток метода: первые и последние p наблюдений ряда остаются несглаженными.
1.5 Трендовые модели
Существует большое количество типов трендовых моделей. Наиболее часто используются:
- Полиномиальные
- Экспоненциальные
- S-образные
Полиномиальные кривые
=ao+a1*t – полином первой степени
=ao+a1*t+a2*t2 – полином второй степени
В отличие от полиномиальных кривых, использование экспоненциальных кривых предполагает, что дальнейшее развитие зависит от достигнутого уровня.
Используются две кривые: простая экспонента и модифицированная экспонента.
В экономике распространяются процессы, которые сначала растут медленно, затем ускоряются, а затем снова замедляют свой рост и т.д., например, спрос на товар. Для моделирования таких процессов используются S-образные кривые:
- Кривая Гомперца:
=k*, где
a, b – положительные параметры;
b<1;
K-асимптота.
- Логистическая кривая Перла-Рида:
, где
K-асимптота.
1.6 Проблема выбора вида кривой роста для конкретного временного ряда
Комплекс аналитических методов выравнивания временного ряда сводится к выбору конкретных кривых роста и определению их параметров. Плавную кривую (гладкую функцию), аппроксимирующую временной ряд, принято называть кривой роста.
Наиболее часто на практике используются кривые роста, которые позволяют описывать процессы трёх основных типов с монотонным характером развития без предела роста; пределом роста без точки перегиба, такие кривые называются кривыми с насыщением; пределом роста и с точкой перегиба, их называют S − образными кривыми.
Для описания процессов без предела роста служат функции-полиномы:
- прямая yt = a0 + a1t ,
- парабола yt = a0 + a1t + a2t2 ,
- полином третьей степени yt = a0 + a1t + a2t + a3t3 ,
- экспонента yt =ea0 + a1t,
- гипербола yt = a0 + a1/t.
Процессы такого типа характерны, в основном, для абсолютных объёмных показателей.
Формирование набора моделей, одна из которых будет использована для получения прогноза, происходит на основе интуитивных приемов (таких, например, как анализ графика ряда динамики), формализованных статистических процедур (исследование приростов уровней), а также содержательного анализа процесса. Предпочтение, как правило, отдается простым моделям, допускающим содержательную интерпретацию. К числу наиболее простых относятся линейные модели роста:
где a0 и a1 параметры модели, а t = 1, 2, …, n.
Рассмотрим оценку параметров модели по методу, сводящемуся к поиску таких значений a0 и a1, при которых сумма квадратов отклонений эмпирических (опытных) данных от рассчитанных по модели является наименьшей – метод наименьших квадратов (МНК). Математически критерий такой оценки параметров записывается в виде:
Для нахождения минимума функции двух переменных следует взять частные производные по a0 и a1, а затем приравнять их к нулю.
В результате получаем систему нормальных уравнений:
Решая эту систему двух линейных уравнений с двумя неизвестными, получим:
Для выбора вида кривой часто используют последовательные разности. Вычисляют первые, вторые и высшие порядки разностей уровней временного ряда:
Вычисления осуществляют до тех пор, пока разности не будут почти одинаковыми. Если одинаковыми будут первые разности, то тренд описывается прямой; если приблизительно одинаковые значения имеют вторые разности, то за тренд берут параболу второго порядка и т.д.
1.7 Проверка адекватности моделей
Важным этапом прогнозирования социально-экономических процессов является проверка адекватности (соответствия) модели реальному явлению. Для ее осуществления исследуют ряд остатков , то есть отклонений расчетных значений от фактических. Если модель выбрана правильно, то для остатков характерны:
- случайный характер значений. Проверяется с помощью критерия поворотных точек;
- отсутствие автокорреляции (самозависимости). Остатки должны быть независимыми друг от друга. Проверяется с помощью критерия Дарбина – Уотсона;
- нормальный закон распределения. Проверяется с помощью R/S – критерия;
- математическое ожидание остатков должно быть равно нулю и дисперсия остатков должна быть неизменна во времени. Проверяется с помощью t– критерия Стьюдента.
Для проверки условия случайности возникновения отдельных отклонений от модели часто используется критерий, основанный на поворотных точках. Уровень последовательности Ei считается максимумом, если он больше двух рядом стоящих уровней, т.е. Ei -1 < Ei > Ei +1 и минимумом, если он меньше обоих соседних уровней, т.е. Ei -1 > Ei < Ei +1. В обоих случаях Ei считается поворотной точкой; общее число поворотных точек для остаточной последовательности Ei обозначим через p.
В случайной выборке математическое ожидание числа точек поворота p и дисперсия s2p выражаются формулами:
Критерием случайности с 5%-ным уровнем значимости, т.е. с доверительной вероятностью 95%, является выполнение неравенства , где квадратные скобки означают целую часть числа. Если неравенство выполняется, то с вероятностью 95% делаем вывод о случайном характере ряда остатков. Если это неравенство не выполняется, модель считается неадекватной.
Проверка независимости значений уровней случайной компоненты, т.е. проверка отсутствия существенной автокорреляции в остаточной последовательности может осуществляться по ряду критериев, наиболее распространенным из которых является d-критерий Дарбина—Уотсона. Необходимо вычислить расчетное значение , где Еi – i- тый уровень остаточной последовательности (i=1..9). Теоретическое обоснование применения этого критерия обусловлено тем, что в динамических рядах как сами наблюдения, так и отклонения от них расположены в хронологическом порядке.
Значение d может располагаться в пределах от 0 до 4. При отсутствии автокорреляции значение d примерно равно 2. При полной автокорреляции – 0 или 4. Следовательно, оценки, получаемые по этому критерию, являются не точечными, а интервальными. Верхние (d2) и нижние (d1) критические значения, позволяющие принять или опровергнуть гипотезу об отсутствия автокорреляции, зависят от количества уровней динамического ряда и числа независимых переменных модели. Значения для этих границ при 5% уровне значимости приведены в Приложении 2. При сравнении расчетного значения d с табличным могут возникнуть следующие ситуации:
- d2<d<2 – ряд остатков не коррелирован;
- d<d1 – остатки содержат автокорреляцию;
- d1<d<d2 – область неопределенности, когда нет оснований ни принять, ни отвергнуть гипотезу о существовании автокорреляции. Необходимо применять другой критерий;
- d>2, то это свидетельствует об отрицательной связи, и его надо преобразовать по формуле d' = 4-d и посмотреть, в какой из трех первых интервалов попадает значение d'.
Установив наличие автокорреляции остатков, надо улучшать модель.
Если же ситуация оказалась неопределенной (d1<d<d2), применяют другие критерии. В частности, можно воспользоваться первым коэффициентом автокорреляции: . Для суждения о наличии или отсутствии автокорреляции в исследуемом ряду расчетное значение коэффициента r1 сравнивают с критическим для 5%-го уровня значимости (в нашем случае можно взять в качестве rкрит = 0,36). Если │r1│ меньше критического значения, то делается вывод об отсутствии автокорреляции в ряду остатков. Если │r1│ больше
Проверка гипотезы о нормальном распределении остаточной последовательности по R/SE – критерию. В нашем случае R = Emax - Emin, где Emax и Emin соответственно максимальный и минимальный уровни ряда остатков; . Вычисленное значение R/SE-критерия сравнивается с критическими нижней и верхней границами данного отношения. Критические границы приведены в Приложении 3. Если значение R/SE попадает в интервал между критическими границами, то с заданным уровнем значимости гипотеза о том, что остаточная последовательность распределена по нормальному закону, принимается; в противном случае эта гипотеза отвергается.
Проверка гипотезы о равенстве математического ожидания случайной компоненты нулю на основе t - критерия Стьюдента. Расчетное значение этого критерия задается формулой где — среднее арифметическое значение уровней остаточной последовательности Et; SE — стандартное (среднеквадратическое) отклонение для этой последовательности. Если расчетное значение t меньше критического значения ta,v статистики Стьюдента с заданным уровнем значимости a и числом степеней свободы v=n-1, то гипотеза о равенстве нулю математического ожидания случайной последовательности принимается; в противном случае эта гипотеза отвергается и модель считается неадекватной.
Если все четыре вышеперечисленные критерии дают положительный ответ, делается вывод о том, что выбранная модель является адекватной реальному ряду экономической динамики. Только в этом случае ее можно использовать для построения прогнозных оценок. В противном случае модель надо улучшать.
1.8 Оценка качества, значимости и точности модели
Если модель оказалась статистически адекватной эмпирическим данным, то предстоит оценить ее качество, значимость и точность.
Проверка качества модели проводится с помощью коэффициента детерминации . Он показывает, какую долю вариации исследуемого признака Y описывает наша модель под воздействием изучаемого фактора. Чем ближе к единице R2, тем лучше качество модели.
Проверка значимости модели проводится с помощью F – теста. Если расчетное значение Fрасч больше критического Fa,n1,n2 при заданном уровне значимости a и со степенями свободы v1=m и v2=n-m (где m – число факторов, включенных в модель), то модель считается значимой.
Для оценки точности модели используйте стандартную ошибку оценки прогнозируемого показателя (или среднеквадратическое отклонение от линии тренда)
где n- число опытов, m - число факторов, включенных в модель, и среднюю относительную ошибку аппроксимации . Если ошибка Еотн не превышает 15%, то точность модели считается приемлемой. В общем случае допустимый уровень точности, а, значит, и надежности прогноза, устанавливает пользователь модели, который в результате содержательного анализа проблемы выясняет, насколько она чувствительна к точности решения и насколько велики потери из-за неточного решения.
1.9 Построение прогнозов
Если в ходе проверки разрабатываемая модель признана значимой, достаточно точной, и ее качество нас устраивает, то на ее основе разрабатывается точечный прогноз. Он получается путем подстановки в модель значений времени t, соответствующих периоду упреждения k (количество шагов прогноза): t=n+k. Так в случае трендовой модели в виде полинома первой степени – линейной модели роста – экстраполяция на k шагов вперед имеет вид:
Для учета случайных колебаний при прогнозировании рассчитываются доверительные интервалы, зависящие от стандартной ошибки, периода упреждения k, длины временного интервала n и уровня значимости прогноза α. В частности, для прогноза будущие значения с вероятностью (1–α) попадут в интервал:
2 Практическая часть
Для практической части я использовал данные о смертности от болезней в г. Бердске с июля 2010, по февраль 2012.
Исходные данные:
t |
Yt, |
1 |
96 |
2 |
90 |
3 |
85 |
4 |
84 |
5 |
86 |
6 |
93 |
7 |
74 |
8 |
83 |
9 |
86 |
10 |
75 |
11 |
73 |
12 |
92 |
13 |
105 |
14 |
61 |
15 |
90 |
16 |
74 |
17 |
82 |
18 |
66 |
19 |
76 |
20 |
69 |
21 |
91 |
22 |
88 |
23 |
86 |
24 |
62 |
25 |
82 |
26 |
95 |
27 |
84 |
28 |
103 |
29 |
99 |
30 |
101 |
31 |
83 |
32 |
77 |

- Анализ и прогнозирование доходов населения
- Анализ и прогнозирование качества жизни населения
- Анализ и прогнозирование конкурентоспособности продовольственных товаров маркетинговой деятельности ОАО «Рогачевский молочно-консерв
- Анализ и прогнозирование конъюнктуры рынка ценных бумаг
- Анализ и прогнозирование конъюнктуры рынка ценных бумаг
- Анализ и прогнозирование конъюнктуры рынка ценных бумаг
- Анализ и прогнозирование конъюнктуры рынка ценных бумаг
- Анализ и прогнозирование временного ряда
- Анализ и прогнозирование временного ряда добычи нефти на ЮЛТ Приобского месторождения
- Анализ и прогнозирование временного ряда развития строительства Тюменской области
- Анализ и прогнозирование временного ряда развития строительства Тюменской области
- Анализ и прогнозирование временных рядов в профессиональном статистическом пакете Statgraphics Centurion
- Анализ и прогнозирование выпуска продукции предприятия
- Анализ и прогнозирование денежных потоков в процессе оценки бизнеса