Экономико-математические методы прогнозирования сезонного изменения цен на бытовые товары (на примере продаж напольных вентиляторов)
| ГОСУДАРСТВЕННОЕ
ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ МОСКОВСКОЙ ОБЛАСТИ УПРАВЛЕНИЯ, ЭКОНОМИКИ И СОЦИОЛОГИИ |
КАФЕДРА МАТЕМАТИКИ И
ЕСТЕСТВЕННОНАУЧНЫХ ДИСЦИПЛИН
Курсовая работа
на тему
«Экономико-математические методы прогнозирования сезонного изменения цен на бытовые товары (на примере продаж напольных вентиляторов)»
по дисциплине
«Методы
социально-экономического прогнозирования»
Королев, 2011
Содержание
Введение
- Описание предметной области
- Экономико-математическая постановка задачи
- Решение поставленной задачи
- Выводы
- Заключение
- Список используемых источников
Введение
В
регрессионных моделях в
Качественные
признаки могут существенно влиять
на структуру линейных связей между
переменными и приводить к
скачкообразному изменению
Например, необходимо изучить зависимость размера заработной платы Y работников не только от количественных факторов X1, X2, … , Xn, но и от качественного признака Z1 (например, фактора «пол работника»).
В
принципе можно было бы получить оценки
регрессионной модели
для каждого уровня качественного признака (т.е. выборочное уравнение регрессии отдельно для работников-мужчин и отдельно – для женщин), a затем изучать различия между ними.
Но есть и другой подход, позволяющий оценивать влияние значений количественных переменных и уровней качественных признаков с помощью одного уравнения регрессии. Этот подход связан с введением так называемых фиктивных переменных.
В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: «0» или «1» (например, значение такой переменной Z1 по фактору «пол»: Z1i = 0 для работников-женщин и Z1i = 1 – для мужчин).
В
этом случае первоначальная регрессионная
модель (1) заработной платы изменится
и примет вид:
где
Таким образом, принимая модель (2), мы считаем, что средняя заработная плата у мужчин на выше, чем у женщин, при неизменных значениях других параметров модели. A проверяя гипотезу , мы можем установить существенность влияния фактора «пол» на размер заработной платы работника.
Следует отметить, что в принципе качественное различие можно формализовать с помощью любой переменной, принимающей два разных значения, не обязательно «0» или «1». Однако почти всегда используются фиктивные переменные типа «0-1», так как при этом интерпретация полученных результатов выглядит наиболее просто.
Если рассматриваемый качественный признак имеет несколько (k) уровней (градаций), то в принципе можно было ввести в регрессионную модель дискретную переменную, принимающую такое же количество значений (например, при исследовании зависимости заработной платы Y от уровня образования Z можно рассматривать k = 3 значения: z2i = 1 при наличии начального образования, z2i = 2 при наличии среднего и z2i = 3 при наличии высшего образования). Однако обычно так не поступают из-за того, что сумма этих переменных будет равна константе, которая уже имеется в уравнении множественной регрессии (и, стало быть, матрица системы нормальных уравнений будет иметь линейно зависимые столбцы и ее определитель будет равен нулю), a вводят (k – 1) бинарных переменных.
В
рассматриваемом примере для
учета фактора образования
где
Третьей бинарной переменной Z21i, очевидно, не требуется; если i – ый работник имеет начальное образование, это будет отражено парой значений z22i = 0, z23i = 0.
Более
того, вводить третью бинарную переменную
Z21i (со значениями z21i
= 1, если i – ый работник имеет начальное
образование; z21i = 0 – в остальных
случаях) нельзя, так как при этом для любого
i – го работника z21i
+ z22i +
z23i = 1, т.е. при суммировании
элементов столбцов общей матрицы плана,
соответствующих фиктивным переменным
Z21, Z22, Z23, мы получили бы столбец,
состоящий из одних единиц. А так как в
матрице плана
такой столбец из единиц уже есть (первый столбец, соответствующий свободному члену уравнения регрессии), то это означало бы линейную зависимость значений (столбцов) общей матрицы плана X, т.е. нарушило бы предпосылку о мультиколлинеарности регрессионного анализа. Таким образом оказалось бы невозможным получение оценок методом наименьших квадратов.
Рассматриваемые выше регрессионные модели
(2) и (3) отражали влияние качественного
признака (фиктивных переменных) только
на значения переменной Y,
т.е. на свободный член уравнения регрессии.
В более сложных моделях может быть отражена
также зависимость фиктивных переменных
на сами параметры (коэффициенты) при переменных
регрессионной модели. Например, при наличии
в модели объясняющих переменных – количественной
X1 и фиктивных Z11, Z12, Z21,
Z22, из которых Z11, Z12 влияют только
на значение коэффициентов при X1, а
Z21, Z22 – только на величину свободного
члена уравнения, такая регрессионная
модель примет вид:
Модели типа (4) используются, например, при исследовании зависимости объема потребления Y некоторого продукта от дохода потребителя X, когда одни качественные признаки (например, фактор сезонности) влияют лишь на количество потребляемого продукта (свободный член уравнения регрессии), a другие (например, уровень доходности домашнего хозяйства) – на параметр при X, интерпретируемый как»склонность к потреблению».
Задача.
Необходимо исследовать зависимость между результатами письменных вступительных и курсовых экзаменов. Получены следующие данные о числе решенных задач на вступительных экзаменах X (задание – 10 задач) и курсовых экзаменах Y (задание – 7 задач) 12 студентов, a также распределение этих студентов по фактору «пол»:
Таблица 1
| № студента | Число решенных задач | Пол студента | |
| i | на вступительных экзаменах xi | на курсовых экзаменах yi | |
| 1 | 10 | 6 | муж. |
| 2 | 6 | 4 | жен. |
| 3 | 8 | 4 | муж. |
| 4 | 8 | 5 | жен. |
| 6 | 6 | 4 | жен. |
| 6 | 7 | 7 | муж. |
| 7 | 6 | 3 | жен. |
| 8 | 7 | 4 | муж. |
| 9 | 9 | 7 | муж. |
| 10 | 6 | 3 | жен. |
| 11 | 5 | 2 | муж. |
| 12 | 7 | 3 | жен. |
Построить линейную регрессионную модель Y по X с использованием фиктивной переменной по фактору «пол». Выяснить, можно ли считать, что эта модель одна и та же для юношей и девушек?
Решение.
Вначале рассчитаем уравнение парной регрессии Y по X, используя первый или второй способы в MS EXCEL. Получим в частности, первым способом итоги регрессии
| 0,814545 | -1,43636 |
| 0,242368 | 1,749144 |
| 0,530402 | 1,160251 |
| 11,2948 | 10 |
| 15,20485 | 13,46182 |
Значит,
уравнение регрессии имеет вид
Коэффициент детерминации R2 = 0,530402, т.е. 53,0402 % вариации зависимой переменной Y обусловлено регрессией. Уравнение регрессии в целом значимо согласно F-критерию, так как Fфакт. = 11,2948>F0,05;1;10 = 4,96.
Однако полученное уравнение не учитывает влияние качественного признака – фактора «пол».
Для
его учета введем фиктивную бинарную
переменную
Согласно этому, заменим третий столбец на нули и единицы, т.е. получим значения бинарной переменной, используя оператор условного перехода =ЕСЛИ(D3= «муж.»;1;0). Полагая, что фактор «пол» может повлиять на результаты курсовых экзаменов наряду с итогами вступительных экзаменов, построим множественную регрессию. Теперь в качестве независимых переменных будут выступать два аргумента (массива): результаты вступительных экзаменов xi и пол студента zi (бинарная переменная).
Таблица 2
| Результаты вступительных экзаменов | Пол студента (бинарная переменная) zi | Результаты курсовых экзаменов |
| 10 | 1 | 6 |
| 6 | 0 | 4 |
| 8 | 1 | 4 |
| 8 | 0 | 5 |
| 6 | 0 | 4 |
| 7 | 1 | 7 |
| 6 | 0 | 3 |
| 7 | 1 | 4 |
| 9 | 1 | 7 |
| 6 | 0 | 3 |
| 5 | 1 | 2 |
| 7 | 0 | 3 |
Применяя
второй способ построения регрессии, получим
следующие значения коэффициентов
Таким образом, получим уравнение
| Y-пересечение | -1,16519 |
| Переменная Х1 | 0,743363 |
| Переменная Х2 | 0,466077 |
Коэффициент детерминации тоже вычисляется и равен R2 = 0,549084. Наряду с этими параметрами также вычисляется значение F-статистики (факторной) Fфакт. = 5,47969. Отсюда следует, что уравнение регрессии (6) в целом значимо, так как для уровня значимости
Fфакт.>F0,05;2;9 = 4,26
Можно было не сравнивать эти две величины, так как второй способ построения регрессии выдает также под ячейкой «Значимость F» значение аргумента распределения Фишера 0,027761. Поскольку оно меньше уровня значимости , то уравнение (6) в целом значимо.
Из уравнения (6) следует, что при одном и том же числе решенных задач на вступительных экзаменах хi, на курсовых экзаменах юноши решают в среднем на 0,466077 задачи больше, что изображено на рисунке.
Рис.
Две линии зависимости
Но коэффициент регрессии 0,466077 при фиктивной переменной z1i не является значимым по t-критерию Стьюдента, так как
tфакт.<t0,95;9 = 2,262
Следовательно, для наших данных влияние фактора «пол» оказалось несущественным (незначимым), и есть основания считать, что регрессионная зависимость результатов курсовых экзаменов в зависимости от вступительных одна и та же для юношей и девушек.
Замечание.
Если бы в регрессионной модели мы
хотели учесть другие факторы с большим,
чем две, числом ki градаций
(здесь i – номер фактора), то, как отмечено
выше, следовало бы ввести в модель (ki
– 1) бинарных переменных. Например, если
было бы необходимо изучить влияние на
результаты курсового экзамена фактора
Z2 – «тип учебного заведения», оконченного
студентом (школа, техникум, колледж), то
в регрессионную модель (6) следовало ввести
ki – 1 = 3 – 1 = 2 бинарные переменные
где
Но при этом, конечно, следовало увеличить объем выборки n, так как надежность статистических выводов существенно зависит от отношения объема выборки n к общему числу всех параметров регрессионной модели: чем больше величина отношения n/(m + 1), тем точнее соответствующие оценки, тем надежнее статистические выводы.