Анализ различных факторов, влияющих на формирование цен на двухкомнатные квартиры на рынке первичного жилья
Министерство образования Республики Беларусь
Министерство образования и науки Российской Федерации
ГОСУДАРСТВЕННОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО
ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«БЕЛОРУССКО-РОССИЙСКИЙ УНИВЕРСИТЕТ»
Кафедра «Экономическая информатика»
КУРСОВАЯ РАБОТА
по дисциплине: «Многомерные регрессионные методы и модели»
на тему:
«Анализ различных факторов, влияющих на формирование цен на двухкомнатные квартиры на рынке первичного жилья»
Выполнила:
Андреенко Т.В.
Преподаватель:
Руководитель:
Могилев 2010 г.
Содержание
Введение......................
2 Описание статистического аппарата......................
2.1 Средние величины......................
2.2 Показатели вариации......................
2.3 Однофакторный дисперсионный анализ........................
2.4 Корреляционный анализ........................
2.5 Множественная корреляция....................
2.6 Множественный регрессионный анализ ..............................
2.7 Метод наименьших квадратов.....................
2.8 Проверка на мультиколениарность...........
2.9 Кластерный анализ........................
3 Экономический и статистический анализ результатов...................
Список использованных источников....................
Приложение А.............................
Приложение Б.............................
Приложение В.............................
Введение
Целью статистики в экономике является возможность правильно выбрать решения в условиях неопределенности сложившейся ситуации, умение спрогнозировать и предугадать социально-экономические явления, сделать правильные выводы и внести свой вклад в развитие экономической жизни. Выявление взаимосвязей – одна из важнейших задач применения статистики в экономике.
В данной работе я буду выявлять взаимосвязь между зависимым фактором цена двухкомнатной квартиры и независимыми площадь, тип дома, срок сдачи квартир, расстояние до метро, район .
Исследования проведены на примере данных Санкт-Петербурга по состоянию на декабрь 2004 г.
Для данной курсовой работы поставлены следующие цели:
1. составить таблицу с исходными данными;
2. провести предварительный анализ переменных;
3. сформулировать гипотезы о влиянии независимых переменных на результирующую переменную (цена жилья);
4. построить модель вида:
5. протестировать модель (выполнить проверку гипотез о значимости коэффициентов), обсудить значимость модели в целом (F-тест) и качество модели (R2);
6. дать интерпретацию полученных результатов;
7. проверить остатки на наличие автокорреляции для каждой модели (тест DW);
8. проверить исследование на наличие гетероскедастичности (визуально, формально с помощью теста Уайта и др.);
9. обсудить возможные причины появления автокорреляции, гетероскедастичности и способы избавления от них.
1 Описание данных и основных экономических понятий, используемых в анализе
Цена (Price) — количество денег, в обмен на которые продавец готов передать (продать), а покупатель согласен получить (купить) единицу товара. По сути, цена является коэффициентом обмена конкретного товара на деньги. Величину соотношений при обмене товаров определяет их стоимость. Поэтому цена является стоимостью, выраженной в деньгах, или денежной стоимостью единицы товара. Это фундаментальная экономическая категория.
Выделяют следующие ценообразующие факторы: затраты, ценность товара, спрос и его эластичность, конкуренция, государственное влияние. В данной курсовой работе рассматривается розничная цена. Розничная цена – цена, которая устанавливается на товар, продаваемый в личное потребление в малых количествах. В соответствии с ГОСТ Р 51303-99 розничная цена определена как цена товара, реализуемого непосредственно населению для личного, семейного, домашнего использования по договору розничной купли-продажи. Розничные цены включают издержки производства и обращения, прибыль предприятий, налоги и складываются с учётом ситуации на рынке.
Площадь (Space) — часть поверхности, ограниченная замкнутым контуром. Площадью может назваться любая величина, удовлетворяющая условиям: она положительно-определённая (не меньше нуля), она аддитивна. Единица измерения – 1 м.кв.
Этаж (Floor) , или уровень (в некоторых случаях) — уровень здания над (или под) уровнем земли.
Типы домов (Type) обусловлены видами строительства:
Панельное домостроение (Panel) — вид строительства, основанный на использовании крупных панелей фабричного производства. Компоненты панельного дома, представляющие из себя крупные железобетонные плиты, изготавливают на заводах. По качеству любые изделия, изготовленные в заводских условиях по существующим ГОСТам и с должным техконтролем, всегда будут отличаться в положительную сторону от изделий, произведённых прямо на стройплощадке. Строительство панельного дома напоминает сборку детского конструкторского набора. На стройплощадку доставляют уже готовые детали сооружения, которые строителям остаётся лишь смонтировать. В результате чего производительность труда на такой постройке очень высока. Площадь строительной площадки гораздо меньше той, что необходима при строительстве кирпичного дома.
Моноли́тное строи́тельство - технология возведения зданий и сооружений из железобетона, которая позволяет в короткие сроки возводить здания и сооружения практически любой этажности и формы. К основным преимуществам монолитного строительства обычно относят: возможность строительства зданий и сооружений любой конфигурации и формы, создания свободной планировки помещений; высокую огнестойкость конструкций; высокая сейсмостойкость. Недостатки монолитного строительства: невысокая прочность при большой массе (напр. прочность бетона в 10 раз меньше прочности стали); высокая трудоемкость (в сравнении с каркасно-панельным строительством); повышенные градиенты свойств.
Кирпичные дома (Brick) – самые прочные дома, но процесс построения такого дома достаточно долгий и трудоёмкий.
Срок сдачи (Time) —это период времени, за который осуществляется строительство жилого дома. Измеряется в месяцах.
Городски́е райо́ны (DictrictN) — наименьшие административные единицы, входящие в состав городских территорий. В данной курсовой работе представлены районы Санкт-Петербурга.
Транспортная система (Transp) — транспортная инфраструктура, транспортные предприятия, транспортные средства и управление в совокупности. Единая транспортная система обеспечивает согласованное развитие и функционирование всех видов транспорта с целью максимального удовлетворения транспортных потребностей при минимальных затратах. В данной работе рассматривается удаленность объекта от близлежащих станций метро.
2 Описание математического аппарата
2.1 Средние величины
Средняя величина – обобщающая характеристика изучаемого признака в исследуемой совокупности. Она отражает его типичный уровень в расчете на единицу совокупности в конкретных условиях времени и места.
1) Средняя арифметическая взвешенная – используется, если частоты признака не равны между собой
где – средняя арифметическая;
хi – отдельные варианты признака (середины интервалов);
fi – частота признака.
К структурным средним, наиболее часто используемым статистикой, относят медиану и моду.
Медиана (Ме) – это значение признака, которое приходится на середину ранжированного ряда распределения.
В интервальному ряду распределения медиана определяется по формуле
где - начало медианного интервала;
- величина медианного интервала;
- сумма накопленных частот до медианного интервала;
- частота медианного интервала.
Медианный интервал определяется по кумулятивным частотам, где впервые сумма частот превысит половину всех частот.
Мода (Мо) – это значение признака, наиболее часто встречающегося в данном ряду. В дискретном ряду распределения моду определяют по наибольшей частоте.
В интервальном ряду распределения мода определяются по формуле
(3)
где - нижняя граница модального интервала;
- величина модального интервала;
- частота модального интервала;
- частота интервала, предшествующего модальному;
- частота интервала, следующего за модальным.
Модальный интервал выбирается по максимальной частоте в исследуемом ряду распределения.
2.2 Показатели вариации
Для измерения степени вариации признака используют показатели вариации: дисперсию и среднее квадратическое отклонение. Дисперсия () наиболее часто используемый показатель вариации, показывает среднюю площадь отклонений вариантов признака от средней величины.
Простая: , (4)
где – средняя арифметическая;
хi – отдельные варианты признака;
n – число единиц совокупности.
Среднее квадратическое отклонение () определяется как квадратный корень из дисперсии.
(5)
Среднее квадратическое отклонение σ выражается в тех же единицах измерения, что и исходные значения xi. Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности.
2.3 Однофакторный дисперсионный анализ
Данный вид анализа показывает, влияет ли определенный признак на исследуемый показатель. Сначала выдвигается нулевая гипотеза: средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы. Затем выдвигается альтернативная гипотеза: средние величины результативного признака в разных условиях действия фактора различны.
Базовая идея состоит в том, что общая дисперсия признака раскладывается на составляющие, каждая из которых характеризует влияние того или иного фактора.
Q=QA+Qo, (6)
где Q – общая дисперсия,
QA – дисперсия (рассеяние характеризуется влиянием фактора А),
Qo – остаточная дисперсия (рассеяние характеризуется влиянием других случайных факторов).
где m – количество групп,
n – количество единиц в каждой группе,
- среднее значение признака.
Затем рассчитываются оценки дисперсий:
На основе оценок дисперсий рассчитывают расчетное значение критерия Фишера, которое затем сравнивают с критическим.
Выдвигается гипотеза об отсутствии влияния фактора на показатель.
Если Fр>Fкр, то гипотеза отвергается, следовательно, делается вывод, что фактор влияет на исследуемый показатель. [1,стр.8-13]
2.4 Корреляционный анализ
Любой экономический показатель связан с другими. Исследование таких взаимосвязей – важнейшая задача статистики.
Различают два вида связей, существующих между показателями, – функциональные и стохастические.
Функциональной называется зависимость, при которой одному значению факторного признака строго соответствует единственное значение результативного признака. Стохастическая зависимость характеризуется тем, что результативный признак не полностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений.
Наиболее часто для исследования стохастических зависимостей используют метод корреляции.
К изучению связи методом корреляции обращаются в том случае, когда нельзя изолировать влияние посторонних факторов. При этом число наблюдений должно быть достаточно велико, так как малое число наблюдений не позволяет обнаружить закономерность связи.
Первая задача корреляции заключается в математическом выражении изменения результативного признака в связи с изменением одного или несколько факторных признаков. Данная задача решается определением уравнения регрессии и носит название регрессионного анализа. Вторая задача состоит в определении степени влияния искажающих факторов – различных показателей тесноты связи и называется корреляционным анализом.
Для оценки тесноты связи прямолинейной зависимости используется линейный коэффициент корреляции (r)
или
Линейный коэффициент корреляции может изменяться от -1 до +1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r>0, то связь между факторным и результативным признаками прямо пропорциональная, если r<0, то обратно пропорциональная.
Проверка значимости коэффициента корреляции осуществляется с помощью следующей нулевой гипотезы: Н₀: ρ=0, где ρ – коэффициент линейной корреляции в генеральной совокупности.
В зависимости от объема выборки:
1) Если n>50, то распределение данного коэффициента считается нормальным. Расчетное значение определяется по формуле:
где r – коэффициент линейной корреляции;
n – объем выборки.
Критическое значение берем из таблицы нормального распределения с уровнем значимости α/2.
Если критическое значение оказывается меньше расчетного, то делается вывод о том, что коэффициент корреляции незначим.
2) Если n<50, то в предположении справедливости нулевой гипотезы рассчитывается статистика:
Критическое значение берем из таблицы распределения Стьюдента с (n-2) степенями свободы.
Выводы делаются аналогичным образом.
2.5 Множественная корреляция
Коэффициент множественной корреляции характеризует максимальную величину силы связи зависимой переменной Y и независимых переменных Xj, обозначают его или просто R.
В общем виде коэффициент множественной корреляции R может быть рассчитан из соотношения дисперсионных сумм :
где - выровненные (теоретические) значения зависимой переменной (Y), полученные по данным регрессионной модели ;
- средняя, рассчитанная по теоретическим значениям;
y - фактические значения зависимой переменной;
- средняя, исчисленная по фактическим значениям зависимой переменной.
Когда известна матрица парных корреляций R, коэффициент множественной корреляции получают, решив матричное уравнение вида
(17)
где - определитель матрицы парных корреляций;
- определитель матрицы парных корреляций, в которой вычеркнуты строка и столбец, характеризующие связи независимых переменных Xj с зависимой переменной Y.
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1.
Зная коэффициент множественной корреляции, коэффициент множественной детерминации определяют просто как .
Множественный коэффициент детерминации характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных (аргументов), входящих в модель.
Значимость множественного коэффициента корреляции проверяется по F - критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т. е. H0: , а наблюдаемое значение статистики находится по формуле:
Множественный коэффициент корреляции считается значимым, т. е. имеет место линейная статистическая зависимость, между X1 и остальными факторами X2,...,Xm, если: Fнабл. > Fкр.(α, m-1, n-m), где Fкр определяется по таблице F - распределения для заданных α, = m-1, = n-m.
2.6 Множественная регрессия
Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида:
(19)
Если нельзя контролировать поведение отдельных переменных, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Пусть результативный признак Y зависит от k факторных признаков. Необходимо определить y=f(x1,x2… xk), в частности,
(20)
при линейной форме связи
С помощью МНК необходимо оценить значение коэффициента bi таких, чтобы
При нахождении неизвестных коэффициентов уравнения методом МНК получим формулу для их определения:
(21)
Для определения значимости коэффициента bj используется статистика:
где Sbj – дисперсия j-го коэффициента:
тогда
- диагональный элемент матрицы, ошибка уравнения.
Эти расчетные значения в предположении справедливости нулевой гипотезы Н0: b1=b0=0 (т.е. коэффициенты не значимы) распределены по закону Стьюдента с (n-k-1) степенями свободы, где n – объем выборки; k –количество факторов.
где n – размерность Х,
m – количество коэффициентов уравнения регрессии.
Если единицы измерения факторов различны: чтобы сделать сопоставимыми применяют нормированные коэффициенты регрессии:
(26)
i показывает величину изменения результативного фактора в значениях среднеквадратического отклонения при изменении факторного признака Xj на одну среднеквадратическую ошибку.
(27)
Проверка качества уравнения регрессии заключается в следующих действиях:
1) проверка значимости всех bj;
2) проверка общего качества уравнения регрессии с помощью коэффициента множественной детерминации R2.
3) Проверка свойств данных, выполнение которых предполагалось при оценивании уравнений. Ошибки ej распределены по нормальному закону, нормированному закону.
s2=const.
Для проверки общего качества уравнения регрессии используется коэффициент детерминации:
. (28)
[2, стр. 16-28]
8
2.7 Метод наименьших квадратов. Предпосылки метода наименьших квадратов
Для получения несмещенных, эффективных и состоятельных оценок параметров регрессионной модели необходимо выполнение следующих предпосылок:
1. Возмущение i (i=1, 2, …, n) есть величина случайная, а факторы X1, X2, …, Xp — величины неслучайные. Это означает, что вектор возмущений — случайный вектор, а матрица значений факторов X — неслучайная (детерминированная).
Проверка выполнения этой предпосылки может проводиться с помощью разных критериев. Наиболее простыми из них являются метод серий и метод поворотных точек, которыми исследуется ряд остатков регрессии. Иногда достаточным оказывается визуальный анализ графика (графиков) остатков.
2. Математическое ожидание возмущения равно нулю i:
(i=1, 2, …, n).
Другими словами, математическое ожидание вектора возмущений есть нулевой вектор размера n:
Данная предпосылка всегда выполняется для линейных моделей и моделей, нелинейных по переменным. Для моделей, нелинейных по параметрам и приводимых к линейному виду логарифмированием, предпосылка выполняется для логарифмов исходных данных.
3. Дисперсия возмущения одинакова для всех наблюдений результата Y:
(i=1, 2, …, n)
Это условие называется условием гомоскедастичности или равноизменчивости возмущений. Выполнение этой предпосылки может проверяться разными методами. Гомоскедастичность – дисперсия каждого отклонения одинакова для всех значений .

- Анализ размеров работы перевалочного узла
- Анализ размещения и выкладки товара в торговом гипермаркете «Карусель»
- Анализ размещения и выкладки товаров на примере ООО «Эльдорадо»
- Анализ размещения и эффективности использования капитала предприятия на примере ОАО "9-я стоматологическая поликлиника"
- Анализ размещения капитала ЗАО «Промжилстрой»
- Анализ размещения капитала и оценка имущественного состояния предприятия
- Анализ размещения населения Донецкого региона
- Анализ разделов и показателей бизнес – планирования АО «ПавлодарЭлектроМонтаж»
- Анализ различий в действующих правовых системах современного мира
- Анализ различий и сходств политических традиций России и Индии
- Анализ различных видов и типов применяемой тары и упаковки на примере майонеза
- Анализ различных кодов и символов на примере разных групп товаров
- Анализ различных кодов и символов на примере разных групп товаров
- Анализ различных способов расчетов влияния факторов, основанных на приеме элиминирования. Способ цепных подстановок