Анализ различных факторов, влияющих на формирование цен на двухкомнатные квартиры на рынке первичного жилья



Министерство образования Республики Беларусь

Министерство образования и науки Российской Федерации

 

ГОСУДАРСТВЕННОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО

ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«БЕЛОРУССКО-РОССИЙСКИЙ УНИВЕРСИТЕТ»

 

 

Кафедра «Экономическая информатика»

 

 

 

КУРСОВАЯ РАБОТА

 

 

 

 

по дисциплине: «Многомерные регрессионные методы и модели»

 

на тему:

«Анализ различных факторов, влияющих на формирование цен на двухкомнатные квартиры на рынке первичного жилья»

 

 

 

 

 

 

 

Выполнила:                                                                                  студентка гр. ЭУП-081

                                                                                                                                         Андреенко Т.В.

Преподаватель:                                                                                     Ливинская В. А.

                                                                                  

Руководитель:                                                                                                     Ливинская В. А.

 

 

 

 

 

 

 

Могилев 2010 г.


Содержание

 

Введение.............................................................................................................................1 Описание анализируемых показателей........................................................................4

2 Описание статистического аппарата.........................................................................6

2.1 Средние величины....................................................................................................6                                                                                                               

2.2 Показатели вариации...............................................................................................7                                                                                                           

2.3 Однофакторный дисперсионный анализ................................................................8                                                                   

2.4 Корреляционный анализ..........................................................................................9                                                                                                     

2.5 Множественная корреляция..................................................................................11 

2.6 Множественный регрессионный  анализ ............................................................13                                      

2.7 Метод наименьших квадратов...............................................................................16                                                 

2.8 Проверка на мультиколениарность.......................................................................21                                        

  2.9 Кластерный анализ..................................................................................................23

3 Экономический и статистический анализ результатов.............................................26                             Заключение.......................................................................................................................45                                 

Список использованных источников.............................................................................46                                

Приложение А..................................................................................................................47                          

Приложение Б...................................................................................................................51                   

Приложение В..................................................................................................................52                    

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Целью статистики в экономике является возможность правильно выбрать решения в условиях неопределенности сложившейся ситуации, умение спрогнозировать и предугадать социально-экономические явления, сделать правильные выводы и внести свой вклад в развитие экономической жизни. Выявление взаимосвязей – одна из важнейших задач применения статистики в экономике.

В данной работе я буду выявлять взаимосвязь между зависимым фактором цена двухкомнатной квартиры и независимыми площадь, тип дома, срок сдачи квартир, расстояние до метро, район . 

         Исследования проведены на примере данных Санкт-Петербурга по состоянию на декабрь 2004 г.

Для данной курсовой работы поставлены следующие цели:

1.    составить таблицу с исходными данными;

2.    провести предварительный анализ переменных;

3.   сформулировать гипотезы о влиянии независимых переменных на результирующую переменную (цена жилья);

4.    построить модель вида:

5.    протестировать модель (выполнить проверку гипотез о значимости коэффициентов), обсудить значимость модели в целом (F-тест) и качество модели (R2);

6.    дать интерпретацию полученных результатов;

7.    проверить остатки на наличие автокорреляции для каждой модели (тест DW);

8.    проверить исследование на наличие гетероскедастичности (визуально, формально с помощью теста Уайта и др.);

9.      обсудить возможные причины появления автокорреляции, гетероскедастичности и способы избавления от них.

1 Описание данных и основных экономических понятий, используемых в анализе

 

Цена (Price) — количество денег, в обмен на которые продавец готов передать (продать), а покупатель согласен получить (купить) единицу товара. По сути, цена является коэффициентом обмена конкретного товара на деньги. Величину соотношений при обмене товаров определяет их стоимость. Поэтому цена является стоимостью, выраженной в деньгах, или денежной стоимостью единицы товара. Это фундаментальная экономическая категория.

Выделяют следующие ценообразующие факторы: затраты, ценность товара, спрос и его эластичность, конкуренция, государственное влияние. В данной курсовой работе рассматривается розничная цена. Розничная цена – цена, которая устанавливается на товар, продаваемый в личное потребление в малых количествах. В соответствии с ГОСТ Р 51303-99 розничная цена определена как цена товара, реализуемого непосредственно населению для личного, семейного, домашнего использования по договору розничной купли-продажи. Розничные цены включают издержки производства и обращения, прибыль предприятий, налоги и складываются с учётом ситуации на рынке.

Площадь (Space) — часть поверхности, ограниченная замкнутым контуром. Площадью может назваться любая величина, удовлетворяющая условиям: она положительно-определённая (не меньше нуля), она аддитивна. Единица измерения – 1 м.кв.

Этаж (Floor) , или уровень (в некоторых случаях) — уровень здания над (или под) уровнем земли.

Типы домов (Type) обусловлены видами строительства:

Панельное домостроение (Panel) — вид строительства, основанный на использовании крупных панелей фабричного производства. Компоненты панельного дома, представляющие из себя крупные железобетонные плиты, изготавливают на заводах. По качеству любые изделия, изготовленные в заводских условиях по существующим ГОСТам и с должным техконтролем, всегда будут отличаться в положительную сторону от изделий, произведённых прямо на стройплощадке. Строительство панельного дома напоминает сборку детского конструкторского набора. На стройплощадку доставляют уже готовые детали сооружения, которые строителям остаётся лишь смонтировать. В результате чего производительность труда на такой постройке очень высока. Площадь строительной площадки гораздо меньше той, что необходима при строительстве кирпичного дома.

Моноли́тное строи́тельство - технология возведения зданий и сооружений из железобетона, которая позволяет в короткие сроки возводить здания и сооружения практически любой этажности и формы. К основным преимуществам монолитного строительства обычно относят: возможность строительства зданий и сооружений любой конфигурации и формы, создания свободной планировки помещений; высокую огнестойкость конструкций; высокая сейсмостойкость. Недостатки монолитного строительства: невысокая прочность при большой массе (напр. прочность бетона в 10 раз меньше прочности стали); высокая трудоемкость (в сравнении с каркасно-панельным строительством); повышенные градиенты свойств.

Кирпичные дома (Brick) – самые прочные дома, но процесс построения такого дома достаточно долгий и трудоёмкий.

Срок сдачи (Time) —это период времени, за который осуществляется строительство жилого дома. Измеряется в месяцах.

Городски́е райо́ны (DictrictN) — наименьшие административные единицы, входящие в состав городских территорий. В данной курсовой работе представлены районы Санкт-Петербурга.

Транспортная система (Transp) — транспортная инфраструктура, транспортные предприятия, транспортные средства и управление в совокупности. Единая транспортная система обеспечивает согласованное развитие и функционирование всех видов транспорта с целью максимального удовлетворения транспортных потребностей при минимальных затратах. В данной работе рассматривается удаленность объекта от близлежащих станций метро.

 

 

 

 

 

2 Описание математического аппарата

 

2.1    Средние величины

Средняя величина – обобщающая характеристика изучаемого признака в исследуемой совокупности. Она отражает его типичный уровень в расчете на единицу совокупности в конкретных условиях времени и места.

1) Средняя арифметическая взвешенная – используется, если частоты признака не равны между собой

                                                                                                               (1)

где – средняя арифметическая;

      хi – отдельные варианты признака (середины интервалов);

      fi – частота признака.

К структурным средним, наиболее часто используемым статистикой, относят медиану и моду.

Медиана (Ме) – это значение признака, которое приходится на середину ранжированного ряда распределения.

В интервальному ряду распределения медиана определяется по формуле

                                                                                     (2)

где - начало медианного интервала;

- величина медианного интервала;

- сумма накопленных частот до медианного интервала;

- частота медианного интервала.

Медианный интервал определяется по кумулятивным частотам, где впервые сумма частот превысит половину всех частот.

Мода (Мо) – это значение признака, наиболее часто встречающегося в данном ряду. В дискретном ряду распределения моду определяют по наибольшей частоте.

В интервальном ряду распределения мода определяются по формуле

                                              (3)

где - нижняя граница модального интервала;

      - величина модального интервала;

      - частота модального интервала;

      - частота интервала, предшествующего модальному;

      - частота интервала, следующего за модальным.

Модальный интервал выбирается по максимальной частоте в исследуемом ряду распределения.

 

2.2    Показатели вариации

 

Для измерения степени вариации признака используют показатели вариации: дисперсию и среднее квадратическое отклонение. Дисперсия () наиболее часто используемый показатель вариации, показывает среднюю площадь отклонений вариантов признака от средней величины.

Простая:                                          ,                                                 (4)

где – средняя арифметическая;

      хi – отдельные варианты признака;

      n – число единиц совокупности.

Среднее квадратическое отклонение () определяется как квадратный корень из дисперсии.

                                                                                                                        (5)

Среднее квадратическое отклонение σ выражается в тех же единицах измерения, что и исходные значения xi. Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности.

 

2.3 Однофакторный дисперсионный анализ

 

Данный вид анализа показывает, влияет ли определенный признак на исследуемый показатель. Сначала выдвигается нулевая гипотеза: средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы. Затем выдвигается альтернативная гипотеза: средние величины результативного признака в разных условиях действия фактора различны.

Базовая идея состоит в том, что общая дисперсия признака раскладывается на составляющие, каждая из которых характеризует влияние того или иного фактора.

 

                                                  Q=QA+Qo,                                                            (6)

где Q – общая дисперсия,

   QA – дисперсия (рассеяние характеризуется влиянием фактора А),

    Qo – остаточная дисперсия (рассеяние характеризуется влиянием других случайных факторов).

                                                                                              (7)

                                                                                            (8)

где m – количество групп,

      n – количество единиц в каждой группе,

        - среднее значение признака.

Затем рассчитываются оценки дисперсий:

                                                                                                           (9)

                                                                                                   (10)

На основе оценок дисперсий рассчитывают расчетное значение критерия Фишера, которое затем сравнивают с критическим.

                                                                                                             (11)

Выдвигается гипотеза об отсутствии влияния фактора на показатель.

Если Fр>Fкр, то гипотеза отвергается, следовательно, делается вывод, что фактор влияет на исследуемый показатель. [1,стр.8-13]

 

 

2.4  Корреляционный анализ

 

Любой экономический показатель связан с другими. Исследование таких взаимосвязей – важнейшая задача статистики.

Различают два вида связей, существующих между показателями, – функциональные и стохастические.

Функциональной называется зависимость, при которой одному значению факторного признака строго соответствует единственное значение результативного признака. Стохастическая зависимость характеризуется тем, что результативный признак не полностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений.

Наиболее часто для исследования стохастических зависимостей используют метод корреляции.

К изучению связи методом корреляции обращаются в том случае, когда нельзя изолировать влияние посторонних факторов. При этом число наблюдений должно быть достаточно велико, так как малое число наблюдений не позволяет обнаружить закономерность связи.

Первая задача корреляции заключается в математическом выражении изменения результативного признака в связи с изменением одного или несколько факторных признаков. Данная задача решается определением уравнения регрессии и носит название регрессионного анализа. Вторая задача состоит в определении степени влияния искажающих факторов – различных показателей тесноты связи и называется корреляционным анализом.

Для оценки тесноты связи прямолинейной зависимости используется линейный коэффициент корреляции (r)

                                                                                                          (12)

или

                                      .                               (13)

Линейный коэффициент корреляции может изменяться от -1 до +1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r>0, то связь между факторным и результативным признаками прямо пропорциональная, если r<0, то обратно пропорциональная.

Проверка значимости коэффициента корреляции осуществляется с помощью следующей нулевой гипотезы: Н₀: ρ=0, где ρ – коэффициент линейной корреляции в генеральной совокупности.

В зависимости от объема выборки:

1) Если n>50, то распределение данного коэффициента считается нормальным. Расчетное значение определяется по формуле:

                                             Fр= ,                                                             (14)

где r – коэффициент линейной корреляции;

n – объем выборки.

Критическое значение берем из таблицы нормального распределения с уровнем значимости α/2.

Если критическое значение оказывается меньше расчетного, то делается вывод о том, что коэффициент корреляции незначим.

2) Если n<50, то в предположении справедливости нулевой гипотезы рассчитывается статистика:

                                             Fp= .                                                             (15)

Критическое значение берем из таблицы распределения Стьюдента с (n-2) степенями свободы.

Выводы делаются аналогичным образом.

 

 

2.5 Множественная корреляция

 

 

Коэффициент множественной корреляции характеризует максимальную величину силы связи зависимой переменной Y и независимых переменных Xj, обозначают его или просто R.

В общем виде коэффициент множественной корреляции R может быть рассчитан из соотношения дисперсионных сумм :

 

                                                                                                                                    (16)

где - выровненные (теоретические) значения зависимой переменной (Y), полученные по данным регрессионной модели ;

-  средняя, рассчитанная по теоретическим значениям;

y - фактические значения зависимой переменной;

- средняя, исчисленная по фактическим значениям зависимой переменной.

              Когда известна матрица парных корреляций R, коэффициент множественной корреляции получают, решив матричное уравнение вида

 

                                                                                                                      (17)

 

где - определитель матрицы парных корреляций;

- определитель матрицы парных корреляций, в которой вычеркнуты строка и столбец, характеризующие связи независимых переменных Xj с зависимой переменной Y.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1.

Зная коэффициент множественной корреляции, коэффициент множественной детерминации определяют просто как .             

Множественный коэффициент детерминации характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных (аргументов), входящих в модель.             

Значимость множественного коэффициента корреляции проверяется по F - критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т. е. H0: , а наблюдаемое значение статистики находится по формуле:

                                                                                                   (18)

 

              Множественный коэффициент корреляции считается значимым, т. е. имеет место линейная статистическая зависимость, между X1 и остальными факторами X2,...,Xm, если: Fнабл. > Fкр.(α, m-1, n-m), где Fкр определяется по таблице F - распределения для заданных α, = m-1,  = n-m.              

 

 

2.6 Множественная регрессия

 

Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида:

                                                                              (19)

Если нельзя контролировать поведение отдельных переменных, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Пусть результативный признак Y зависит от k факторных признаков. Необходимо  определить y=f(x1,x2… xk), в частности,

                                                                      (20)

при линейной форме связи

 

 

С помощью МНК необходимо оценить значение коэффициента bi таких, чтобы

  При нахождении неизвестных коэффициентов уравнения                              методом  МНК получим формулу для их определения:

(21)

Для определения значимости коэффициента bj используется статистика:    

                                                                                                               (22)

где Sbj – дисперсия j-го коэффициента:

                                               ,                                                              (23)

тогда

                                                    ,                      (24)
- диагональный элемент матрицы, ошибка уравнения.

Эти расчетные значения в предположении справедливости нулевой гипотезы Н0: b1=b0=0 (т.е. коэффициенты не значимы) распределены по закону Стьюдента с (n-k-1) степенями свободы, где n – объем выборки; k –количество факторов.

                                      ,                                                                                 (25)

где n – размерность Х,

m – количество коэффициентов уравнения регрессии.

Если единицы измерения  факторов различны: чтобы сделать сопоставимыми применяют нормированные коэффициенты регрессии:

                                                                                                                 (26)

i показывает величину изменения результативного фактора в значениях среднеквадратического отклонения при изменении факторного признака Xj на одну среднеквадратическую ошибку.

                                                                                                                                  (27)

Проверка качества уравнения регрессии заключается в следующих действиях:

1) проверка значимости всех  bj;

2) проверка общего качества уравнения регрессии с помощью коэффициента множественной детерминации R2.

3) Проверка свойств данных, выполнение которых предполагалось при оценивании уравнений. Ошибки ej распределены по нормальному закону, нормированному закону.

s2=const.

Для проверки общего качества уравнения регрессии используется коэффициент детерминации:

.                                                                            (28)

 

[2, стр. 16-28]

 

8

 



2.7    Метод наименьших квадратов. Предпосылки метода наименьших квадратов

 

Для получения несмещенных, эффективных и состоятельных оценок параметров регрессионной модели необходимо выполнение следующих предпосылок:

1. Возмущение i (i=1, 2, …, n) есть величина случайная, а факторы X1, X2, …, Xp — величины неслучайные. Это означает, что вектор возмущений  — случайный вектор, а матрица значений факторов X — неслучайная (детерминированная).

Проверка выполнения этой предпосылки может проводиться с помощью разных критериев. Наиболее простыми из них являются метод серий и метод поворотных точек, которыми исследуется ряд остатков регрессии. Иногда достаточным оказывается визуальный анализ графика (графиков) остатков.

2. Математическое ожидание возмущения равно нулю i:

                              (i=1, 2, …, n).                                       (29)

Другими словами, математическое ожидание вектора возмущений  есть нулевой вектор размера n:

                                               .                                                     (30)

Данная предпосылка всегда выполняется для линейных моделей и моделей, нелинейных по переменным. Для моделей, нелинейных по параметрам и приводимых к линейному виду логарифмированием, предпосылка выполняется для логарифмов исходных данных.

3. Дисперсия возмущения одинакова для всех наблюдений результата Y:

                          (i=1, 2, …, n)                                             (31)

Это условие называется условием гомоскедастичности или равноизменчивости возмущений. Выполнение этой предпосылки может проверяться разными методами. Гомоскедастичность – дисперсия каждого отклонения одинакова для всех значений  .

Анализ различных факторов, влияющих на формирование цен на двухкомнатные квартиры на рынке первичного жилья