Исследование зависимости стоимости квартир от некоторых факторов

Министерство образования и  науки Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего  профессионального образования

Уральский федеральный университет

имени первого Президента России Б.Н. Ельцина

Высшая школа экономики и  менеджмента

Кафедра теории и практики менеджмента

 

 

 

 

 

Исследовательская работа по эконометрике:

«Исследование зависимости  стоимости квартир от некоторых факторов» 

 

 

 

 

 

 

 

 

Выполнили:

Андреева  А.С., гр. 204

Сотникова А.А., гр. 204

 

 

 

Проверила:

Кисляк Н.В.  

 

 

 

 

 

 

 

 

Екатеринбург

2013

Оглавление

Введение 3

ОБЗОР ДАННЫХ 5

МОДЕЛЬ №1 LS PRICE C TOTSQ 10

МОДЕЛЬ №2 LS PRICE C TOTSQ ROOMS 14

МОДЕЛЬ №3 LS VRP C LS PRICE C TOTSQ ROOMS REGION YARD FLOOR 17

ЗАКЛЮЧЕНИЕ 20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Данный  проект посвящён изучению структуры  цен квартир Екатеринбурга на первичном и вторичном рынках. 

Согласно статистическим данным сайта http://ekb-city.com, на 29 апреля 2013 г. средняя цена предложения одного квадратного метра общей площади квартир, выставленных на продажу на вторичном рынке жилья в Екатеринбурге, составила 70 872 руб. Это значение практически не меняется с февраля. В течение трех месяцев средний по городу показатель колеблется вокруг отметки 70 800 руб./кв. м, то поднимаясь, то снижаясь на 0,1-0,2 %. Можно констатировать, что сегодня цены на жилье в городе окончательно стабилизировались, и в ближайшей перспективе их дальнейшего роста не ожидается.

Тенденция к росту объема предложения, которая также начала проявляться  с начала года, по-прежнему сохраняется. Только по Базе данных Уральской палаты недвижимости количество выставляемых на продажу объектов увеличивается  на 1,5-2 % каждую неделю, а с начала года оно выросло на 32 %, или, в  абсолютных показателях, на 2150 единиц. Если в январе продавцами через агентства  недвижимости выставлялось 6800 квартир, то сегодня их уже более 9000. При  этом База данных Уральской палаты недвижимости еженедельно обновляется  на 700-750 квартир. Сроки экспозиции при  этом с конца прошлого года увеличились  с 3,5 до 4 месяцев.  

  Возвращаясь к ценовым показателям, надо отметить, что их динамика в отдельных сегментах заметно отличалась от среднего по городу уровня. 

  Так, если рассматривать значения по различным территориям, то наиболее интенсивные изменения демонстрировали Центр и районы четвертого пояса. В обоих случаях снижение средней стоимости квартир составило –0,8 %. Цена квадратного метра в Центре опустилась до 89 650 руб., а в четвертом поясе – до 51 575 руб. В третьем поясе за тот же период стоимость квартир выросла на «символические» +0,2 %. Средний показатель в этом сегменте составил 61 281 руб./кв. м. В первом и втором поясах, в то же время, динамики практически не наблюдалось, точнее она составила до +0,1 %. Квадратный метр в этих районах теперь предлагается по 73 257 руб. и 65 609 руб., соответственно.

Цель работы – выявить зависимость цен квартир Екатеринбурга от таких показателей, как:

  • Общая площадь
  • Район
  • Количество комнат
  • Этаж
  • Благоустроенность двора

 

Выбор именно таких переменных мы объясняем следующим. На наш взгляд, перечисленные показатели оказывают существенное влияние  на цену квартир. Общая площадь влияет на цены напрямую, т.к. учитываются при его расчёте. Расположение квартир в центре оказывает значительное влияние на повышение цены. Увеличение количества комнат, также влияет на увеличение стоимости квартир. Этаж и благоустройство двора влияют в незначительной степени. Все эти предположения нам и предстоит проверить в работе.

В качестве базы данных мы использовали сайт агентство недвижимости www.ogasta.ru. Мы будем проводить исследование на основе данных выборки вышеперечисленных показателей 40 квартир Екатеринбурга за II квартал 2013 года.
В качестве метода исследования мы используем эконометрический анализ, который будет осуществляться с помощью эконометрического пакета EViews 7.0.0.1.

 

ОБЗОР ДАННЫХ

 

 

Кол-во комнат

Район

Общая площадь

Двор

Этаж

Цена

1

5

1

217

1

3

14800000

2

4

0

145

1

13

10200000

3

4

0

145

1

13

10700000

4

1

0

54

0

5

2180000

5

1

0

28

0

9

2450000

6

2

0

49

1

1

3150000

7

1

0

27

1

2

2395000

8

1

0

34

0

7

2800000

9

1

0

31

0

5

2190000

10

1

1

32

0

3

2650000

11

1

0

29

0

5

2200000

12

2

0

44

0

5

2350000

13

2

0

55

1

1

3890000

14

3

0

59

1

3

3750000

15

3

0

58

1

6

4200000

16

2

0

44

1

5

2490000

17

2

0

48

1

4

3100000

18

2

1

43

0

4

2900000

19

1

0

33

1

5

2350000

20

1

0

29

0

2

1250000

21

3

0

55

1

1

3700000

22

2

0

43

0

4

2980000

23

3

0

70

1

12

4390000

24

2

0

41

0

3

2750000

25

2

0

48

1

2

3350000

26

2

0

37

0

9

2750000

27

4

1

158

1

9

16600000

28

2

0

42

1

2

3150000

29

1

0

28

1

3

2520000

30

3

1

129

1

4

11500000

31

3

0

60

1

3

4300000

32

1

0

54

0

3

2180000

33

4

0

95

1

2

5900000

34

3

1

132

1

6

8400000

35

4

0

64

1

       3

3850000

36

2

0

42

1

       5

2800000

37

2

0

63

1

      10

3850000

38

2

0

41

0

4

2900000

39

4

1

100

1

1

6000000

40

4

1

101

1

3

7000000


Как было сказано выше, для описания зависимости  мы выбрали шесть переменных, которые  обозначили следующим образом:

  • PRICE - Цена;
  • FLOOR – Этаж;
  • TOTSQ – Жилая площадь;
  • REGION – Район;
  • ROOMS – Количество комнат;
  • YARD – Благоустройство двора.

Итак, мы занесли данные в EViews. В первую очередь проверим данные на ошибки и проанализируем сами значения переменных. (Таблица 1)

 

Таблица 1

Анализ  значений переменных

 

 

PRICE

TOTSQ

ROOMS

REGION

YARD

FLOOR

Mean

4571625.

65.17500

2.325000

0.200000

0.650000

4.750000

Median

3125000.

48.50000

2.000000

0.000000

1.000000

4.000000

Maximum

16600000

217.0000

5.000000

1.000000

1.000000

13.00000

Minimum

1250000.

27.00000

1.000000

0.000000

0.000000

1.000000

Std. Dev.

3537108.

43.50708

1.141018

0.405096

0.483046

3.216544

Skewness

2.006847

1.721860

0.491575

1.500000

-0.628971

1.193282

Kurtosis

6.271246

5.462892

2.200340

3.250000

1.395604

3.675345

             

Jarque-Bera

44.68466

29.87507

2.676733

15.10417

6.927505

10.25297

Probability

0.000000

0.000000

0.262274

0.000525

0.031312

0.005937

             

Sum

1.83E+08

2607.000

93.00000

8.000000

26.00000

190.0000

Sum Sq. Dev.

4.88E+14

73821.77

50.77500

6.400000

9.100000

403.5000

             

Observations

40

40

40

40

40

40


 

 

 

 

Рассмотрим  взаимную корреляцию переменных:

Таблица 2

Оценка корреляционной матрицы переменных, участвующих  в анализе для всей выборки.

 

 

PRICE

TOTSQ

ROOMS

REGION

YARD

FLOOR

PRICE

1.000000

0.953204

0.765843

0.595489

0.442302

0.320525

TOTSQ

0.953204

1.000000

0.828348

0.568264

0.454417

0.284320

ROOMS

0.765843

0.828348

1.000000

0.410503

0.583846

0.148461

REGION

0.595489

0.568264

0.410503

1.000000

0.104828

-0.098392

YARD

0.442302

0.454417

0.583846

0.104828

1.000000

-0.024754

FLOOR

0.320525

0.284320

0.148461

-0.098392

-0.024754

1.000000


 

Из матрицы  видно, что наибольшая зависимость  просматривается между ценой  и  общей площадью, что уже сейчас позволяет говорить о том, что наши гипотезы относительно сильной взаимосвязи этих величин верны. 

Стоит отметить, что такой показатель, как этаж имеет довольно маленькую корреляцию цены, можно предположить, что при  составлении моделей он будет  оказывать незначительное влияние  на нашу зависимую переменную –  цена, или вовсе окажется незначимым.

Заметим также, что из матрицы корреляций можно сделать следующее предположение: корреляция между независимыми переменными  – общей площадью и количеством комнат – довольно высока, а это означает, что в наших моделях будет наблюдаться частичная мультиколлинеарность между этими величинами.

 

 

 

 

 

 

 

 

 

МОДЕЛЬ №1

LS PRICE C TOTSQ

Построение  регрессионной модели начнем с простейшей одномерной регрессии. В качестве объясняющей  переменной выберем «Общую площадь», поскольку коэффициент корреляции этой переменной с переменной «Цена» максимален по абсолютной величине относительно других «независимых» переменных. Таблица результатов оценивания имеет вид:

Таблица 3

Результаты оценивания модели №1

 

Dependent Variable: PRICE

   

Method: Least Squares

   

Date: 06/18/13   Time: 22:57

   

Sample: 1 40

     

Included observations: 40

   
         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

-479120.6

311243.6

-1.539375

0.1320

TOTSQ

77495.14

3987.248

19.43575

0.0000

         
         

R-squared

0.908599

Mean dependent var

4571625.

Adjusted R-squared

0.906193

S.D. dependent var

3537108.

S.E. of regression

1083342.

Akaike info criterion

30.67771

Sum squared resid

4.46E+13

Schwarz criterion

30.76215

Log likelihood

-611.5541

Hannan-Quinn criter.

30.70824

F-statistic

377.7482

Durbin-Watson stat

1.522901

Prob(F-statistic)

0.000000

     
         
         

 

Подставив оценки для коэффициентов в модель, получим:

PRICE = -479120,6 + 77495,14*TOTSQ

Проанализируем  наличие гетероскедастичности. Тест Уайта с учетом взаимодействий (приведена основная часть таблицы) позволяет нам отвергнуть гипотезу об ее отсутствии на 5% уровне, поскольку Probability < 0.05.

 

 

 

Heteroskedasticity Test: White

 
         
         

F-statistic

8.788300

Prob. F(1,38)

0.0052

Obs*R-squared

7.513246

Prob. Chi-Square(1)

0.0061

Scaled explained SS

36.66556

Prob. Chi-Square(1)

0.0000

         
         

Таким образом, у нас появилось основание  пересмотреть значимость оценок параметров линейной регрессии. С учетом гетероскедастичности получим:

Таблица 5

Результаты оценивания модели №1 с учетом гетероскедастичности

 

 

Dependent Variable: PRICE

   

Method: Least Squares

   

Date: 06/18/13   Time: 22:58

   

Sample: 1 40

     

Included observations: 40

   

White heteroskedasticity-consistent standard errors & covariance

No d.f. adjustment for standard errors & covariance

         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

-479120.6

359917.9

-1.331194

0.1911

TOTSQ

77495.14

7299.201

10.61693

0.0000

         
         

R-squared

0.908599

Mean dependent var

4571625.

Adjusted R-squared

0.906193

S.D. dependent var

3537108.

S.E. of regression

1083342.

Akaike info criterion

30.67771

Sum squared resid

4.46E+13

Schwarz criterion

30.76215

Log likelihood

-611.5541

Hannan-Quinn criter.

30.70824

F-statistic

377.7482

Durbin-Watson stat

1.522901

Prob(F-statistic)

0.000000

     
         
         

 

Как мы видим, переменная «Общая площадь» значима (p<0.05). Коэффициент при переменной TOTSQ, равный (примерно) 77495,14 означает, что по имеющимся наблюдениям при увеличении (уменьшении) общей площади на 1 единицу, Цена увеличивается (уменьшается) в среднем на 77495,14 ед. Свободный коэффициент (константа) стал незначим, интерпретацию ему давать не будем. 

Полученная  модель имеет довольно высокий, близкий к 1 коэффициент детерминации. Общее представление о качестве модели дает следующий график EViews:

Рисунок 1. Визуальный анализ качества модели.

 Поскольку подогнанные значения (Fitted) расположены достаточно близко к истинным (Actual), можно предположить, что модель в целом соответствует данным. Тем не менее, видно, что есть ряд измерений, которые плохо описываются нашей моделью (резко выделяющиеся значения, выбросы). Прологарифмируем функцию и сделаем выводы.

 

 

 

 

 

 

 

 

 

 

Таблица 6

Анализ  логарифмической функции

Dependent Variable: LOG(PRICE)

 

Method: Least Squares

   

Date: 06/18/13   Time: 23:01

   

Sample: 1 40

     

Included observations: 40

   
         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

11.09974

0.237598

46.71648

0.0000

LOG(TOTSQ)

1.006271

0.058672

17.15075

0.0000

         
         

R-squared

0.885593

Mean dependent var

15.13851

Adjusted R-squared

0.882583

S.D. dependent var

0.583356

S.E. of regression

0.199894

Akaike info criterion

-0.333351

Sum squared resid

1.518392

Schwarz criterion

-0.248907

Log likelihood

8.667016

Hannan-Quinn criter.

-0.302819

F-statistic

294.1482

Durbin-Watson stat

1.922317

Prob(F-statistic)

0.000000

     
         
         

Как мы видим, переменная «Общая площадь» значима (p<0.05). Коэффициент при переменной TOTSQ, равный (примерно) 1,001%  означает, что по имеющимся наблюдениям при увеличении (уменьшении) общей площади на 1%, Цена увеличивается (уменьшается) в среднем на 1,001%.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

МОДЕЛЬ №2

LS PRICE C TOTSQ ROOMS

Основываясь на выводах из таблицы 3, добавим в нашу модель переменную ROOMS – комнаты, поскольку коэффициент корреляции между ней и ценой также достаточно велик. С добавлением второй объясняющей переменной в данном случае модель должна уточниться. Проверим это.

Таблица 7

Результаты оценивания модели №2

 

Dependent Variable: PRICE

   

Method: Least Squares

   

Date: 06/18/13   Time: 23:04

   

Sample: 1 40

     

Included observations: 40

   
         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

-265920.3

398527.3

-0.667257

0.5087

TOTSQ

82589.76

7141.681

11.56447

0.0000

ROOMS

-234512.8

272312.6

-0.861190

0.3947

         
         

R-squared

0.910395

Mean dependent var

4571625.

Adjusted R-squared

0.905551

S.D. dependent var

3537108.

S.E. of regression

1087043.

Akaike info criterion

30.70786

Sum squared resid

4.37E+13

Schwarz criterion

30.83453

Log likelihood

-611.1572

Hannan-Quinn criter.

30.75366

F-statistic

187.9608

Durbin-Watson stat

1.572557

Prob(F-statistic)

0.000000

     
         
         

Подставив оценки для коэффициентов в модель, получим:

PRICE = -265920,3+82589,76*TOTSQ-234512,8*ROOMS

Сначала сделаем анализ на  наличие гетероскедастичности в модели:

Таблица 8

Проверка  наличия гетероскедастичности с помощью критерия Уайта модели №2

 

Heteroskedasticity Test: White

 
         
         

F-statistic

5.071329

Prob. F(2,37)

0.0113

Obs*R-squared

8.605928

Prob. Chi-Square(2)

0.0135

Scaled explained SS

39.34944

Prob. Chi-Square(2)

0.0000

         
         

Тест  Уайта с учетом взаимодействий (приведена  основная часть таблицы) позволяет  нам отвергнуть гипотезу об отсутствии гетероскедастичности на 5% уровне, поскольку Probability < 0.05. Сделаем поправку на гетероскедастичность, получим следующие результаты:

 

Таблица 9

Результаты  оценивания модели №2 с учетом гетероскедастичности

 

Dependent Variable: PRICE

   

Method: Least Squares

   

Date: 06/18/13   Time: 23:05

   

Sample: 1 40

     

Included observations: 40

   

White heteroskedasticity-consistent standard errors & covariance

No d.f. adjustment for standard errors & covariance

         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

-265920.3

365795.7

-0.726964

0.4718

TOTSQ

82589.76

11194.42

7.377764

0.0000

ROOMS

-234512.8

258353.6

-0.907720

0.3699

         
         

R-squared

0.910395

Mean dependent var

4571625.

Adjusted R-squared

0.905551

S.D. dependent var

3537108.

S.E. of regression

1087043.

Akaike info criterion

30.70786

Sum squared resid

4.37E+13

Schwarz criterion

30.83453

Log likelihood

-611.1572

Hannan-Quinn criter.

30.75366

F-statistic

187.9608

Durbin-Watson stat

1.572557

Prob(F-statistic)

0.000000

     
         
         

 

Сделаем заключения по модели: единственная значимая переменная модели – жилая площадь, а комнаты незначима. Коэффициент детерминации модели №2 незначительно улучшился, мы не получили ни одной дополнительной значимой переменной, следует попробовать ввести другую модель.

Есть  и еще одно основание отвергнуть модель №2, скорее всего, в ней присутствует мультиколлинеарность, т.к., в данной модели по результатам анализа мы наблюдаем сильную значимость уравнения в целом (высокое фактическое значение F-статистики) при одновременно довольно маленьком значении t-статистики, во-вторых, на частичную мультиколлинеарность указывает сравнительно высокий коэффициент корреляции между двумя рассматриваемыми в этой модели независимыми переменными.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

МОДЕЛЬ №3

LS VRP C LS PRICE C TOTSQ ROOMS REGION YARD FLOOR

Добавим в нашу модель три оставшиеся переменные, таким образом, включим  в модель все пять наших объясняющих  переменных и посмотрим на результаты.

Таблица 10

Результаты оценивания модели №3

 

Dependent Variable: PRICE

   

Method: Least Squares

   

Date: 06/18/13   Time: 23:06

   

Sample: 1 40

     

Included observations: 40

   
         
         

Variable

Coefficient

Std. Error

t-Statistic

Prob.  

         
         

C

-637309.8

455645.8

-1.398696

0.1710

TOTSQ

71733.36

8582.672

8.357929

0.0000

ROOMS

-228780.5

293149.7

-0.780422

0.4405

REGION

1100206.

563046.4

1.954023

0.0590

YARD

538804.4

447409.4

1.204276

0.2368

FLOOR

104287.0

60719.87

1.717511

0.0950

         
         

R-squared

0.922500

Mean dependent var

4571625.

Adjusted R-squared

0.911103

S.D. dependent var

3537108.

S.E. of regression

1054608.

Akaike info criterion

30.71272

Sum squared resid

3.78E+13

Schwarz criterion

30.96605

Log likelihood

-608.2543

Hannan-Quinn criter.

30.80431

F-statistic

80.94241

Durbin-Watson stat

1.758006

Prob(F-statistic)

0.000000

     
         
         
Исследование зависимости стоимости квартир от некоторых факторов