Регрессионный анализ влияния уровня доходов домашних хозяйств и процентной ставки по депозитам, на динамику депозитов



Оглавление

1 Введение

2 Анализ и методы

2.1 Корреляционный анализ

2.2 Построение и анализ уравнения регрессии

2.3 Проверка наличия автокорреляции

2.4 Проверка наличия гетероскедастичности

3 Выводы и резюме

4 Список использованных источников

Приложение 1

Приложение 2


1 Введение

При анализе взаимосвязей социально-экономических явлений, как правило, выясняется, что на результат влияет ряд факторных признаков, основные из которых следует включить в регрессионную модель. При этом следует помнить, что все факторы учесть в модели невозможно по ряду причин: часть факторов просто неизвестна современной науке, по части известных факторов нет достоверной информации или количество включаемых в модель факторов может быть ограничено объемом выборки (количество факторных признаков должно быть на порядок меньше численности изучаемой совокупности).

Множественная регрессия описывает форму связи в виде уравнения множественной регрессии, или регрессионной модели.

Основные виды множественной регрессии

Форма регрессии

Вид уравнения регрессии

Линейная

= а0 + a1x1+ … +amxm

Гиперболическая

= а0 + a1 (1/x1) + … +am(1/xm)

Параболическая

= а0 + a1x12 + … +am xm2

Степенная

= а0 x1 a1 x2 a2… xm am

– теоретическое значение результативного признака (y) при определенных значениях факторных признаков (x1, x 2,…, x m), подставленных в регрессионное уравнение;

а0 – свободный член уравнения;

a1,a2,…,am – коэффициенты множественной регрессии.

Параметры уравнения множественной регрессии a1,a2,…,am называют коэффициентами множественной регрессии и определяют с помощью метода наименьших квадратов путем решения системы нормальных уравнений метода наименьших квадратов. При этом число нормальных уравнений в общем случае будет равно числу параметров. Если связь отдельного фактора с результатом не является линейной, то производят линеаризацию уравнения. Для упрощения решения системы нормальных уравнений значения всех признаков заменяют на отклонения индивидуальных значений признаков от их средних величин. Полученные коэффициенты множественной регрессии являются именованными числами и показывают, на сколько изменится результативный признак (по отношению к своей средней величине) при отклонении факторного признака от своей средней на единицу и при постоянстве (фиксированном уровне) других факторов.

Значимость коэффициентов множественной регрессии оценивается на основе t-критерия Стьюдента; tр рассчитывают как отношение взятого по модулю коэффициента регрессии к его средней ошибке с заданными уровнем значимости () и числом степеней свободы v = n – m - 1.

Коэффициенты регрессии можно преобразовать в сравнимые относительные показатели - стандартизованные коэффициенты регрессии, или -коэффициенты. -коэффициент позволяет оценить меру влияния вариации факторного признака на вариацию результата при фиксированном уровне других факторов:

, где xi – среднее квадратическое отклонение факторного признака, y – среднее квадратическое отклонение результативного признака, ai – коэффициент регрессии при соответствующем факторном признаке xi.

При интерпретации результатов корреляционно-регрессионного анализа часто используют частные коэффициенты эластичности (Exi). Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результативного признака при изменении факторного на 1% и при постоянстве (фиксированном уровне) других факторов:

, где – среднее значение факторного признака, – среднее значение результативного признака.

Множественная корреляция характеризует тесноту и направленность связи между результативным и несколькими факторными признаками. Основой измерения связей является матрица парных коэффициентов корреляции. По ней можно в первом приближении судить о тесноте связи факторных признаков между собой и с результативным признаком, а также осуществлять предварительный отбор факторов для включения их в уравнение регрессии. При этом не следует включать в модель факторы, слабо коррелирующие с результативным признаком и тесно связанные между собой. Не допускается включать в модель функционально связанные между собой факторные признаки, так как это приводит к неопределенности решения.

Более точную характеристику тесноты зависимости дают частные коэффициенты корреляции. Их удобно анализировать, если они представлены в табличном виде. Частный коэффициент корреляции служит показателем линейной связи между двумя признаками, исключая влияние всех остальных представленных в модели факторов. Например, для двухфакторной модели частный коэффициент корреляции между y и x1 при фиксированном x2 (ryx1/x2) определяется в соответствии с формулой:

, где ryx1, ryx2, rx1x2 – парные коэффициенты корреляции.

Проверка значимости частных коэффициентов корреляции аналогична, как и для парных коэффициентов корреляции.

Множественный коэффициент корреляции (R) рассчитывается при наличии линейной связи между всеми признаками регрессионной модели. R изменяется в пределах от 0 до 1. Значимость множественного коэффициента корреляции проверяется на основе F-критерия Фишера. Например, в двухфакторной модели при оценке связи между результативным и факторными признаками для определения множественного коэффициента корреляции можно использовать формулу:

где 2y x1x2 – дисперсия результативного признака, рассчитанная по регрессионному уравнению, 2y – общая дисперсия результативного признака, ryx1, ryx2, rx1x2 – парные коэффициенты корреляции.

Квадрат множественного коэффициента корреляции называют множественным коэффициентом детерминации R2. Он оценивает долю вариации результативного фактора за счет представленных в модели факторов в общей вариации результата. Множественный коэффициент детерминации обычно корректируют на потерю степеней свободы вариации по формуле:

, где R2корр – корректированный множественный коэффициент детерминации, R2 –множественный коэффициент детерминации, n – объем совокупности, m – количество факторных признаков.

Статистическая надежность регрессионного уравнения в целом оценивается на основе F-критерия Фишера: проверяется нулевая гипотеза о несоответствии представленных регрессионным уравнением связей реально существующим (H0: a0= a1=a2=…=am=0, R=0). Для проверки H0 следует расcчитать значение F-критерия (Fр) и сравнить его с табличным значением (Fт), определяемым с использованием таблицы приложения 1 по заданным уровню значимости (= 0,05) и числу степеней свободы (v1= m – 1 и v2 = n – m). Fр определяется из соотношения факторной и остаточной дисперсий, рассчитанных на одну степень свободы по формуле:

, где Dфакт, Dост – суммы квадратов отклонений, характеризующие факторную и остаточную вариации результативного признака. В случае однофакторного дисперсионного комплекса Dфакт и Dост выражаются в соответствии с формулой:

, где yij, – значения результативного признака у i–й единицы в j–й группе, i – номер единицы совокупности, j – номер группы,

nj – численность j–й группы, – средняя величина результативного признака в j–й группе, – общая средняя результативного признака.

Если Fр > Fт, то гипотеза H0 отвергается. При этом с вероятностью 1 -  = 0,95, или 95%, принимается альтернативная гипотеза о неслучайной природе оцениваемых характеристик, т.е. признается статистическая значимость регрессионного уравнения и его параметров.

Автокорреляция в остатках может быть вызвана несколькими причинами, имеющими различную природу.

Она может быть связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака.

В ряде случаев автокорреляция может быть следствием неправильной спецификации модели. Модель может не включать фактор, который оказывает существенное воздействие на результат и влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными. Очень часто этим фактором является фактор времени t.

От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму модели, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции в остатках.

Один из более распространенных методов определения автокорреляции в остатках – это расчет критерия Дарбина-Уотсона:

Т.е. величина d есть отношение суммы квадратов разностей последовательных значений остатков к остаточной сумме квадратов по модели регрессии.

Алгоритм выявления автокорреляции остатков на основе критерия Дарбина-Уотсона следующий. Выдвигается гипотеза Н0 об отсутствии автокорреляции остатков. Альтернативные гипотезы Н1 и Н* состоят, соответственно, в наличии положительной или отрицательной автокорреляции в остатках. Далее по специальным таблицам определяются критические значения критерия Дарбина- Уотсона dL и dU для заданного числа наблюдений п, числа независимых переменных модели т и уровня значимости . По этим значениям числовой промежуток [0; 4] разбивают на пять отрезков. Принятие или отклонение каждой из гипотез с вероятностью 1 –  осуществляется следующим образом:

0 < d < dL - есть положительная автокорреляция остатков, Н0 отклоняется, с вероятностью p = 1 –  принимается Н1;

dL < d < dU – зона неопределенности;

dU < С < 4 – dU – нет оснований отклонять Н0, т.е. автокорреляция остатков отсутствует;

4 – dU < d < 4 – dL – зона неопределенности;

4 – dL < d < 4 - есть отрицательная автокорреляция остатков, Н0 отклоняется, с вероятностью p = 1 –  принимается Н* .

Если фактическое значение критерия Дарбина-Уотсона попадает в зону неопределенности, то на практике предполагают существование автокорреляции остатков и отклоняют гипотезу Н0 .

Для применения метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора хi остатки i имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.

При нарушении гомоскедастичности мы имеем неравенства

,

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта. Основная идея теста Гольдфельда-Квандта состоит в следующем:

1.         упорядочение п наблюдений по мере возрастания переменной хi;

2.         исключение из рассмотрения v центральных наблюдений, при этом
(п – v) : 2 > р, где р – число оцениваемых параметров;

3.         разделение совокупности из (n – v) наблюдений на две группы (соответ­ственно с малыми и с большими значениями фактора х) и определение по каж­дой из групп уравнений регрессии;

4.         определение остаточной суммы квадратов для первой (S1) и второй (S1) групп и нахождение их отношения: R = S2 : S1.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию со степенями свободы k1 = (п – v – 2р) : 2, k2 = (п – v – 2р) : 2. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточ­ных величин.

Целью данной работы является выявление с помощью методов регрессионного анализа влияния уровня доходов домашних хозяйств и процентной  ставки по депозитам на динамику депозитов и построение уравнения множественной регрессии, оценка качества полученного уравнения и оценка возможности его применения для прогнозирования динамики депозитов.


2 Анализ и методы

2.1 Корреляционный анализ

Множественная регрессия характеризует связь между результативным и двумя или более факторными. В данной задаче аналитически связь между результативным и двумя факторными признаками, признается (условно) линейной и описывается следующим уравнением прямой.

Для расчета парных коэффициентов регрессии составим таблицу, для удобства расчетов выразив значения y и x1 в миллиардах евро.

Таблица 1 – Вспомогательная таблица для расчета парных коэффициентов регрессии.

Фактические данные

Расчетные данные

y

x1

x2

x1²

x2²

x1y

x2y

x1 x2

1

63,807

948,899

2,5

4071,33

900409,31

6,25

60546,40

159,52

2372,25

57,35

2

62,217

968,738

3,3

3870,96

938453,31

10,89

60271,97

205,32

3196,84

59,77

3

60,348

979,277

3,5

3641,88

958983,44

12,25

59097,41

211,22

3427,47

60,23

4

57,611

1005,766

3,8

3319,03

1011565,25

14,44

57943,19

218,92

3821,91

60,62

5

56,764

996,104

3,8

3222,15

992223,18

14,44

56542,85

215,70

3785,20

60,88

6

56,853

1012,316

3,5

3232,26

1024783,68

12,25

57553,20

198,99

3543,11

59,33

7

55,327

1022,05

2,8

3061,08

1044586,20

7,84

56546,96

154,92

2861,74

56,49

8

52,623

1040,243

2,3

2769,18

1082105,50

5,29

54740,71

121,03

2392,56

54,15

9

56,689

1019,172

2,3

3213,64

1038711,57

5,29

57775,84

130,38

2344,10

54,72

10

56,475

1035,973

2,3

3189,43

1073240,06

5,29

58506,58

129,89

2382,74

54,26

11

54,198

1051,295

2,3

2937,42

1105221,18

5,29

56978,09

124,66

2417,98

53,85

12

50,669

1073,085

1,8

2567,35

1151511,42

3,24

54372,14

91,20

1931,55

51,41

13

51,712

1053,15

1,5

2674,13

1109124,92

2,25

54460,49

77,57

1579,73

50,84

14

49,504

1070,498

1,0

2450,65

1145965,97

1,00

52993,93

49,50

1070,50

48,53

15

49,219

1089,198

1,0

2422,51

1186352,28

1,00

53609,24

49,22

1089,20

48,02

16

43,955

1106,957

1,0

1932,04

1225353,80

1,00

48656,29

43,96

1106,96

47,54

17

46,435

1094,094

1,0

2156,21

1197041,68

1,00

50804,25

46,44

1094,09

47,89

18

45,929

1113,618

1,0

2109,47

1240145,05

1,00

51147,36

45,93

1113,62

47,36

19

45,787

1129,97

1,0

2096,45

1276832,20

1,00

51737,94

45,79

1129,97

46,92

20

45,664

1147,148

1,0

2085,20

1315948,53

1,00

52383,37

45,66

1147,15

46,46

21

45,496

1130,73

1,0

2069,89

1278550,33

1,00

51443,69

45,50

1130,73

46,90

22

45,278

1154,872

1,0

2050,10

1333729,34

1,00

52290,29

45,28

1154,87

46,25

23

44,698

1179,241

1,0

1997,91

1390609,34

1,00

52709,71

44,70

1179,24

45,59

24

46,98

1187,539

1,3

2207,12

1410248,88

1,69

55790,58

61,07

1543,80

46,47

25

47,489

1182,653

1,5

2255,21

1398668,12

2,25

56163,01

71,23

1773,98

47,35

26

48,068

1204,629

1,8

2310,53

1451131,03

3,24

57904,11

86,52

2168,33

47,86

27

50,501

1222,139

2,0

2550,35

1493623,74

4,00

61719,24

101,00

2444,28

48,13

28

51,643

1234,099

2,5

2667,00

1523000,34

6,25

63732,57

129,11

3085,25

49,65

29

49,325

1220,59

2,8

2432,96

1489839,95

7,84

60205,60

138,11

3417,65

51,13

30

48,181

1243,531

3,0

2321,41

1546369,35

9,00

59914,57

144,54

3730,59

51,24

31

50,052

1262,352

3,0

2505,20

1593532,57

9,00

63183,24

150,16

3787,06

50,74

32

55,534

1278,892

3,0

3084,03

1635564,75

9,00

71021,99

166,60

3836,68

50,29

Сумма

1645,031

35458,818

66,6

85474,08

39563426,27

167,28

1812746,81

3549,64

 

 

Среднее

51,41

1108,09

2,08

2671,07

1236357,07

5,23

56648,34

110,93

 

 


 

Отсюда средние квадратические отклонения определяются по формулам:

 

Парные коэффициенты корреляции вычислим по следующим формулам:

 

Оценим их значимость на уровне 0,05, используя критерий Фишера.

Найдем табличное значение Fтабл по таблице критических точек Фишера для
 = 0,05; k1 = m = 2 (число факторов), k2 = n – m – 1 = 32 – 2 – 1 = 29.

Fтабл = F(0,05; 2; 29) = 3,33.

= 10,74.

Поскольку полученное значение больше табличного, коэффициент является значимым.

= 24,6.

Поскольку полученное значение больше табличного, коэффициент также является значимым.

= 0,94.

Поскольку полученное значение меньше табличного, коэффициент не является значимым.

 

Парный коэффициент корреляции принимает отрицательное значение. Это означает, что между уровнем доходов домашних хозяйств и размером депозитов существует заметная обратная корреляционная зависимость, т.е. с увеличением доходов домашних хозяйств размер депозитов снижается.

 

Парный коэффициент корреляции больше 0,7 и принимает положительное значение. Это означает, что между процентной ставкой по депозитам и размером депозитов существует тесная прямая корреляционная зависимость, т.е. с увеличением ставки по депозитам размер депозитов снижается.


2.2 Построение и анализ уравнения регрессии

Построим модель множественной регрессии в следующем виде:

Составим систему нормальных уравнений.

 

Используя данные таблицы 1,  получим:

Решая эту систему, получаем:

a0 = 73,735;  a1 = -0,027;  a2 = 3,695.

 

Запишем уравнение линейной регрессии:

 

Параметр а1 = -0,027 показывает, что размер депозитов y при изменении первого факторного признака (уровни доходов домашних хозяйств) на единицу – снижается на 0,027 млрд. евро; параметр а2 = 3,695 показывает, что размер депозитов при изменении второго факторного признака (процентная ставка по депозитам) на единицу – увеличивается примерно на 3,695 млрд. евро.

 

Для измерения тесноты корреляционной связи между результативным признаком и факторными признаками при линейной форме связи рассчитаем множественный коэффициент корреляции по формуле:

=

= 0,9224.

 

Оценим его значимость на уровне 0,05, используя критерий Фишера.

Табличное значение Fтабл для  = 0,05; k1 = m = 2 (число факторов), k2 = n – m – 1 = 32 – 2 – 1 = 29 составляет:

Fтабл = F(0,05; 2; 26) = 3,37.

= 82,7.

Поскольку полученное значение значительно больше табличного, множественный коэффициент корреляции является значимым.

 

Вычислим множественный коэффициент детерминации.

= 0,92242 = 0,8509.

Таким образом, вариация результата y (размера депозитов) примерно на 85,1% объясняется вариацией факторов x1 (уровней доходов домашних хозяйств) и x2 (ставки по депозитам).

 

Множественный коэффициент детерминации обычно корректируют на потерю степеней свободы вариации по формуле:

, где R2корр – корректированный множественный коэффициент детерминации, –множественный коэффициент детерминации, n – объем совокупности, m – количество факторных признаков.

= 0,8406.

 

Оценим статистическую значимость параметров регрессии с помощью t-критерия Стьюдента. Вычислим стандартные ошибки параметров регрессии.

Составим вспомогательную таблицу.

Таблица 2 – Вспомогательная таблица для расчета стандартных ошибок регрессии.

y

x1

x2

1

63,807

948,899

2,5

57,35

41,693

25341,77

0,1764

2

62,217

968,738

3,3

59,77

5,988

19418,98

1,4884

3

60,348

979,277

3,5

60,23

0,014

16592,79

2,0164

4

57,611

1005,766

3,8

60,62

9,054

10470,20

2,9584

5

56,764

996,104

3,8

60,88

16,941

12540,86

2,9584

6

56,853

1012,316

3,5

59,33

6,136

9172,66

2,0164

7

55,327

1022,05

2,8

56,49

1,353

7402,88

0,5184

8

52,623

1040,243

2,3

54,15

2,332

4603,22

0,0484

9

56,689

1019,172

2,3

54,72

3,877

7906,41

0,0484

10

56,475

1035,973

2,3

54,26

4,906

5200,86

0,0484

11

54,198

1051,295

2,3

53,85

0,121

3225,67

0,0484

12

50,669

1073,085

1,8

51,41

0,549

1225,35

0,0784

13

51,712

1053,15

1,5

50,84

0,760

3018,40

0,3364

14

49,504

1070,498

1,0

48,53

0,949

1413,16

1,1664

15

49,219

1089,198

1,0

48,02

1,438

356,91

1,1664

16

43,955

1106,957

1,0

47,54

12,852

1,28

1,1664

17

46,435

1094,094

1,0

47,89

2,117

195,89

1,1664

18

45,929

1113,618

1,0

47,36

2,048

30,56

1,1664

19

45,787

1129,97

1,0

46,92

1,284

478,73

1,1664

20

45,664

1147,148

1,0

46,46

0,634

1525,53

1,1664

21

45,496

1130,73

1,0

46,90

1,971

512,57

1,1664

22

45,278

1154,872

1,0

46,25

0,945

2188,56

1,1664

23

44,698

1179,241

1,0

45,59

0,796

5062,46

1,1664

24

46,98

1187,539

1,3

46,47

0,260

6312,14

0,6084

25

47,489

1182,653

1,5

47,35

0,019

5559,64

0,3364

26

48,068

1204,629

1,8

47,86

0,043

9319,78

0,0784

27

50,501

1222,139

2,0

48,13

5,622

13007,17

0,0064

28

51,643

1234,099

2,5

49,65

3,972

15878,27

0,1764

29

49,325

1220,59

2,8

51,13

3,258

12656,25

0,5184

30

48,181

1243,531

3,0

51,24

9,357

18344,26

0,8464

31

50,052

1262,352

3,0

50,74

0,473

23796,76

0,8464

32

55,534

1278,892

3,0

50,29

27,500

29173,32

0,8464

Сумма

1645,031

35458,818

66,6

 

169,262

271933,290

28,669

Среднее

51,41

1108,09

2,08

 

 

 

 


 

Получаем:

 

Определим фактические значения t-критерия Стьюдента.

             

Найдем табличное значение tтабл по таблице распределения Стьюдента для
 = 0,05 и числе степеней свободы k = n – m – 1 = 32 – 2 – 1 = 29.

tтабл(0,05; 29) = 2,045.

 

Как видим, t-статистики коэффициентов регрессии по модулю превышают критическое значение, поэтому коэффициенты уравнения регрессии можно признать значимыми.

Проверим выполненные расчеты с помощью средств Excel.

Поместим исходные данные на рабочий лист Excel.  Вычислим матрицу коэффициентов парной корреляции. Для расчета коэффициентов парной корреляции применим надстройку Excel Анализ данных – Корреляция и выбираем инструмент анализа Корреляция.

Полученные значения поместим в таблицу.

 

y

x1

x2

y

1

 

 

x1

-0,6424

1

 

x2

0,7806

-0,2642

1

 

Чтобы найти параметры уравнения линейной регрессии на вкладке Данные выполним команду Анализ данных–Регрессия.  Получим следующие результаты:

Регрессионная статистика

Множественный R

0,90214

R-квадрат

0,81385

Нормированный R-квадрат

0,80101

Стандартная ошибка

2,41370

Наблюдения

32

 

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

2

738,6448

369,3224

63,3929

2,5889E-11

Остаток

29

168,9518

5,8259

 

 

Итого

31

907,5966

 

 

 

Регрессионный анализ влияния уровня доходов домашних хозяйств и процентной ставки по депозитам, на динамику депозитов