Однофакторные корреляционно - регрессионные модели и возможности их применение при анализе социально-экономических систем

    Решение:

    Для нашего примера 

    Результативный  признак (у) – урожайность озимой пшеницы,      ц/га

    Факторный признак (х) – доза внесения органических удобрений, ц/га 

    Таблица 1.1. – Исходные данные для анализа

№ региона Доза внесения удобрений, ц/га

    х

Урожайность озимой пшеницы, ц/га

у

1 115 202
2 98 209
3 105 204
4 109 169
5 102 214
6 116 195
7 97 174
8 92 200
9 112 194
10 110 198
11 104 199
12 100 189
13 95 209
14 98 196
15 107 201
16 106 204
 

    1. Построим поле корреляции, для  чего отложим на плоскости  в прямоугольной системе координат  точки (xi  yi) (рис.1.1).

    Рис. 1.1. Поле корреляции

    Расположение  точек на графике не позволяет  точно определить тип уравнения  регрессии. Для выявления типа зависимости  воспользуемся экспериментальным  методом. 

    2. Для расчета параметров линейной регрессии построим расчетную таблицу (табл.1.2)

 

     

    Таблица 1.2. – Расчетные значения

х у xy х2 у2
·100%,

(Ai, %)

1 115 202 23230 13225 40804 195,255 3,339 45,493 118,266 4,233
2 98 209 20482 9604 43681 198,471 5,038 188,922 37,516 1,343
3 105 204 21420 11025 41616 197,147 3,359 76,473 0,766 0,027
4 109 169 18421 11881 28561 196,390 16,207 689,331 23,766 0,851
5 102 214 21828 10404 45796 197,715 7,610 351,371 4,516 0,162
6 116 195 22620 13456 38025 195,066 0,034 0,065 141,016 5,047
7 97 174 16878 9409 30276 198,660 14,173 451,780 50,766 1,817
8 92 200 18400 8464 40000 199,606 0,197 22,514 147,016 5,262
9 112 194 21728 12544 37636 195,823 0,940 1,575 62,016 2,220
10 110 198 21780 12100 39204 196,201 0,909 7,534 34,516 1,235
11 104 199 20696 10816 39601 197,336 0,836 14,024 0,016 0,001
12 100 189 18900 10000 35721 198,093 4,811 39,126 17,016 0,609
13 95 209 19855 9025 43681 199,039 4,766 188,922 83,266 2,980
14 98 196 19208 9604 38416 198,471 1,261 0,555 37,516 1,343
15 107 201 21507 11449 40401 196,769 2,105 33,004 8,266 0,296
16 106 204 21624 11236 41616 196,958 3,452 76,473 3,516 0,126
Итого 1666 3157 328577 174242 625035 3157,000 69,036 2187,163 769,75 27,550
Ср.зн 104,125 197,3125 20536,0625 10890,125 39064,687 х 4,315      
σ 6,936 11,692                
σ2 48,109 136,698                

 

     

    2а. Построим линейное уравнение парной регрессии у по х. Используя данные таблицы 2, имеем:

    β= =

    a = =

    Тогда линейное уравнение парной регрессии  имеет вид:

    

    Полученное  уравнение показывает, что с увеличением  дозы внесения органических уравнений на l ц/га урожайность озимой пшеницы падает в среднем на 0,189 ц/га. 

 

    Рис. 1.2. Зависимость между дозой внесения органических удобрений и урожайностью озимой пшеницы (линейная регрессия). 

    Подставляя  в полученное уравнение регрессии  значения xi из исходных данных определяем теоретические (выровненные) значения результативного признака (табл.1.2).

    2б.  При линейной корреляции между х и у исчисляют парный линейный коэффициент корреляции r. Он принимает значения в интервале –1 £ r £ 1. Знак коэффициента корреляции показывает направление связи: «+» – связь прямая, «–» – связь обратная. Абсолютная величина характеризует степень тесноты связи. 
 

    Учитывая:

           ,

    оценим  тесноту линейной связи с помощью  линейного коэффициента парной корреляции

    

    Связь между факторами обратная. В соответствии со шкалой Чеддока теснота характеризуется как слабая.

    Изменение результативного признака у обусловлено вариацией факторного признака х. Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака характеризует коэффициент детерминации D. Коэффициент детерминации – квадрат коэффициента корреляции.

    R2=rху2·100%

    

    Следовательно, вариация урожайности картофеля на 1,3 % объясняется вариацией дозы внесения удобрений, а остальные 98,70% вариации урожайности обусловлены изменением других, не учтенных в модели факторов.

     = = 69,036/16=4,315

    В среднем расчетные значения отклоняются  от фактических на 4,315%. Это значение не превышает допустимый предел, следовательно качество построенной модели высокое. Это, а также небольшое значение коэффициента детерминации говорит о том, что линейный тип модели не достаточно хорошо отражает представленные эмпирические данные.

    ) Для оценки силы связи признаков у и х найдем средний коэффициент эластичности:

  .=

 

    Таким образом, в среднем на 0,1% по совокупности изменится урожайность картофеля от своей средней величины при изменении дозы внесения удобрений на 1% от своего среднего значения.

     

    ) Для оценки статистической надежности результатов используем F-критерий Фишера.

    Выдвигаем нулевую гипотезу Но о статистической незначимости полученного уравнения регрессии.

    Fфакт = = · (n-2)

    

    Сравним фактическое значение критерия Фишера с табличным. Для этого выпишем значения критерия Фишера из таблицы «Значения F-критерия Фишера при уровне значимости a=0.05» (приложение 1).

    В нашем примере k1=1;  k=16-1-1=14.

    Таким образом. Fтабл.=4,6 при =0,05.

    Т.к. Fфакт.< Fтабл., то при заданном уровне вероятности g=0,05 следует принять нулевую гипотезу о статистической незначимости уравнения регрессии и показателя тесноты связи. 

    2е) Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей.

    Выдвигаем гипотезу Но о статистически незначимом отличии показателей регрессии от нуля a=b=rух =0.

    Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки:

     ; ;

    Случайные ошибки параметров линейной регрессии  и коэффициента корреляции определяются по формулам:

 

Сравнивая фактическое и критическое (табличное) значения t-статистики принимаем или отвергаем гипотезу Но.

    Если  tтабл < tфакт, то Но отклоняется, т.е. a, b, r не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл > tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования a, b, r. 

; ;

    tтабл при уровне значимости g=0,05 и числе степеней свободы равных 16-2=14 равно 2,1448 (приложение 2).

     < tтабл,    < tтабл,      < tтабл,

    следовательно нулевая гипотеза о несущественности коэффициентов корреляции и регрессии  принимается , т. е. r, b и a статистически незначимы.

    Для расчета доверительного интервала  определяем предельную ошибку ∆ для  каждого показателя:

    a = tтабл ma=2,1448∙217,011=98,613

    b = tтабл mb=2,1448∙(-0,189)=0,945

    Доверительные интервалы:

    Для параметра a: (118,399;  315,624)

    Для параметра b: (-1,134;  0,756)

    Анализ  верхних и нижних границ доверительных  интервалов приводит к выводу, что  с вероятностью p = 1–γ = 0,95 параметры a и b находятся в указанных пределах, причем параметр a являются статистически незначимым, т.к. в границы доверительного интервала попадает ноль.

    3. Проверим результаты, полученные  в п.2 с помощью ППП Exel.

    3а)  Результат вычислений функции  ЛИНЕЙН для рассматриваемого примера представлен на рис. 1.5. 

    Рис. 1.5. Результат вычисления функции ЛИНЕЙН 
 

    3б)  Проведем анализ исходных данных рассматриваемого примера с помощью инструмента анализа Регрессия (рис. 1.9).

    Рис. 1.9. Результаты применения инструмента Регрессия 

    Сравнивая полученные вручную и с помощью  ППП Exel данные, убеждаемся в правильности выполненных действий. 

    4. Построению показательной модели  у=abх  (29) предшествует процедура линеаризации переменных.

    Данная  функция нелинейна относительно параметров, но линейна по переменным. В нелинейных регрессиях относительно параметров процедура линеаризации производится путем логарифмирования обеих частей уравнения:

    ln y = lna+x∙lnb      (30)

    Введем  обозначения

    У= ln y , С= lna , В= lnb

    Тогда уравнение (30) запишется в виде:

    У= С+ В∙ x.      (31) 

    Для нахождения параметров полученной линейной модели (31)  воспользуемся вспомогательными расчетами (табл. 1.4)

х Y У∙х х2 Y2 ·%,
1 115 5,308 610,451 13225 28,178 5,273 0,665 0,001 118,266 0,0001002 0,00064
2 98 5,342 523,549 9604 28,541 5,289 1,005 0,003 37,516 0,0000318 0,00352
3 105 5,318 558,403 11025 28,282 5,282 0,676 0,001 0,766 0,0000006 0,00123
4 109 5,130 559,159 11881 26,316 5,279 2,897 0,022 23,766 0,0000201 0,02344
5 102 5,366 547,330 10404 28,794 5,285 1,510 0,007 4,516 0,0000038 0,00688
6 116 5,273 611,668 13456 27,805 5,272 0,018 0,000 141,016 0,0001195 0,00010
7 97 5,159 500,428 9409 26,616 5,290 2,530 0,017 50,766 0,0000430 0,01536
8 92 5,298 487,445 8464 28,072 5,294 0,078 0,000 147,016 0,0001246 0,00023
9 112 5,268 590,000 12544 27,750 5,276 0,150 0,000 62,016 0,0000526 0,00023
10 110 5,288 581,709 12100 27,966 5,278 0,202 0,000 34,516 0,0000293 0,00003
11 104 5,293 550,504 10816 28,019 5,283 0,192 0,000 0,016 0,0000000 0,00011
12 100 5,242 524,175 10000 27,476 5,287 0,859 0,002 17,016 0,0000144 0,00170
13 95 5,342 507,522 9025 28,541 5,291 0,953 0,003 83,266 0,0000706 0,00352
14 98 5,278 517,255 9604 27,858 5,289 0,199 0,000 37,516 0,0000318 0,00002
15 107 5,303 567,454 11449 28,125 5,280 0,433 0,001 8,266 0,0000070 0,00041
16 106 5,318 563,721 11236 28,282 5,281 0,693 0,001 3,516 0,0000030 0,00123
Σ 1666 84,528 8800,771 174242 446,620 84,528 13,060 0,058 769,75 0,0006524 0,05867
Ср.зн 104,125 5,283 550,048 10890,125 27,914 х 0,816                
σ 6,936 0,061                              
σ2 48,109 0,004                              
     
 

=5,283-104,125∙0,00092=0,01112.

    Получим линейное уравнение регрессии:

    Ŷ= 5,379+0,000092∙х.      (32) 

    Тесноту полученной линейной модели характеризует  линейный коэффициент парной корреляции:

    Коэффициент детерминации при этом равен: 

    R2=r2хУ=1,11%. 

    Это означает, что чуть более 1% вариации фактора Y объясняется вариацией фактора x.

    Средняя ошибка линейной аппроксимации составляет:

     = ∙100% = 0,816%.

    В среднем по полученной линейной модели расчетные значения отклоняются от фактических на 0,816%, что входит в допустимый предел. 

    Проведя потенцирование уравнения (32), получим искомую нелинейную (показательную) модель.

     216,776∙0,99908х      (33) 

Результаты вычисления параметров показательной кривой (1) проверим с помощью ППП Exel, для чего используем встроенную статистическую функцию ЛГРФПРИБЛ.

Результат выполнения:

0,9990798 216,775694
0,0023203 0,24213384
0,0111204 0,06437451
0,157436 14
0,0006524 0,05801708
 
 

    Для расчета индекса корреляции ρxy нелинейной регрессии воспользуемся вспомогательной таблицей 5.

    Таблица 1.5. – Расчетные величины

х у
1 115 202 194,998 49,02816 21,97266 118,2656
2 98 209 198,074 119,3798 136,5977 37,51563
3 105 204 196,802 51,81822 44,72266 0,765625
4 109 169 196,078 733,224 801,5977 23,76563
5 102 214 197,346 277,3619 278,4727 4,515625
6 116 195 194,819 0,032925 5,347656 141,0156
7 97 174 198,256 588,3698 543,4727 50,76563
8 92 200 199,171 0,687151 7,222656 147,0156
9 112 194 195,537 2,363303 10,97266 62,01563
10 110 198 195,898 4,419769 0,472656 34,51563
11 104 199 196,983 4,069176 2,847656 0,015625
12 100 189 197,710 75,85575 69,09766 17,01563
13 95 209 198,622 107,7088 136,5977 83,26563
14 98 196 198,074 4,301042 1,722656 37,51563
15 107 201 196,439 20,79836 13,59766 8,265625
16 106 204 196,620 54,45831 44,72266 3,515625
Итого 1666 3157 3151,426 2093,876 2119,438 769,750
Ср.зн 104,125 197,313 196,964 130,867 132,465 48,109

 

    

ρxy= = =  
 

    Найдем  коэффициент детерминации

    R2= ρ2xy·100%=0,112

    Полученное  значение коэффициента детерминации говорит  о том, что 1,2% вариации урожайности картофеля объясняется вариацией фактора х – дозы внесения органических удобрений.

    Рассчитаем  фактическое значение F-критерия при заданном уровне значимости =0,05:

Fфакт = = · (n-2)= =0,171. 

    Сравнивая табличное Fтабл=4,6 и фактическое Fфакт=0,171 значение отмечаем , что Fфакт.< Fтабл.,

    Это означает, что  при заданном уровне вероятности g=0,05 следует принять нулевую гипотезу о статистической незначимости параметров уравнения регрессии. 
 

    5. По условию задачи прогнозное значение фактора выше его среднего уровня x=104,125 на 5%, тогда оно составит:

=1,05∙104,125=109,33
 
 

    Обе модели статистически незначимы, прогноз  не будет иметь смысл

    оба уравнения регрессии является статистически незначимыми и ненадежными, рассчитывать  прогнозируемое значение урожайности ни по одному из рассмотренных уравнений не имеет смысла, поскольку данный прогноз не даст достоверного результата.

    Тем не менее, выполним расчет прогнозного  значения результата по линейной модели. (R2лин >R2показат.). 
 
 

     ; 

    Найдем  ошибку прогноза: 

    

     =  

     =

     

    Далее построим доверительный интервал прогноза при уровне значимости g=0,05:

     ;    

предельная  ошибка прогноза, которая в 95% случаев  не будет превышена, составит:

      =2,1448∙12,807=27,47

    Доверительный интервал прогноза

    (168,859;  223,796). 

    С вероятностью 95% при внесении 109,33 ц/га удобрений урожайность будет находиться в пределах указанного выше интервала. 
 

 

 

 

 

    

Однофакторные корреляционно - регрессионные модели и возможности их применение при анализе социально-экономических систем