Однофакторные корреляционно - регрессионные модели и возможности их применение при анализе социально-экономических систем
Решение:
Для нашего примера
Результативный признак (у) – урожайность озимой пшеницы, ц/га
Факторный
признак (х) – доза внесения органических
удобрений, ц/га
Таблица 1.1. – Исходные данные для анализа
| № региона | Доза внесения
удобрений, ц/га
х |
Урожайность озимой
пшеницы, ц/га
у |
| 1 | 115 | 202 |
| 2 | 98 | 209 |
| 3 | 105 | 204 |
| 4 | 109 | 169 |
| 5 | 102 | 214 |
| 6 | 116 | 195 |
| 7 | 97 | 174 |
| 8 | 92 | 200 |
| 9 | 112 | 194 |
| 10 | 110 | 198 |
| 11 | 104 | 199 |
| 12 | 100 | 189 |
| 13 | 95 | 209 |
| 14 | 98 | 196 |
| 15 | 107 | 201 |
| 16 | 106 | 204 |
1.
Построим поле корреляции, для
чего отложим на плоскости
в прямоугольной системе
Рис. 1.1. Поле корреляции
Расположение
точек на графике не позволяет
точно определить тип уравнения
регрессии. Для выявления типа зависимости
воспользуемся
2. Для расчета параметров линейной регрессии построим расчетную таблицу (табл.1.2)
Таблица 1.2. – Расчетные значения
| № | х | у | xy | х2 | у2 | (Ai, %) |
||||
| 1 | 115 | 202 | 23230 | 13225 | 40804 | 195,255 | 3,339 | 45,493 | 118,266 | 4,233 |
| 2 | 98 | 209 | 20482 | 9604 | 43681 | 198,471 | 5,038 | 188,922 | 37,516 | 1,343 |
| 3 | 105 | 204 | 21420 | 11025 | 41616 | 197,147 | 3,359 | 76,473 | 0,766 | 0,027 |
| 4 | 109 | 169 | 18421 | 11881 | 28561 | 196,390 | 16,207 | 689,331 | 23,766 | 0,851 |
| 5 | 102 | 214 | 21828 | 10404 | 45796 | 197,715 | 7,610 | 351,371 | 4,516 | 0,162 |
| 6 | 116 | 195 | 22620 | 13456 | 38025 | 195,066 | 0,034 | 0,065 | 141,016 | 5,047 |
| 7 | 97 | 174 | 16878 | 9409 | 30276 | 198,660 | 14,173 | 451,780 | 50,766 | 1,817 |
| 8 | 92 | 200 | 18400 | 8464 | 40000 | 199,606 | 0,197 | 22,514 | 147,016 | 5,262 |
| 9 | 112 | 194 | 21728 | 12544 | 37636 | 195,823 | 0,940 | 1,575 | 62,016 | 2,220 |
| 10 | 110 | 198 | 21780 | 12100 | 39204 | 196,201 | 0,909 | 7,534 | 34,516 | 1,235 |
| 11 | 104 | 199 | 20696 | 10816 | 39601 | 197,336 | 0,836 | 14,024 | 0,016 | 0,001 |
| 12 | 100 | 189 | 18900 | 10000 | 35721 | 198,093 | 4,811 | 39,126 | 17,016 | 0,609 |
| 13 | 95 | 209 | 19855 | 9025 | 43681 | 199,039 | 4,766 | 188,922 | 83,266 | 2,980 |
| 14 | 98 | 196 | 19208 | 9604 | 38416 | 198,471 | 1,261 | 0,555 | 37,516 | 1,343 |
| 15 | 107 | 201 | 21507 | 11449 | 40401 | 196,769 | 2,105 | 33,004 | 8,266 | 0,296 |
| 16 | 106 | 204 | 21624 | 11236 | 41616 | 196,958 | 3,452 | 76,473 | 3,516 | 0,126 |
| Итого | 1666 | 3157 | 328577 | 174242 | 625035 | 3157,000 | 69,036 | 2187,163 | 769,75 | 27,550 |
| Ср.зн | 104,125 | 197,3125 | 20536,0625 | 10890,125 | 39064,687 | х | 4,315 | |||
| σ | 6,936 | 11,692 | ||||||||
| σ2 | 48,109 | 136,698 |
2а. Построим линейное уравнение парной регрессии у по х. Используя данные таблицы 2, имеем:
β= =
a = =
Тогда линейное уравнение парной регрессии имеет вид:
Полученное
уравнение показывает, что с увеличением
дозы внесения органических уравнений
на l ц/га урожайность озимой пшеницы падает
в среднем на 0,189 ц/га.
Рис.
1.2. Зависимость между дозой
Подставляя в полученное уравнение регрессии значения xi из исходных данных определяем теоретические (выровненные) значения результативного признака (табл.1.2).
2б.
При линейной корреляции между х и
у исчисляют парный линейный коэффициент
корреляции r. Он принимает значения
в интервале –1 £ r £ 1. Знак коэффициента
корреляции показывает направление связи:
«+» – связь прямая, «–» – связь обратная.
Абсолютная величина характеризует степень
тесноты связи.
Учитывая:
,
оценим тесноту линейной связи с помощью линейного коэффициента парной корреляции
Связь между факторами обратная. В соответствии со шкалой Чеддока теснота характеризуется как слабая.
Изменение результативного признака у обусловлено вариацией факторного признака х. Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака характеризует коэффициент детерминации D. Коэффициент детерминации – квадрат коэффициента корреляции.
R2=rху2·100%
Следовательно, вариация урожайности картофеля на 1,3 % объясняется вариацией дозы внесения удобрений, а остальные 98,70% вариации урожайности обусловлены изменением других, не учтенных в модели факторов.
= = 69,036/16=4,315
В среднем расчетные значения отклоняются от фактических на 4,315%. Это значение не превышает допустимый предел, следовательно качество построенной модели высокое. Это, а также небольшое значение коэффициента детерминации говорит о том, что линейный тип модели не достаточно хорошо отражает представленные эмпирические данные.
2г) Для оценки силы связи признаков у и х найдем средний коэффициент эластичности:
.=
Таким образом, в среднем на 0,1% по совокупности изменится урожайность картофеля от своей средней величины при изменении дозы внесения удобрений на 1% от своего среднего значения.
2д) Для оценки статистической надежности результатов используем F-критерий Фишера.
Выдвигаем нулевую гипотезу Но о статистической незначимости полученного уравнения регрессии.
Fфакт = = · (n-2)
Сравним фактическое значение критерия Фишера с табличным. Для этого выпишем значения критерия Фишера из таблицы «Значения F-критерия Фишера при уровне значимости a=0.05» (приложение 1).
В нашем примере k1=1; k=16-1-1=14.
Таким образом. Fтабл.=4,6 при =0,05.
Т.к.
Fфакт.< Fтабл.,
то при заданном уровне вероятности g=0,05
следует принять нулевую гипотезу о статистической
незначимости уравнения регрессии и показателя
тесноты связи.
2е) Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей.
Выдвигаем гипотезу Но о статистически незначимом отличии показателей регрессии от нуля a=b=rух =0.
Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки:
; ;
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики принимаем или отвергаем гипотезу Но.
Если
tтабл < tфакт,
то Но отклоняется, т.е. a, b, r не случайно отличаются
от нуля и сформировались под влиянием
систематически действующего фактора
x. Если tтабл > tфакт,
то гипотеза Но не отклоняется и признается
случайная природа формирования a, b,
r.
; ;
tтабл при уровне значимости g=0,05 и числе степеней свободы равных 16-2=14 равно 2,1448 (приложение 2).
< tтабл, < tтабл, < tтабл,
следовательно нулевая гипотеза о несущественности коэффициентов корреляции и регрессии принимается , т. е. r, b и a статистически незначимы.
Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:
∆a = tтабл ma=2,1448∙217,011=98,613
∆b = tтабл mb=2,1448∙(-0,189)=0,945
Доверительные интервалы:
Для параметра a: (118,399; 315,624)
Для параметра b: (-1,134; 0,756)
Анализ верхних и нижних границ доверительных интервалов приводит к выводу, что с вероятностью p = 1–γ = 0,95 параметры a и b находятся в указанных пределах, причем параметр a являются статистически незначимым, т.к. в границы доверительного интервала попадает ноль.
3. Проверим результаты, полученные в п.2 с помощью ППП Exel.
3а)
Результат вычислений функции
ЛИНЕЙН для рассматриваемого примера
представлен на рис. 1.5.
Рис.
1.5. Результат вычисления функции ЛИНЕЙН
3б)
Проведем анализ исходных
Рис.
1.9. Результаты применения инструмента
Регрессия
Сравнивая
полученные вручную и с помощью
ППП Exel данные, убеждаемся в правильности
выполненных действий.
4.
Построению показательной
Данная функция нелинейна относительно параметров, но линейна по переменным. В нелинейных регрессиях относительно параметров процедура линеаризации производится путем логарифмирования обеих частей уравнения:
ln y = lna+x∙lnb (30)
Введем обозначения
У= ln y , С= lna , В= lnb
Тогда уравнение (30) запишется в виде:
У=
С+ В∙ x. (31)
Для нахождения параметров полученной линейной модели (31) воспользуемся вспомогательными расчетами (табл. 1.4)
| № | х | Y | У∙х | х2 | Y2 | ·%, | |||||
| 1 | 115 | 5,308 | 610,451 | 13225 | 28,178 | 5,273 | 0,665 | 0,001 | 118,266 | 0,0001002 | 0,00064 |
| 2 | 98 | 5,342 | 523,549 | 9604 | 28,541 | 5,289 | 1,005 | 0,003 | 37,516 | 0,0000318 | 0,00352 |
| 3 | 105 | 5,318 | 558,403 | 11025 | 28,282 | 5,282 | 0,676 | 0,001 | 0,766 | 0,0000006 | 0,00123 |
| 4 | 109 | 5,130 | 559,159 | 11881 | 26,316 | 5,279 | 2,897 | 0,022 | 23,766 | 0,0000201 | 0,02344 |
| 5 | 102 | 5,366 | 547,330 | 10404 | 28,794 | 5,285 | 1,510 | 0,007 | 4,516 | 0,0000038 | 0,00688 |
| 6 | 116 | 5,273 | 611,668 | 13456 | 27,805 | 5,272 | 0,018 | 0,000 | 141,016 | 0,0001195 | 0,00010 |
| 7 | 97 | 5,159 | 500,428 | 9409 | 26,616 | 5,290 | 2,530 | 0,017 | 50,766 | 0,0000430 | 0,01536 |
| 8 | 92 | 5,298 | 487,445 | 8464 | 28,072 | 5,294 | 0,078 | 0,000 | 147,016 | 0,0001246 | 0,00023 |
| 9 | 112 | 5,268 | 590,000 | 12544 | 27,750 | 5,276 | 0,150 | 0,000 | 62,016 | 0,0000526 | 0,00023 |
| 10 | 110 | 5,288 | 581,709 | 12100 | 27,966 | 5,278 | 0,202 | 0,000 | 34,516 | 0,0000293 | 0,00003 |
| 11 | 104 | 5,293 | 550,504 | 10816 | 28,019 | 5,283 | 0,192 | 0,000 | 0,016 | 0,0000000 | 0,00011 |
| 12 | 100 | 5,242 | 524,175 | 10000 | 27,476 | 5,287 | 0,859 | 0,002 | 17,016 | 0,0000144 | 0,00170 |
| 13 | 95 | 5,342 | 507,522 | 9025 | 28,541 | 5,291 | 0,953 | 0,003 | 83,266 | 0,0000706 | 0,00352 |
| 14 | 98 | 5,278 | 517,255 | 9604 | 27,858 | 5,289 | 0,199 | 0,000 | 37,516 | 0,0000318 | 0,00002 |
| 15 | 107 | 5,303 | 567,454 | 11449 | 28,125 | 5,280 | 0,433 | 0,001 | 8,266 | 0,0000070 | 0,00041 |
| 16 | 106 | 5,318 | 563,721 | 11236 | 28,282 | 5,281 | 0,693 | 0,001 | 3,516 | 0,0000030 | 0,00123 |
| Σ | 1666 | 84,528 | 8800,771 | 174242 | 446,620 | 84,528 | 13,060 | 0,058 | 769,75 | 0,0006524 | 0,05867 |
| Ср.зн | 104,125 | 5,283 | 550,048 | 10890,125 | 27,914 | х | 0,816 | ||||
| σ | 6,936 | 0,061 | |||||||||
| σ2 | 48,109 | 0,004 |
=5,283-104,125∙0,00092=0,
Получим линейное уравнение регрессии:
Ŷ=
5,379+0,000092∙х. (32)
Тесноту полученной линейной модели характеризует линейный коэффициент парной корреляции:
Коэффициент
детерминации при этом равен:
R2=r2хУ=1,11%.
Это означает, что чуть более 1% вариации фактора Y объясняется вариацией фактора x.
Средняя ошибка линейной аппроксимации составляет:
= ∙100% = 0,816%.
В
среднем по полученной линейной модели
расчетные значения отклоняются от
фактических на 0,816%, что входит в допустимый
предел.
Проведя потенцирование уравнения (32), получим искомую нелинейную (показательную) модель.
216,776∙0,99908х (33)
Результаты вычисления параметров показательной кривой (1) проверим с помощью ППП Exel, для чего используем встроенную статистическую функцию ЛГРФПРИБЛ.
Результат выполнения:
| 0,9990798 | 216,775694 |
| 0,0023203 | 0,24213384 |
| 0,0111204 | 0,06437451 |
| 0,157436 | 14 |
| 0,0006524 | 0,05801708 |
Для расчета индекса корреляции ρxy нелинейной регрессии воспользуемся вспомогательной таблицей 5.
Таблица 1.5. – Расчетные величины
| № | х | у | ||||
| 1 | 115 | 202 | 194,998 | 49,02816 | 21,97266 | 118,2656 |
| 2 | 98 | 209 | 198,074 | 119,3798 | 136,5977 | 37,51563 |
| 3 | 105 | 204 | 196,802 | 51,81822 | 44,72266 | 0,765625 |
| 4 | 109 | 169 | 196,078 | 733,224 | 801,5977 | 23,76563 |
| 5 | 102 | 214 | 197,346 | 277,3619 | 278,4727 | 4,515625 |
| 6 | 116 | 195 | 194,819 | 0,032925 | 5,347656 | 141,0156 |
| 7 | 97 | 174 | 198,256 | 588,3698 | 543,4727 | 50,76563 |
| 8 | 92 | 200 | 199,171 | 0,687151 | 7,222656 | 147,0156 |
| 9 | 112 | 194 | 195,537 | 2,363303 | 10,97266 | 62,01563 |
| 10 | 110 | 198 | 195,898 | 4,419769 | 0,472656 | 34,51563 |
| 11 | 104 | 199 | 196,983 | 4,069176 | 2,847656 | 0,015625 |
| 12 | 100 | 189 | 197,710 | 75,85575 | 69,09766 | 17,01563 |
| 13 | 95 | 209 | 198,622 | 107,7088 | 136,5977 | 83,26563 |
| 14 | 98 | 196 | 198,074 | 4,301042 | 1,722656 | 37,51563 |
| 15 | 107 | 201 | 196,439 | 20,79836 | 13,59766 | 8,265625 |
| 16 | 106 | 204 | 196,620 | 54,45831 | 44,72266 | 3,515625 |
| Итого | 1666 | 3157 | 3151,426 | 2093,876 | 2119,438 | 769,750 |
| Ср.зн | 104,125 | 197,313 | 196,964 | 130,867 | 132,465 | 48,109 |
ρxy=
=
=
Найдем коэффициент детерминации
R2= ρ2xy·100%=0,112
Полученное значение коэффициента детерминации говорит о том, что 1,2% вариации урожайности картофеля объясняется вариацией фактора х – дозы внесения органических удобрений.
Рассчитаем фактическое значение F-критерия при заданном уровне значимости =0,05:
Fфакт
= =
· (n-2)=
=0,171.
Сравнивая табличное Fтабл=4,6 и фактическое Fфакт=0,171 значение отмечаем , что Fфакт.< Fтабл.,
Это
означает, что
при заданном уровне вероятности g=0,05
следует принять нулевую гипотезу о статистической
незначимости параметров уравнения регрессии.
5. По условию задачи прогнозное значение фактора выше его среднего уровня x=104,125 на 5%, тогда оно составит:
| =1,05∙104,125=109,33 |
Обе модели статистически незначимы, прогноз не будет иметь смысл
оба уравнения регрессии является статистически незначимыми и ненадежными, рассчитывать прогнозируемое значение урожайности ни по одному из рассмотренных уравнений не имеет смысла, поскольку данный прогноз не даст достоверного результата.
Тем
не менее, выполним расчет прогнозного
значения результата по линейной модели.
(R2лин >R2показат.).
;
Найдем
ошибку прогноза:
=
=
Далее построим доверительный интервал прогноза при уровне значимости g=0,05:
;
предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
=2,1448∙12,807=27,47
Доверительный интервал прогноза
(168,859;
223,796).
С
вероятностью 95% при внесении 109,33 ц/га
удобрений урожайность будет находиться
в пределах указанного выше интервала.