Простой линейный регрессионный анализ (с включением корреляционного анализа)
ФЕДЕРАЛЬНОЕ
АГЕНТСТВО ПО РЫБОЛОВСТВУ
ФЕДЕРАЛЬНОЕ
ГОСУДАРСТВЕННОЕ
«МУРМАНСКИЙ
ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»
Кафедра информационных систем
и
прикладной математики.
Расчетно-графическое задание
По математике
Простой линейный регрессионный анализ
(с включением
корреляционного анализа)
Выполнил: Горшенин И. В.
Студент группы –
ЛОГ -202.
Проверила:
Комарова С.Н.
Мурманск,
2011
Введение
Стохастическая зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.
Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение.
Целью данной работы является получение представления о параметрах – числовых характеристиках случайного вектора (X,Y), посредством их статистического оценивания по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n.
Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией
Ход
работы:
- Статистический материал в виде двумерной выборки для пары величин X и Y вносится в электронную таблицу Excel. Для учебных целей мы имитируем его для пары нормальных случайных величин X Î N(mx, sx) в столбце A и Y Î N(m, s) в столбце B генерацией случайных чисел, mx=MX, m=MY.
- Параметры mx, sx, s выбираются произвольно, но приемлемые для экономики и производства: sx £ mx /16, s £ m/16.
- Значениями величину Z=Y+k(X-mx), связанными с X, заполняем столбец C.
- Сначала проверяем на коррелированность двумерную выборку X, Y, а затем выборку значений X, Z. Для этого вычисляем эмпирический коэффициент корреляции r и статистику Стьюдента T
.
- Далее вычисляем P-значение для статистики Т – вероятности, что случайная величина Стьюдента примет значение по абсолютной величине большее, чем значение статистики T.
- Выбираем уровень значимости a, например a = 0,01, вычисляем критическую точку ta, отвечающую выбранному уровню значимости a.
- Если статистика Т, подчинена неравенству |T|>ta, она попадает в двустороннюю критическую область (-¥,-ta)È (ta+¥) и гипотеза H0 о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными. При этом вполне оправданно выписать для величин X и Y соответствующие уравнения линейной регрессии. В противном случае, когда |T|<ta, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при r = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
- Если знаки < и > согласуются с абсолютными значениями чисел в ячейках T и ta или, что равнозначно, P-значение для статистики Т и a = 0,01, то гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, в противном случае отвергается.
- Во второй части работы исследуется на коррелированность двумерная выборка иной природы – для величин X и Z. Если в первой части работы независимость X и Y обеспечивал уже тот способ, каким эмитировались выборки этих величин, то в двумерной выборке X и Z это уже исключено. Аналогично для величин X и Z.
- В пакете программ Excel находим и осваиваем программу регрессионного анализа выбираем в соответствии с уровнем значимости a, например 99%. Программу последовательно применяем для исследования регрессии Y по X и Z по X. других опций при испытании на регрессионную зависимость величины Z по X помечаем для вывода также остатки и график подбора. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.
- Наконец, осуществляем прогнозирование ценностного показателя Y или Z для заданных значений X.
Решение:
| -0,82489 | 0,484702 | -44,4703 | MX= | MY= | MZ= | n= | k= |
| 0,346097 | -1,86838 | 10,55484 | 0,092561573 | 0,011623876 | 0,011623876 | 49 | 0,3 |
| -0,40131 | 0,569094 | -23,6306 | r= | 0,085685142 | 0,999825667 | H0 | |
| 0,638969 | 0,121972 | 26,89593 | T= | 0,589596115 | 367,1023901 | < | 2,68455561 |
| -1,23754 | -1,43022 | -66,605 | 0,558285266 | 6,44757E-83 | > | 0,01 | |
| 1,21179 | 0,992793 | 55,835 | |||||
| 0,610976 | 0,28817 | 25,69047 | |||||
| -0,20753 | 0,790121 | -13,9143 | |||||
| -0,27686 | 0,837094 | -17,2648 | |||||
| -0,37541 | -0,00998 | -22,9405 | |||||
| 0,585906 | -0,33507 | 23,83878 | |||||
| -1,17134 | -0,55815 | -62,4892 | |||||
| -0,03194 | -0,33491 | -6,43567 | |||||
| -1,76455 | -0,4233 | -91,4218 | |||||
| -0,61726 | -0,63747 | -35,4186 | |||||
| 0,304797 | 1,287608 | 11,68713 | |||||
| -0,28777 | -0,648 | -19,2843 | |||||
| -0,83092 | 0,128294 | -45,1224 | |||||
| 1,173316 | 0,058517 | 53,0155 | |||||
| 1,763829 | -0,61467 | 81,27741 | |||||
| 0,826608 | -0,21426 | 35,75401 | |||||
| 0,85802 | 1,097812 | 38,60525 | |||||
| 0,235361 | -0,21191 | 6,78528 | |||||
| -0,77495 | 0,203466 | -42,3047 | |||||
| 1,419876 | 1,320186 | 66,35859 | |||||
| 0,166112 | -0,44161 | 3,162381 | |||||
| 0,191376 | -0,14451 | 4,697391 | |||||
| 1,151072 | -0,18577 | 51,68126 | |||||
| 1,203543 | 0,496782 | 54,93489 | |||||
| 0,427735 | -0,64169 | 15,78182 | |||||
| -0,39469 | 0,45786 | -23,4172 | |||||
| 0,918867 | 0,809503 | 41,29847 | |||||
| 0,682651 | 0,020311 | 28,93468 | |||||
| -1,61043 | -0,586 | -84,0327 | |||||
| 0,311375 | -0,77196 | 9,949878 | |||||
| 2,262241 | -0,97566 | 105,3386 | |||||
| -0,8535 | 1,314174 | -45,0427 | |||||
| -0,26861 | -0,02345 | -17,7208 | |||||
| 0,812372 | 0,792948 | 36,06366 | |||||
| 0,258469 | 0,779194 | 8,908672 | |||||
| 0,78501 | -0,31378 | 33,61618 | |||||
| 0,333778 | 0,796304 | 12,6159 | |||||
| -2,23077 | -0,24126 | -114,085 | |||||
| -1,55375 | 2,180277 | -78,4892 | |||||
| 1,184967 | 0,341714 | 53,86958 | |||||
| -0,9212 | -0,61098 | -50,2854 | |||||
| 1,517687 | -0,65699 | 69,17417 | |||||
| -0,15945 | 0,560659 | -11,7877 | |||||
| -0,85262 | -3,28 | -49,5938 |
| ВЫВОД ИТОГОВ | ||||||||
| Регрессионная статистика | ||||||||
| Множественный R | 0,999825667 | |||||||
| R-квадрат | 0,999651364 | |||||||
| Нормированный R-квадрат | 0,999643946 | |||||||
| Стандартная ошибка | 0,911552707 | |||||||
| Наблюдения | 49 | |||||||
| Дисперсионный анализ | ||||||||
| df | SS | MS | F | Значимость F | ||||
| Регрессия | 1 | 111979,3634 | 111979,3634 | 134764,1648 | 6,44757E-83 | |||
| Остаток | 47 | 39,05363185 | 0,830928337 | |||||
| Итого | 48 | 112018,417 | ||||||
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 99,0% | Верхние 99,0% | |
| Y-пересечение | -4,531189313 | 0,130808472 | -34,6398764 | 4,1083E-35 | -4,794342013 | -4,26804 | -4,88235 | -4,18003 |
| Переменная X 1 | 49,07882456 | 0,133692468 | 367,1023901 | 6,44757E-83 | 48,80987001 | 49,34778 | 48,71992 | 49,43773 |
| ВЫВОД ИТОГОВ | ||||||||
| Регрессионная статистика | ||||||||
| Множественный R | 0,085685142 | |||||||
| R-квадрат | 0,007341944 | |||||||
| Нормированный R-квадрат | -0,013778441 | |||||||
| Стандартная ошибка | 0,911552707 | |||||||
| Наблюдения | 49 | |||||||
| Дисперсионный анализ | ||||||||
| df | SS | MS | F | Значимость F | ||||
| Регрессия | 1 | 0,288850282 | 0,288850282 | 0,347623578 | 0,558285266 | |||
| Остаток | 47 | 39,05363185 | 0,830928337 | |||||
| Итого | 48 | 39,34248214 | ||||||
| Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | Нижние 99,0% | Верхние 99,0% | |
| Y-пересечение | 0,004327751 | 0,130808472 | 0,033084636 | 0,973747201 | -0,258824949 | 0,26748 | -0,34683 | 0,35549 |
| Переменная X 1 | 0,07882456 | 0,133692468 | 0,589596115 | 0,558285266 | -0,19012999 | 0,347779 | -0,28008 | 0,437729 |
| ВЫВОД ОСТАТКА | ||||
| Z | ||||
| Наблюдение | Предсказанное Y | Остатки | -2,2 | -112,505 |
| 1 | -45,01565813 | 0,545395138 | -2 | -102,689 |
| 2 | 12,45483678 | -1,899992743 | -1,8 | -92,8731 |
| 3 | -24,22701189 | 0,596398905 | -1,6 | -83,0573 |
| 4 | 26,82865388 | 0,06727814 | -1,4 | -73,2415 |
| 5 | -65,26799164 | -1,337000882 | -1,2 | -63,4258 |
| 6 | 54,9420531 | 0,892946462 | -1 | -53,61 |
| 7 | 25,45478495 | 0,235682336 | -0,8 | -43,7942 |
| 8 | -14,71644421 | 0,80215184 | -0,6 | -33,9785 |
| 9 | -18,11934064 | 0,854590295 | -0,4 | -24,1627 |
| 10 | -22,9557521 | 0,015280745 | -0,2 | -14,347 |
| 11 | 24,22436795 | -0,385582991 | 0 | -4,53119 |
| 12 | -62,01909263 | -0,470152155 | 0,2 | 5,284576 |
| 13 | -6,098949919 | -0,336719856 | 0,4 | 15,10034 |
| 14 | -91,13330763 | -0,288534772 | 0,6 | 24,91611 |
| 15 | -34,82549317 | -0,593140897 | 0,8 | 34,73187 |
| 16 | 10,42787375 | 1,259254814 | 1 | 44,54764 |
| 17 | -18,65464903 | -0,629645665 | 1,2 | 54,3634 |
| 18 | -45,31182417 | 0,189463705 | 1,4 | 64,17917 |
| 19 | 53,05379933 | -0,038297008 | 1,6 | 73,99493 |
| 20 | 82,03544264 | -0,758029111 | 1,8 | 83,81069 |
| 21 | 36,03775489 | -0,283741243 | 2 | 93,62646 |
| 22 | 37,5794029 | 1,025851635 | 2,2 | 103,4422 |
| 23 | 7,020067259 | -0,234787721 | ||
| 24 | -42,56492323 | 0,260223971 | ||
| 25 | 65,15464811 | 1,20393729 | ||
| 26 | 3,62141134 | -0,459030049 | ||
| 27 | 4,861313688 | -0,163922483 | ||
| 28 | 51,96209159 | -0,280829367 | ||
| 29 | 54,53730772 | 0,39758539 | ||
| 30 | 16,46155929 | -0,679735515 | ||
| 31 | -23,90188765 | 0,484643253 | ||
| 32 | 40,56572517 | 0,73274554 | ||
| 33 | 28,97250988 | -0,03782611 | ||
| 34 | -83,5693565 | -0,463381459 | ||
| 35 | 10,75071035 | -0,80083263 | ||
| 36 | 106,4969271 | -1,158306049 | ||
| 37 | -46,41982438 | 1,377123153 | ||
| 38 | -17,71414889 | -0,006603899 | ||
| 39 | 35,33907533 | 0,724584884 | ||
| 40 | 8,154180081 | 0,75449219 | ||
| 41 | 33,99617327 | -0,379990577 | ||
| 42 | 11,85022955 | 0,765665905 | ||
| 43 | -114,014868 | -0,069752046 | ||
| 44 | -80,78758297 | 2,298423261 | ||
| 45 | 53,62559841 | 0,243981959 | ||
| 46 | -49,74270911 | -0,542690198 | ||
| 47 | 69,95512684 | -0,780952757 | ||
| 48 | -12,35660126 | 0,568899639 | ||
| 49 | -46,37663815 | -3,21712227 | ||
Заключение
В результате
проделанной работы можно сдать
следующие выводы:
- Коэффициент k обеспечивает зависимость Z от X, чтобы он статистически распознавался при упомянутых (невысоких) значениях n, выбираем k = 0,3.
- Статистика T, вычисленная в ячейке E4, не подчинена неравенству |T|>ta, следовательно нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при r = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
- Гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, так как знаки, введенные в ячейки G4:G5, согласуются с абсолютными значениями чисел в ячейках T и ta или, что равнозначно, в ячейках E5 и H5.
- Гипотеза H0Z о некоррелированности (независимости) величин X и Z отвергается, так как знаки, введенные в ячейки G4:G5, так как они не согласуются с абсолютными значениями чисел в ячейках F4 и H4 или, что равнозначно, в ячейках F5 и H5.
- Если же в первой части работы независимость X и Y обеспечивается способом, каким эмитировались выборки этих величин, то в двумерной выборке X и Z , исследуемой во второй части, это уже исключено.
На
основе проделанной работы можно
утверждать, что программа регрессивного
анализа применяется для исследования
регрессии Y по X и Z по X.
Таблица выводит также многие другие характеристики
линейной регрессии, её коэффициенты,
предсказание, результаты F-теста.