Простой линейный регрессионный анализ (с включением корреляционного анализа)

ФЕДЕРАЛЬНОЕ  АГЕНТСТВО  ПО  РЫБОЛОВСТВУ 

ФЕДЕРАЛЬНОЕ  ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ

«МУРМАНСКИЙ  ГОСУДАРСТВЕННЫЙ  ТЕХНИЧЕСКИЙ  УНИВЕРСИТЕТ» 
 

Кафедра информационных систем

и прикладной математики. 
 

Расчетно-графическое  задание

По математике

Простой линейный регрессионный анализ

(с включением  корреляционного анализа) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Выполнил: Горшенин И. В.

Студент группы – 

ЛОГ -202. 

                  Проверила: Комарова С.Н. 
                   
                   
                   
                   
                   
                   

Мурманск, 2011 
 

Введение

 

      Стохастическая  зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.

      Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. 

      Целью данной работы является получение представления о параметрах – числовых характеристиках случайного вектора (X,Y), посредством их статистического оценивания по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n.

      Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией

2. 
 

    Ход работы: 

  1. Статистический  материал в виде двумерной выборки  для пары величин X и Y вносится в электронную таблицу Excel. Для учебных целей мы имитируем его для пары нормальных случайных величин Î N(mxsx) в столбце A и ΠN(ms) в столбце B генерацией случайных чисел, mx=MX, m=MY.
  2. Параметры mx, sx, s выбираются произвольно, но приемлемые для экономики и производства: sx £  mx /16, s £ m/16.
  3. Значениями величину Z=Y+k(X-mx), связанными с X, заполняем столбец C.
  4. Сначала проверяем на коррелированность двумерную выборку X, Y, а затем выборку значений X, Z. Для этого вычисляем эмпирический коэффициент корреляции r и статистику Стьюдента T

                                      .

  1. Далее вычисляем P-значение для статистики Т – вероятности, что случайная величина Стьюдента примет значение по абсолютной величине большее, чем значение статистики T.
  2. Выбираем уровень значимости a, например a = 0,01, вычисляем критическую точку ta, отвечающую выбранному уровню значимости a.
  3. Если статистика Т, подчинена неравенству |T|>ta, она попадает в двустороннюю критическую область (-¥,-ta)È (ta+¥) и гипотеза H0 о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными. При этом вполне оправданно выписать для величин X и Y соответствующие уравнения линейной регрессии. В противном случае, когда |T|<ta, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
  4. Если знаки < и > согласуются с абсолютными значениями чисел в ячейках T и ta  или, что равнозначно, P-значение для статистики Т и a = 0,01, то гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, в противном случае отвергается.
  5. Во второй части работы исследуется на коррелированность двумерная выборка иной природы – для величин X и Z. Если в первой части работы независимость X и Y обеспечивал уже тот способ, каким эмитировались выборки этих величин, то в двумерной выборке X и Z это уже исключено. Аналогично для величин X и Z.
  6.   В пакете программ Excel находим и осваиваем программу регрессионного анализа выбираем в соответствии с уровнем значимости a, например 99%. Программу последовательно применяем для исследования регрессии Y по X и Z по X. других опций при испытании на регрессионную зависимость величины Z по X помечаем для вывода также остатки и график подбора. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.
  7. Наконец, осуществляем прогнозирование ценностного показателя Y или Z для заданных значений X.
 
 
 

Решение:

                                                                

-0,82489 0,484702 -44,4703 MX= MY= MZ= n= k=
0,346097 -1,86838 10,55484 0,092561573 0,011623876 0,011623876 49 0,3
-0,40131 0,569094 -23,6306 r= 0,085685142 0,999825667 H0  
0,638969 0,121972 26,89593 T= 0,589596115 367,1023901 < 2,68455561
-1,23754 -1,43022 -66,605   0,558285266 6,44757E-83 > 0,01
1,21179 0,992793 55,835
0,610976 0,28817 25,69047
-0,20753 0,790121 -13,9143
-0,27686 0,837094 -17,2648
-0,37541 -0,00998 -22,9405
0,585906 -0,33507 23,83878
-1,17134 -0,55815 -62,4892
-0,03194 -0,33491 -6,43567
-1,76455 -0,4233 -91,4218
-0,61726 -0,63747 -35,4186
0,304797 1,287608 11,68713
-0,28777 -0,648 -19,2843
-0,83092 0,128294 -45,1224
1,173316 0,058517 53,0155
1,763829 -0,61467 81,27741
0,826608 -0,21426 35,75401
0,85802 1,097812 38,60525
0,235361 -0,21191 6,78528
-0,77495 0,203466 -42,3047
1,419876 1,320186 66,35859
0,166112 -0,44161 3,162381
0,191376 -0,14451 4,697391
1,151072 -0,18577 51,68126
1,203543 0,496782 54,93489
0,427735 -0,64169 15,78182
-0,39469 0,45786 -23,4172
0,918867 0,809503 41,29847
0,682651 0,020311 28,93468
-1,61043 -0,586 -84,0327
0,311375 -0,77196 9,949878
2,262241 -0,97566 105,3386
-0,8535 1,314174 -45,0427
-0,26861 -0,02345 -17,7208
0,812372 0,792948 36,06366
0,258469 0,779194 8,908672
0,78501 -0,31378 33,61618
0,333778 0,796304 12,6159
-2,23077 -0,24126 -114,085
-1,55375 2,180277 -78,4892
1,184967 0,341714 53,86958
 -0,9212 -0,61098 -50,2854
1,517687 -0,65699 69,17417
-0,15945 0,560659 -11,7877
-0,85262 -3,28 -49,5938

                                  

 

ВЫВОД ИТОГОВ              
                 
Регрессионная статистика              
Множественный R 0,999825667              
R-квадрат 0,999651364              
Нормированный R-квадрат 0,999643946              
Стандартная ошибка 0,911552707              
Наблюдения 49              
                 
Дисперсионный анализ              
  df SS MS F Значимость F      
Регрессия 1 111979,3634 111979,3634 134764,1648 6,44757E-83      
Остаток 47 39,05363185 0,830928337          
Итого 48 112018,417            
                 
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 99,0% Верхние 99,0%
Y-пересечение -4,531189313 0,130808472 -34,6398764 4,1083E-35 -4,794342013 -4,26804 -4,88235 -4,18003
Переменная X 1 49,07882456 0,133692468 367,1023901 6,44757E-83 48,80987001 49,34778 48,71992 49,43773

 

ВЫВОД ИТОГОВ              
                 
Регрессионная статистика              
Множественный R 0,085685142              
R-квадрат 0,007341944              
Нормированный R-квадрат -0,013778441              
Стандартная ошибка 0,911552707              
Наблюдения 49              
                 
Дисперсионный анализ              
  df SS MS F Значимость F      
Регрессия 1 0,288850282 0,288850282 0,347623578 0,558285266      
Остаток 47 39,05363185 0,830928337          
Итого 48 39,34248214            
                 
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 99,0% Верхние 99,0%
Y-пересечение 0,004327751 0,130808472 0,033084636 0,973747201 -0,258824949 0,26748 -0,34683 0,35549
Переменная X 1 0,07882456 0,133692468 0,589596115 0,558285266 -0,19012999 0,347779 -0,28008 0,437729
 
 
 
 
 
 
 
 
 
 
 

 

ВЫВОД ОСТАТКА  
            Z
Наблюдение Предсказанное Y Остатки -2,2 -112,505
1 -45,01565813 0,545395138 -2 -102,689
2 12,45483678 -1,899992743 -1,8 -92,8731
3 -24,22701189 0,596398905 -1,6 -83,0573
4 26,82865388 0,06727814 -1,4 -73,2415
5 -65,26799164 -1,337000882 -1,2 -63,4258
6 54,9420531 0,892946462 -1 -53,61
7 25,45478495 0,235682336 -0,8 -43,7942
8 -14,71644421 0,80215184 -0,6 -33,9785
9 -18,11934064 0,854590295 -0,4 -24,1627
10 -22,9557521 0,015280745 -0,2 -14,347
11 24,22436795 -0,385582991 0 -4,53119
12 -62,01909263 -0,470152155 0,2 5,284576
13 -6,098949919 -0,336719856 0,4 15,10034
14 -91,13330763 -0,288534772 0,6 24,91611
15 -34,82549317 -0,593140897 0,8 34,73187
16 10,42787375 1,259254814 1 44,54764
17 -18,65464903 -0,629645665 1,2 54,3634
18 -45,31182417 0,189463705 1,4 64,17917
19 53,05379933 -0,038297008 1,6 73,99493
20 82,03544264 -0,758029111 1,8 83,81069
21 36,03775489 -0,283741243 2 93,62646
22 37,5794029 1,025851635 2,2 103,4422
23 7,020067259 -0,234787721
24 -42,56492323 0,260223971
25 65,15464811 1,20393729
26 3,62141134 -0,459030049
27 4,861313688 -0,163922483
28 51,96209159 -0,280829367
29 54,53730772 0,39758539
30 16,46155929 -0,679735515
31 -23,90188765 0,484643253
32 40,56572517 0,73274554
33 28,97250988 -0,03782611
34 -83,5693565 -0,463381459
35 10,75071035 -0,80083263
36 106,4969271 -1,158306049
37 -46,41982438 1,377123153
38 -17,71414889 -0,006603899
39 35,33907533 0,724584884
40 8,154180081 0,75449219
41 33,99617327 -0,379990577
42 11,85022955 0,765665905
43 -114,014868 -0,069752046
44 -80,78758297 2,298423261
45 53,62559841 0,243981959
46 -49,74270911 -0,542690198
47 69,95512684 -0,780952757
48 -12,35660126 0,568899639
49 -46,37663815 -3,21712227
 

 

 

 

Заключение 

   В результате проделанной работы можно сдать  следующие выводы: 

  1.  Коэффициент  k обеспечивает зависимость Z от X, чтобы он статистически распознавался при упомянутых (невысоких) значениях n, выбираем = 0,3.
  2. Статистика T, вычисленная в ячейке E4, не подчинена неравенству |T|>ta, следовательно нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
  3. Гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, так как знаки, введенные в ячейки G4:G5, согласуются с абсолютными значениями чисел в ячейках T и ta или, что равнозначно, в ячейках E5 и H5.
  4. Гипотеза H0Z о некоррелированности (независимости) величин X и Z отвергается, так как знаки, введенные в ячейки G4:G5, так как они не согласуются с абсолютными значениями чисел в ячейках F4 и H4 или, что равнозначно, в ячейках F5 и H5.
  5. Если же в первой части работы независимость X и Y обеспечивается способом, каким эмитировались выборки этих величин, то в двумерной выборке X и Z , исследуемой во второй части, это уже исключено.
 

    На  основе проделанной работы можно  утверждать, что программа регрессивного  анализа применяется для исследования регрессии Y по X и Z по X.   Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста. 

Простой линейный регрессионный анализ (с включением корреляционного анализа)