Простой линейный регрессионный анализ (с включением корреляционного анализа)

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО РЫБОЛОВСТВУ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

«МУРМАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Кафедра информационных систем

и прикладной математики.

Расчетно-графическое задание

По математике

Простой линейный регрессионный анализ

(с включением корреляционного анализа)

Выполнил: Горшенин И. В.

Студент группы –

ЛОГ -202.

Проверила: Комарова С.Н.

Мурманск, 2011

Введение

Стохастическая зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей F_x(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx², гиперболической y=a/(x+b), экспоненциальной y=ae^bx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.

Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение.

Целью данной работы является получение представления о параметрах – числовых характеристиках случайного вектора (X,Y), посредством их статистического оценивания по двумерной выборке (X_i,Y_i) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n.

Сопоставление данных выборки (X_i,Y_i) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(x_i,a,b) и выборочными значениями y_i, выраженное функцией

².

Ход работы:

Статистический материал в виде двумерной выборки для пары величин X и Y вносится в электронную таблицу Excel. Для учебных целей мы имитируем его для пары нормальных случайных величин X Î N(m_x, s_x) в столбце A и Y Î N(m, s) в столбце B генерацией случайных чисел, m_x=MX, m=MY.
Параметры m_x, s_x, s выбираются произвольно, но приемлемые для экономики и производства: s_x£ m_x /16, s £ m/16.
Значениями величину Z=Y+k(X-m_x), связанными с X, заполняем столбец C.
Сначала проверяем на коррелированность двумерную выборку X, Y, а затем выборку значений X, Z. Для этого вычисляем эмпирический коэффициент корреляции r и статистику Стьюдента T

Далее вычисляем P-значение для статистики Т – вероятности, что случайная величина Стьюдента примет значение по абсолютной величине большее, чем значение статистики T.
Выбираем уровень значимости a, например a = 0,01, вычисляем критическую точку t_a, отвечающую выбранному уровню значимости a.
Если статистика Т, подчинена неравенству |T|>t_a, она попадает в двустороннюю критическую область (-¥,-t_a)È (t_a+¥) и гипотеза H₀ о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными. При этом вполне оправданно выписать для величин X и Y соответствующие уравнения линейной регрессии. В противном случае, когда |T|<t_a, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при r = 0 коэффициенты регрессии также равны нулю, b_yx= 0 и b_xy= 0.
Если знаки < и > согласуются с абсолютными значениями чисел в ячейках T и t_a или, что равнозначно, P-значение для статистики Т и a = 0,01, то гипотеза H₀ о некоррелированности (независимости) величин X и Y принимается, в противном случае отвергается.
Во второй части работы исследуется на коррелированность двумерная выборка иной природы – для величин X и Z. Если в первой части работы независимость X и Y обеспечивал уже тот способ, каким эмитировались выборки этих величин, то в двумерной выборке X и Z это уже исключено. Аналогично для величин X и Z.
В пакете программ Excel находим и осваиваем программу регрессионного анализа выбираем в соответствии с уровнем значимости a, например 99%. Программу последовательно применяем для исследования регрессии Y по X и Z по X. других опций при испытании на регрессионную зависимость величины Z по X помечаем для вывода также остатки и график подбора. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.
Наконец, осуществляем прогнозирование ценностного показателя Y или Z для заданных значений X.

Решение:

-0,82489	0,484702	-44,4703	MX=	MY=	MZ=	n=	k=
0,346097	-1,86838	10,55484	0,092561573	0,011623876	0,011623876	49	0,3
-0,40131	0,569094	-23,6306	r=	0,085685142	0,999825667	H0
0,638969	0,121972	26,89593	T=	0,589596115	367,1023901	<	2,68455561
-1,23754	-1,43022	-66,605		0,558285266	6,44757E-83	>	0,01
1,21179	0,992793	55,835
0,610976	0,28817	25,69047
-0,20753	0,790121	-13,9143
-0,27686	0,837094	-17,2648
-0,37541	-0,00998	-22,9405
0,585906	-0,33507	23,83878
-1,17134	-0,55815	-62,4892
-0,03194	-0,33491	-6,43567
-1,76455	-0,4233	-91,4218
-0,61726	-0,63747	-35,4186
0,304797	1,287608	11,68713
-0,28777	-0,648	-19,2843
-0,83092	0,128294	-45,1224
1,173316	0,058517	53,0155
1,763829	-0,61467	81,27741
0,826608	-0,21426	35,75401
0,85802	1,097812	38,60525
0,235361	-0,21191	6,78528
-0,77495	0,203466	-42,3047
1,419876	1,320186	66,35859
0,166112	-0,44161	3,162381
0,191376	-0,14451	4,697391
1,151072	-0,18577	51,68126
1,203543	0,496782	54,93489
0,427735	-0,64169	15,78182
-0,39469	0,45786	-23,4172
0,918867	0,809503	41,29847
0,682651	0,020311	28,93468
-1,61043	-0,586	-84,0327
0,311375	-0,77196	9,949878
2,262241	-0,97566	105,3386
-0,8535	1,314174	-45,0427
-0,26861	-0,02345	-17,7208
0,812372	0,792948	36,06366
0,258469	0,779194	8,908672
0,78501	-0,31378	33,61618
0,333778	0,796304	12,6159
-2,23077	-0,24126	-114,085
-1,55375	2,180277	-78,4892
1,184967	0,341714	53,86958
-0,9212	-0,61098	-50,2854
1,517687	-0,65699	69,17417
-0,15945	0,560659	-11,7877
-0,85262	-3,28	-49,5938

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,999825667
R-квадрат	0,999651364
Нормированный R-квадрат	0,999643946
Стандартная ошибка	0,911552707
Наблюдения	49

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	111979,3634	111979,3634	134764,1648	6,44757E-83
Остаток	47	39,05363185	0,830928337
Итого	48	112018,417

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 99,0%	Верхние 99,0%
Y-пересечение	-4,531189313	0,130808472	-34,6398764	4,1083E-35	-4,794342013	-4,26804	-4,88235	-4,18003
Переменная X 1	49,07882456	0,133692468	367,1023901	6,44757E-83	48,80987001	49,34778	48,71992	49,43773

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,085685142
R-квадрат	0,007341944
Нормированный R-квадрат	-0,013778441
Стандартная ошибка	0,911552707
Наблюдения	49

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	1	0,288850282	0,288850282	0,347623578	0,558285266
Остаток	47	39,05363185	0,830928337
Итого	48	39,34248214

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 99,0%	Верхние 99,0%
Y-пересечение	0,004327751	0,130808472	0,033084636	0,973747201	-0,258824949	0,26748	-0,34683	0,35549
Переменная X 1	0,07882456	0,133692468	0,589596115	0,558285266	-0,19012999	0,347779	-0,28008	0,437729

ВЫВОД ОСТАТКА
				Z
Наблюдение	Предсказанное Y	Остатки	-2,2	-112,505
1	-45,01565813	0,545395138	-2	-102,689
2	12,45483678	-1,899992743	-1,8	-92,8731
3	-24,22701189	0,596398905	-1,6	-83,0573
4	26,82865388	0,06727814	-1,4	-73,2415
5	-65,26799164	-1,337000882	-1,2	-63,4258
6	54,9420531	0,892946462	-1	-53,61
7	25,45478495	0,235682336	-0,8	-43,7942
8	-14,71644421	0,80215184	-0,6	-33,9785
9	-18,11934064	0,854590295	-0,4	-24,1627
10	-22,9557521	0,015280745	-0,2	-14,347
11	24,22436795	-0,385582991	0	-4,53119
12	-62,01909263	-0,470152155	0,2	5,284576
13	-6,098949919	-0,336719856	0,4	15,10034
14	-91,13330763	-0,288534772	0,6	24,91611
15	-34,82549317	-0,593140897	0,8	34,73187
16	10,42787375	1,259254814	1	44,54764
17	-18,65464903	-0,629645665	1,2	54,3634
18	-45,31182417	0,189463705	1,4	64,17917
19	53,05379933	-0,038297008	1,6	73,99493
20	82,03544264	-0,758029111	1,8	83,81069
21	36,03775489	-0,283741243	2	93,62646
22	37,5794029	1,025851635	2,2	103,4422
23	7,020067259	-0,234787721
24	-42,56492323	0,260223971
25	65,15464811	1,20393729
26	3,62141134	-0,459030049
27	4,861313688	-0,163922483
28	51,96209159	-0,280829367
29	54,53730772	0,39758539
30	16,46155929	-0,679735515
31	-23,90188765	0,484643253
32	40,56572517	0,73274554
33	28,97250988	-0,03782611
34	-83,5693565	-0,463381459
35	10,75071035	-0,80083263
36	106,4969271	-1,158306049
37	-46,41982438	1,377123153
38	-17,71414889	-0,006603899
39	35,33907533	0,724584884
40	8,154180081	0,75449219
41	33,99617327	-0,379990577
42	11,85022955	0,765665905
43	-114,014868	-0,069752046
44	-80,78758297	2,298423261
45	53,62559841	0,243981959
46	-49,74270911	-0,542690198
47	69,95512684	-0,780952757
48	-12,35660126	0,568899639
49	-46,37663815	-3,21712227

Заключение

В результате проделанной работы можно сдать следующие выводы:

Коэффициент k обеспечивает зависимость Z от X, чтобы он статистически распознавался при упомянутых (невысоких) значениях n, выбираем k = 0,3.
Статистика T, вычисленная в ячейке E4, не подчинена неравенству |T|>t_a, следовательно нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при r = 0 коэффициенты регрессии также равны нулю, b_yx= 0 и b_xy= 0.
Гипотеза H₀ о некоррелированности (независимости) величин X и Y принимается, так как знаки, введенные в ячейки G4:G5, согласуются с абсолютными значениями чисел в ячейках T и t_a или, что равнозначно, в ячейках E5 и H5.
Гипотеза H_0Z о некоррелированности (независимости) величин X и Z отвергается, так как знаки, введенные в ячейки G4:G5, так как они не согласуются с абсолютными значениями чисел в ячейках F4 и H4 или, что равнозначно, в ячейках F5 и H5.
Если же в первой части работы независимость X и Y обеспечивается способом, каким эмитировались выборки этих величин, то в двумерной выборке X и Z , исследуемой во второй части, это уже исключено.

На основе проделанной работы можно утверждать, что программа регрессивного анализа применяется для исследования регрессии Y по X и Z по X. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.

Простой линейный регрессионный анализ (с включением корреляционного анализа)