Корреляционно-регрессионный анализ. 3
7. КОРРЕЛЯЦИОННЫЙ
И РЕГРЕССИОННЫЙ АНАЛИЗ
7.1. Матрица данных
Многие объекты
исследования характеризуются множеством
параметров, и по результатам наблюдения
за их функционированием формируются
многомерные совокупности (матрицы)
ЭД [2, 3, 4]
(7.1)
Строки такой матрицы
соответствуют результатам
В матрице элемент
хij соответствует значению j-й варианты
в i-м наблюдении. Матрица, вообще говоря,
может содержать пустые значения
некоторых элементов, например, из-за
пропусков в регистрации
Методы обработки
матрицы ЭД основаны на следующем
предположении: если объект подвергнуть
новому обследованию и получить, вообще
говоря, другую матрицу данных, то после
ее обработки с помощью тех
же методов будут получены результаты,
близкие к результатам
Каждый столбец
матрицы представляет собой случайную
выборку значений одного параметра
объекта. Указанное предположение
означает, во-первых, что оценки моментов
и параметров распределения, вычисленные
по выборке, будут близки к истинным
значениям, во-вторых, значения непрерывных
функций, построенных по этим оценкам,
будут близки к значениям функций,
построенным по истинным значениям
параметров.
Таким образом, объектом
исследования в многомерном анализе
является многомерная случайная
величина, представленная выборкой конечного
объема. К такой выборке применимы
все методы и оценки, рассмотренные
при обработке одномерных ЭД. Конечно,
приведенные суждения не являются доказательством
допустимости применения рассматриваемых
методов, но вполне подтверждаются практикой.
Параметры, характеризующие
объект исследования, имеют разный
физический смысл, и матрица данных
существенно изменяется, если изменяются
шкалы, в которых измеряются те или
иные параметры. Матрицу данных еще
до проведения анализа целесообразно
привести к стандартному виду, т.е. стандартизовать
значения вариант (напомним, что среднее
значение стандартизованной варианты
равно нулю, дисперсия – единице).
В тех случаях, когда все варианты
измеряются в одной шкале, это
преобразование все-таки желательно, ибо
оно упрощает последующие преобразования.
Стандартизованную матрицу
вычисляются оценки
математического ожидания и дисперсии
каждой варианты ;
вычисляются элементы
стандартизованной матрицы
, , .
Элементы матрицы
U являются безразмерными величинами.
Именно матрица U будет являться объектом
последующей обработки.
7.2. Корреляционный
анализ
Величины, характеризующие
различные свойства объектов, могут
быть независимыми или взаимосвязанными.
Различают два вида зависимостей
между величинами (факторами): функциональную
и статистическую [2, 3, 5].
При функциональной
зависимости двух величин значению
одной из них обязательно соответствует
одно или несколько точно
При исследовании АСОИУ
многие параметры следует считать
случайными, что исключает проявление
однозначного соответствия значений.
Воздействие общих факторов, наличие
объективных закономерностей в
поведении объектов приводят лишь к
проявлению статистической зависимости.
Статистической называют зависимость,
при которой изменение одной
из величин влечет изменение распределения
других (другой), и эти другие величины
принимают некоторые значения с
определенными вероятностями. Функциональную
зависимость в таком случае следует
считать частным случаем
Более важным частным
случаем статистической зависимости
является корреляционная зависимость,
характеризующая взаимосвязь
Если же у взаимосвязанных
величин вариацию имеет только одна
переменная, а другая является детерминированной,
то такую связь называют не корреляционной,
а регрессионной. Например, при анализе
скорости обмена с жесткими дисками
можно оценивать регрессию этой
характеристики на определенные модели,
но не следует говорить о корреляции
между моделью и скоростью.
При исследовании зависимости
между одной величиной и такими
характеристиками другой, как, например,
моменты старших порядков (а не
среднее значение), то эта связь
будет называться статистической, а
не корреляционной.
Корреляционная связь
описывает следующие виды зависимостей:
причинную зависимость
между значениями параметров. Примером
такой зависимости является взаимосвязь
пропускной способности канала передачи
данных и соотношения сигнал/шум
(на пропускную способность влияют
и другие факторы – характер помех,
амплитудно-частотные
"зависимость"
между следствиями общей
Корреляционная зависимость
определяется различными параметрами,
среди которых наибольшее распространение
получили показатели, характеризующие
взаимосвязь двух случайных величин
(парные показатели): корреляционный момент,
коэффициент корреляции.
Оценка корреляционного
момента (коэффициента ковариации) двух
вариант xj и xk вычисляется по исходной
матрице Х
(7.2)
Этот показатель
неудобен для практического применения,
так как имеет размерность, равную
произведению размерностей вариант, и
по его величине трудно судить о
зависимости параметров.
Коэффициент ковариации
rjk нормированных случайных
.
(7.3)
Значение коэффициента
корреляции лежит в пределах от –1
до +1. Если случайные величины Uj и Uk
независимы, то коэффициент rjk обязательно
равен нулю, обратное утверждение
неверно. Коэффициент rjk характеризует
значимость линейной связи между
параметрами:
при r jk =1 значения uij
и uik полностью совпадают, т.е. значения
параметров принимают одинаковые значения.
Иначе говоря, имеет место функциональная
зависимость: зная значение одного параметра,
можно однозначно указать значение
другого параметра;
при r jk = – 1 величины
uij и uik принимают противоположные
значения. И в этом случае имеет
место функциональная зависимость;
при r jk = 0 величины uij
и uik практически не связаны друг
с другом линейным соотношением. Это
не означает отсутствия каких-то других
(например, нелинейных) связей между
параметрами;
при | r jk | > 0 и | r jk |
< 1 однозначной линейной связи
величин uij и uik нет. И чем меньше абсолютная
величина коэффициента корреляции, тем
в меньшей степени по значениям
одного параметра можно предсказать
значение другого.
Используя понятие
коэффициента корреляции, матрице ЭД
можно поставить в соответствие
квадратную матрицу оценок коэффициентов
корреляции (корреляционную матрицу)
(7.4)
К числу характерных
свойств корреляционной матрицы
относят: симметричность относительно
главной диагонали, r jk=r kj, ; единичные
значения элементов главной диагонали,
r kk=1 (r kk соответствует дисперсии
стандартизованного параметра uk), .
Оценка коэффициента
корреляции, вычисленная по ограниченной
выборке, практически всегда отличается
от нуля. Но из этого еще не следует,
что коэффициент корреляции генеральной
совокупности также отличен от нуля.
Требуется оценить значимость выборочной
величины коэффициента или, в соответствии
с постановкой задач проверки статистических
гипотез, проверить гипотезу о равенстве
нулю коэффициента корреляции. Если гипотеза
Н0 о равенстве нулю коэффициента корреляции
будет отвергнута, то выборочный коэффициент
значим, а соответствующие величины связаны
линейным соотношением. Если гипотеза
Н0 будет принята, то оценка коэффициента
не значима, и величины линейно не связаны
друг с другом (если по физическим соображениям
факторы могут быть связаны, то лучше говорить
о том, что по имеющимся ЭД эта взаимосвязь
не установлена). Проверка гипотезы о значимости
оценки коэффициента корреляции требует
знания распределения этой случайной
величины. Распределение величины r ik изучено
только для частного случая, когда случайные
величины Uj и Uk распределены по нормальному
закону.
В качестве критерия
проверки нулевой гипотезы Н0 применяют
случайную величину . Если модуль коэффициента
корреляции относительно далек от единицы,
то величина t при справедливости нулевой
гипотезы распределена по закону Стьюдента
с n – 2 степенями свободы. Конкурирующая
гипотеза Н1 соответствует утверждению,
что значение r ik не равно нулю (больше
или меньше нуля). Поэтому критическая
область двусторонняя.
Проверка гипотезы
Н0 о равенстве нулю генерального
коэффициента парной корреляции двумерной
нормально распределенной случайной
величины осуществляется в следующей
последовательности:
вычисляется значение
статистики t;
при уровне значимости
a для двусторонней области определяется
критическая точка
сравнивается значение
статистики t с критическим значением
tкр(n–2; a ). Если t < tкр (п–2; a ), то нет
оснований отвергнуть нулевую гипотезу,
иначе гипотеза Н0 отвергается (коэффициент
корреляции значим).
Когда модуль величины
r ik близок к единице, распределение
r ik отличается от распределения Стьюдента,
так как значение |r ik | ограничено
справа единицей. В этом случае применяют
преобразование yik=0,5ln[(1+|r ik |)/(1–|r ik |)]. Величина
yik не имеет указанного ограничения,
она при п > 10 распределена приблизительно
нормально с центром m 1(r ik)=0,5ln[(1+|r
ik|)/(1–|r ik|)]+0,5|r ik|/(n–1) и дисперсией m
2(r ik)=s 2(r ik)=1/(п–3). Если значение центрированной
и нормированной величины (yik –m 1(r
ik))/s (r ik) превышает значение квантили
уровня 1–a /2 нормального распределения
стандартизованной величины, то нулевая
гипотеза отвергается.
Таким образом, постановка
задачи линейного корреляционного
анализа формулируется в
Имеется матрица
наблюдений вида (7.1).
Необходимо определить
оценки коэффициентов корреляции для
всех или только для заданных пар
параметров и оценить их значимость.
Незначимые оценки приравниваются к
нулю.
Допущения:
выборка имеет достаточный
объем. Понятие достаточного объема
зависит от целей анализа, требуемой
точности и надежности оценки коэффициентов
корреляции, от количества факторов. Минимально
допустимым считается объем, когда
количество наблюдений не менее чем
в 5–6 раз превосходит количество
факторов;
выборки по каждому
фактору являются однородными. Это
допущение обеспечивает несмещенную
оценку средних величин;
матрица наблюдений
не содержит пропусков.
Если необходима
проверка значимости оценки коэффициента
корреляции, то требуется соблюдение
дополнительного условия –
Задача анализа
решается в несколько этапов:
проводится стандартизация
исходной матрицы;
вычисляются парные
оценки коэффициентов корреляции;
проверяется значимость
оценок коэффициентов корреляции, незначимые
оценки приравниваются к нулю. По результатам
проверки делается вывод о наличии
связей между вариантами (факторами).
Пример 7.1. Результаты
наблюдений за характеристиками канала
представлены в табл. 7.1.
Таблица 7.1
№
пп
Пропускная способность
канала,
кбит/с
Соотношение сигнал/шум,
Остаточное затухание,
дБ,
на частоте, Гц
дБ
1020
1800
2400
Х1
X2
X3
X4
X5
1
26,37
41,98
17,66
16,05
22,85
2
28,00
43,83
17,15
15,47
23,25
3
27,83
42,83
15,38
17,59
24,55
4
31,67
47,28
18,39
16,92
26,59
5
23,50
38,75
18,32
15,66
26,22
6
21,04
35,12
17,81
17,00
27,52
7
16,94
32,07
21,42
16,77
25,76
8
37,56
54,25
26,42
15,68
23,10
9
18,84
32,70
17,23
15,92
23,41
10
25,77
40,51
30,43
15,29
25,17
11
33,52
49,78
21,71
15,61
25,39
12
28,21
43,84
28,33
15,70
24,56
13
28,76
44,03
30,42
16,87
24,45
14
24,60
39,46
21,66
15,25
23,81
15
24,51
38,78
25,77
16,05
24,48
Необходимо определить
наличие линейных корреляционных связей
между пропускной способностью и
остальными факторами. Предполагается,
что выборки по всем вариантам
подчиняются нормальному
Решение. Стандартизация
исходной матрицы начинается с вычисления
выборочной средней m 1, несмещенной
оценки дисперсии m 2 и среднеквадратического
отклонения s по каждой варианте, табл.7.2.
Таблица 7.2
Оценка параметра распределения
Варианта
Х1
X2
X3
X4
X5
m 1
26,47
41,68
21,87
16,12
24,74
m 2
29,10
36,47
26,37
0,52
1,88
s
5,39
6,04
5,13
0,72
1,37
В результате перехода
к величинам формируется стандартизованная
матрица исходных данных, табл. 7.3.
Таблица 7.3
№
пп
Пропускная способность
Соотношение сигнал/шум,
Остаточное затухание,
дБ
на частоте, Гц
канала, кбит/с
дБ
1020
1800
2400
U1
U2
U3
U4
U5
1
–0,02
0,05
–0,82
–0,10
–1,38
2
0,28
0,36
–0,92
–0,90
–1,09
3
0,25
0,19
–1,26
2,03
–0,14
4
0,96
0,93
–0,68
1,10
1,35
5
–0,55
–0,49
–0,69
–0,64
1,08
6
–1,01
–1,09
–0,79
1,21
2,03
7
–1,77
–1,59
–0,09
0,90
0,74
8
2,06
2,08
0,89
–0,61
–1,20
9
–1,42
–1,49
–0,90
–0,28
–0,97
10
–0,13
–0,19
1,67
–1,15
0,31
11
1,31
1,34
–0,03
–0,71
0,47
12
0,32
0,36
1,26
–0,58
–0,13
13
0,42
0,39
1,66
1,03
–0,21
14
–0,35
–0,37
–0,04
–1,21
–0,68
15
–0,36
–0,48
0,76
–0,10
–0,19
Оценки коэффициентов
корреляции (k = 2, 3, 4) представлены в
табл. 7.4. В этой же таблице приведены
значения статистик критерия Стьюдента
для вычисленных оценок коэффициентов
корреляции при п = 15.
Таблица 7.4
X2
X3
X4
X5
r 1 j
0,93
0,25
– 0,13
– 0,22
t
9,12
0,93
0,47
0,81
Критическое значение
tкр (n–2; a ) = tкр (13; 0,1) = 1,77. Статистика критерия
больше критического значения только
для r 12. Это означает, что только
для указанного коэффициента оценка
значима (коэффициент корреляции генеральной
совокупности не равен нулю), а остальные
коэффициенты следует признать равными
нулю.
Корреляционная зависимость
не обязательно устанавливается
только для двух величин, с ее помощью
можно анализировать связи
7.3. Регрессионный
анализ
Постановка задачи
Одной из типовых
задач обработки многомерных
ЭД является определение количественной
зависимости показателей
Постановка задачи
регрессионного анализа формулируется
следующим образом [2, 3, 4].
Имеется совокупность
результатов наблюдений вида (7.1). В
этой совокупности один столбец соответствует
показателю, для которого необходимо
установить функциональную зависимость
с параметрами объекта и среды,
представленными остальными столбцами.
Будем обозначать показатель через
y* и считать, что ему соответствует
первый столбец матрицы наблюдений.
Остальные т–1 (m > 1) столбцов соответствуют
параметрам (факторам) х2, х3, …, хт .
Требуется: установить
количественную взаимосвязь между
показателем и факторами. В таком
случае задача регрессионного анализа
понимается как задача выявления
такой функциональной зависимости
y* = f(x2 , x3 , …, xт), которая наилучшим
образом описывает имеющиеся
экспериментальные данные.
Допущения:
количество наблюдений
достаточно для проявления статистических
закономерностей относительно факторов
и их взаимосвязей;
обрабатываемые ЭД
содержат некоторые ошибки (помехи),
обусловленные погрешностями
матрица результатов
наблюдений является единственной информацией
об изучаемом объекте, имеющейся
в распоряжении перед началом
исследования.
Функция f(x2 , x3 , …, xт),
описывающая зависимость
Решение задачи регрессионного
анализа целесообразно разбить
на несколько этапов:
предварительная обработка
ЭД;
выбор вида уравнений
регрессии;
вычисление коэффициентов
уравнения регрессии;
проверка адекватности
построенной функции
Предварительная обработка
включает стандартизацию матрицы ЭД,
расчет коэффициентов корреляции, проверку
их значимости и исключение из рассмотрения
незначимых параметров (эти преобразования
были рассмотрены в рамках корреляционного
анализа). В результате преобразований
будут получены стандартизованная
матрица наблюдений U (через y будем
обозначать стандартизованную величину
y* ) и корреляционная матрица r .

- Корреляционно-регрессионный анализ
- Корреляционно-регрессионный анализ сельскохозяйственных культур (на данных статистики Республики Казахстан)
- Корреляционно - регрессионный анализ среднегодовой стоимости оплаты труда
- Корреляционно-регрессионных анализ в MS Excel
- Корреляционные связи физико-химических свойств нефти
- Корреляционный анализ
- Корреляционный анализ
- Коррекция фигуры средствами физического воспитания
- Корреляционно регрессивный анализ
- Корреляционно-регрессионный анализ
- Корреляционно-регрессионный анализ
- Корреляционно-регрессионный анализ
- Корреляционно-регрессионный анализ
- Корреляционно-регрессионный анализ