Статистические критерии

 

 

Теоретическая часть………………………………………………………………………………………3

Критерий Стьюдента……………………………………………………………………………………..5

F -- критерий Фишера………………………………………………………………………………...…10

Критерий χ2 Пирсона ………………………………………………………………………12

Критерий Манна-Уитни………………………………………………………………………………...15

 

 

 

Гипотезы проверяются  с помощью статистических критериев (обозначается в общем виде R). Статистический критерий – это правило, которое позволяет принимать истинную и отклонять ложную гипотезу с высокой вероятностью или другими словами на определенном уровне значимости -a (т.е. с указанием ошибки 1-ого рода, которая возникает в результате отклонения по результатам выборочного исследования истинной нулевой гипотезы; принятие истинной гипотезы Н0 характеризуется доверительной вероятностью 1-a; ошибка 2-ого рода b возникает в результате принятия по результатам выборочного исследования ложной Н0; отклонение ложной Н0 характеризуется вероятностью 1-b и называется мощностью критерия. Два вида ошибок связаны между собой так же, как и нулевая и альтернативная гипотезы. Математическая статистика позволяет точно указывать только вероятность ошибки 1-ого рода.  Оценить вероятность ошибки 2-ого рода чаще всего трудно. (И лишь в некоторых случаях, она может быть оценена примерно).

Обычно a принимает следующие значения: 0,10; 0,05; 0,01; 0,001. Начинают с наименьшего значения.

Пример: если мы указываем, что сходства-различия достоверны (статистически значимы) на 5% уровне значимости, то это означает, что вероятность того, что они недостоверны, составляет 0,05 (а доверительная вероятность 0,95=1-0,05). Естественно, вероятности могут указываться как в десятичном, так и процентном измерении.

Статистический критерий часто представляет собой формулу, по которой получают некоторое число.

Критерии делятся на:

  1. Параметрические, включающие в формулу расчета параметры распределения, рассчитанные по выборке; например, средние арифметические (общепринятые обозначения М, х‾ с чертой вверху), дисперсии (соответственно S2, s2)). Применяются при условии нормального распределения и производных из него: распределения Стьюдента, Фишера, c Пирсона

Примеры критериев:

t-критерий Стьюдента: применяется для сравнения (установления сходства – различий) средних в выборках, установления отличий от 0 некоторых мер связи: коэффициента линейной корреляции Пирсона, ранговой корреляции Пирсона, точечно-бисериального и рангово-бисериального и коэффициента линейной регрессии (см.ниже).

F-критерий Фишера: для сравнения дисперсий в выборках, установления отличий от 0 коэффициента детерминации, установления наличия-отсутствия влияния фактора в дисперсионном анализе.

c2 (хи-квадрат) Пирсона: для установления сходства-различия (сравнения) между эмпирическими и теоретическими частотными распределениями и проверка отличия от 0 коэффициентов сопряженности (j, Кч, С). Похожие задачи решает и критерий l (лямда) –Колмогорова-Смирнова.

  1. непараметрические, оперирующие с частотами, рангами и т.д., не учитывающие форму распределения выборочных данных и поэтому имеющие более широкую область применения (Е.В.Сидоренко, 2000).

Примеры: Q-критерий Розенбаума: выявление различий в уровне исследуемого признака на двух выборках испытуемых.

Н-критерий Крускала-Уоллиса и S-критерий Джонхира (аналогично, но в случае 3-х и более выборок испытуемых)

G-критерий знаков, Т-критерий Вилкоксона: оценка сдвига значений исследуемого признака в двух независимых выборках)

Критерий Х2r Фридмана и L-критерий тенденции Пейджа (для 3-х и более независимых выборок).

Критерии Крускала-Уоллиса, Фридмана, Джоннера и Пейджа являются непараметрическими аналогами дисперсионного анализа.

  1. односторонние (для направленных гипотез).
  2. двухсторонние (для ненаправленных, проверяются различия в обе стороны).
  3. многофункциональные – эти критерии могут использоваться по отношению к самым разнообразным данным (независимо от шкалы), выборкам (зависимым и независимым) и задачам.

Примеры: j* Фишера – угловое преобразование Фишера, биномиальный критерий т и др.

Для большинства критериев порядок проверки следующий:

  1. выбор критерия в соответствии с пунктами а), b), c).

а) Подготовка данных (определение  и преобразование измерительной  шкалы (номинативная, порядковая, интервальная, отношений и стандартизированные: Z-оценки, процентили, шкалы JQ, стэнов и т.д.); определение частот встречаемости, ранжирование и т.п.; нахождение числовых характеристик распределения (параметров); проверка нормальности распределения и т.д.)

б) Определение зависимости или  независимости выборок

Независимыми называются выборки, в которых одни и те же признаки измерены (несвязанные измерения) на разных испытуемых, а зависимыми – выборки, образованные парными (связанными) результатами (с одним испытуемым в разных условиях, например, «до» и «после» или испытуемыми, связанными в определенном отношениях: близнецы, брат-сестра, муж-жена и т.д.).

с) Количество выборок (1,2,3 и т.д.)

Один и тот же критерий может иметь различные модифицированные формулы, например: критерий Стьюдента  t для зависимых выборок, для независимых, для малых и т.д.

  1. Определение числа степеней свободы для используемого критерия (в общем виде: df=n-1, где n – число испытуемых, интервалов квантования(групп) или в случае двух выборок: df=n+m-2, где n, m– число испытуемых соответственно в первой и второй выборках) и фиксирование уровня значимости (для коэффициентов корреляции допустим a=0,10. Более точные уровни значимости могут быть рассчитаны на компьютере).
  2. В соответствии с критическим значением по таблице [которые приводятся обычно в конце разнообразных учебных пособий] и сравнение с ним эмпирического (под словом сравнение обычно понимают следующие операции: Rэмп. >=Rкрит. или Rэмп.<=Rкрит. в зависимости от критерия и вида гипотезы (Н0, Н1)).

Формулировка общего вывода проверки гипотезы может быть такой (на примере критерия Стьюдента): «Проверка  различных средних арифметических в двух группах показала, что средние  различаются статистически значительно (достоверно) на уровне 0,05 (0,01;0,001) или (р<= 0,05)».

При использовании критерия необходимо знать ограничения, как  по отношению к типу задач, так  и к самим данным: количество, форма представления и т.д.

Критерий Стьюдента

С помощью критерия Стьюдента  можно решать задачи не только о  равенстве (неравенстве) центров распределения  двух выборок, но и о равенстве (неравенстве) центра распределения выборки некоторому неслучайному числу – константе (в том числе и нулю), а также  о доверительных границах и интервалах. Кроме того, на основе критерия Стьюдента  можно построить простой, но очень  эффективный способ отсеивания так  называемых грубых промахов.

Следует отметить, что распределение  Стьюдента не зависит от математического  ожидания и дисперсии генеральной  совокупности, зависит только от объема выборки и является аналогом нормального  распределения для выборок малого объема (n < 30 – 40), при больших объемах оно практически полностью совпадает с нормальным распределением.

критерий t-распределения Стьюдента

t = 

где S2 =   — средневзвешенная дисперсия с числом степеней свободы n= n1+n2–2, a n1 и n2 – соответствующие объемы выборок.

При экспериментальных измерениях, особенно в цеховых или полевых  условиях, нередко в массив данных вкрапливаются так называемые “грубые  промахи”, которые являются результатом  усталости персонала, сбоя оборудования, неполадок в технологическом  процессе и т.п. Некоторые из них  настолько выделяются на общем фоне, что выловить их и отбросить не составляет труда. Однако большинство  грубых промахов на глаз неразличимы  и поэтому могут вносить существенные искажения в результаты исследования. Для выявления и устранения грубых промахов предлагается следующая процедура.

Пусть имеется выборка  объемом n, один из элементов которой X* вызвал подозрение, что он не принадлежит данной совокупности (является грубым промахом). Для всей выборки, включая X*, вычисляется среднее арифметическое  и оценка дисперсии S2, которые формируют нормированное отклонение

.

Затем вычисляется критерий отбраковки

где t (q,n) – критерий Стьюдента с q уровнем значимости и n = n – 2 числом степеней свободы.

Если t<tкр(5%,n), то подозреваемое число X* следует оставить в выборке; если t (5%,q)<t<tкр(0,1%,q), то число X* можно оставить или выбросить по усмотрению исследователя; если t>tкр(0,1%,n), то число X* нужно обязательно исключать из выборки.

Пример 1. 

Две установки должны напылять резисторы одинаковой величины. При  измерениях получены следующие выборки (в Омах):

Установка 1: 1095, 1025, 938, 915, 1012, 980, 975, 990, 1000, 947;

Установка 2: 942, 938, 1010, 1030, 973, 915, 990, 970, 925, 1045, 1100, 1020, 985, 1082, 1065, 1090

Определить, одинаково ли налажены установки.

Решение сводится к проверке нулевой гипотезы H0:  =  против альтернативной H1:  1 2. Находим параметры выборочных распределений

= 987,7 Ом; S2 = 2587,1 Ом2; n1 = 10;

 = 1005,0 Ом; S2 = 3605,7 Ом2 n2 = 16;

Затем по формуле

 t =  ,

находим средневзвешенную дисперсию

S2 =    

S2 = (9,425871 + 15,436057) / (9 + 15) = 3223,7

с n = 9 + 15 = 24 степенью свободы и расчетное значение критерия Стьюдента

t =    

По таблице распределения Стьюдента находим tтабл,(5%; n= 24) = 2,0639. Так как t<tтабл,, то нулевая гипотеза H0 о равенстве центров распределения принимается (с доверительной вероятностью Рдов=0,95 можно считать, что обе установки налажены одинаково).

Пример 2. 

Установка напыления должна быть настроена на номинал 15 кОм, При  измерениях получилась следующая выборка: 13,2; 14,7; 12,9; 15,3; 12,7; 13,8; 14,1; 12,8; 14,8; 13,5; 14,2; 16,2; 14,1; 13,9; 14,3; 15,1 кОм. Определить правильность настройки установки.

Решение  сводится к проверке нулевой гипотезы H0: = 15,0 кОм против альтернативной H1: 15,0 кОм. Находим параметры выборочного распределения:  = 14,1 кОм; S2 = 0,9427 кОм; n = 16. Так как величину   надо сравнивать с константой C, то формула

t =  , (1.27)

преобразуется

.  

По таблице распределения Стьюдента находим tтабл,(5%; 15) = 2,1314. Так как t > tтабл,, то нулевая гипотезаH0 о равенстве центра выборочного распределения напыляемых резисторов величине 15 кОм отвергается и принимается альтернативная гипотеза H1 (с доверительной вероятностью Рдов=0,95 можно считать, что установка для напыления настроена неправильно).

Пример3.

Приобретенная партия с 20 резисторов с номинальным сопротивлением Rном =181 ом с указанным в сертификате допуском ± 5% . Провести проверку приобретенной партии и установить действительное отклонение сопротивления от указанного в сертификате и его достоверность . Закон распределения погрешностей принять нормальным.

  1. проведем измерение сопротивлений каждого резистора и занесем их в таблицу1

таблица 1

№  

Величина сопротивления 

(ом) Ri

№  

Величина сопротивления 

(ом) Ri

1

178,5

11

179,8

2

180,1

12

183,3

3

183,3

13

180,7

4

184,8

14

187,6

5

180,5

15

181,8

6

185,1

16

180,9

7

182,5

17

180,8

8

186,5

18

180,3

9

182,9

19

185,3

         10

179,3

20

181


 

 

2. Находим среднее арифметическое :

=  =  182,25ом

3.Определяем среднее квадратичное  отклонение наблюдения.

sx=  =  2,53 ом

4.Определяем среднее квадратичного  среднего арифметического результата  измерения

0,566 ом

Поскольку не задано среднего квадратичного отклонения пользуемся распределением Стьюдента.

5. Находим дробь Стьюдента:

tp =  2,208

6. По таблице распределения  Стьюдента находим достоверность Р при k=19, tp =2,208

P=0.97*100 =97%

7.Отклонение сопротивления  резисторов представляет:

δR =  1,25 ома.

F -- критерий Фишера

Критерий Фишера позволяет  сравнивать величины выборочных дисперсий  двух рядов наблюдений. Для вычисления   нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая знаменателе. Формула вычисления по критерию Фишера F такова: 

Где 

и 

Поскольку, согласно условию  критерия, величина числителя должна быть больше или равна величине знаменателя, то значение   всегда будет больше или равно единице, т.е.  . Число степеней свободы определяется также просто:   для первой (т.е. для той выборки, величина дисперсии которой больше) и   для второй выборки. В таблице 18 Приложения 6 критические значения критерия Фишера   находятся по величинам   (верхняя строчка таблицы) и   (левый столбец таблицы).

Пример 4.

 В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос - есть ли различия в степени однородности показателей умственного развития между классами.

Для критерия Фишера необходимо сравнить дисперсии тестовых оценок в обоих классах. Результаты тестирования представлены в табл. 2.

Таблица 2

№ учащихся

Первый класс X

Второй класс Y

1

90

41

2

29

49

3

39

56

4

79

64

5

88

72

6

53

65

7

34

63

8

40

87

9

75

77

10

79

62

Суммы

606

636

Среднее

60,6

63,6


Как видно из табл. 11, величины средних в обеих группах практически  совпадают между собой 60,6   63, 6 и величина t - критерия Стьюдента оказалась равной 0, 347 и незначимой.

Рассчитав дисперсии для  переменных X и Y, получаем

 
Тогда, по формуле для расчета  по F - критерию Фишера находим:

По таблице F - критерия при степенях свободы в обоих случаях равных df = 10 - 1 = 9 находим  :

3,18 для P  0,05

5,35 для P 0,01

Строим ``ось значимости'':

Таким образом, полученная величина   попала в зону неопределенности. В терминах статистических гипотез можно утверждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н1. Психолог может утверждать, что по степени однородности такого показателя, как умственное развитие, имеется различие между выборками из двух классов.

Для применения критерия F Фишера необходимо соблюдать следующие  условия:

1. Измерение может быть  проведено в шкале интервалов  и отношений.

2. Сравниваемые выборки  должны быть распределены по  нормальному закону.

Критерий χ2 Пирсона

Использование критерия χ2 для оценки соответствия экспериментальных распределений теоретическим (нормальному или равномерному) подробно обсуждалось в разделе 6.  Тот же критерий может использоваться и для сравнения двух эмпирических распределений на предмет достоверности различий между ними.

Пример 5.

В опытах с участием 100 испытуемых (50 мужчин и 50 женщин) регистрировалось время простой сенсомоторной  реакции (ВСМР) в ответ на звуковой стимул. Получены следующие результаты (табл. 3):

Таблица 3

ВСМР в секундах

Классовый

Интервал

0,10

¸ 0,12

0,12

¸ 0,14

0,14

¸ 0,16

0,16

¸ 0,18

0,18

¸0,20

0,20

¸0,22

0,22

¸0,24

Частоты встречаемости ВСМР

Мужчины

2

15

26

5

2

0

0

Женщины

0

12

20

8

7

2

1


Задание

Пользуясь критерием χ2 Пирсона, определить, достоверны ли различия распределений ВСМР у мужчин и женщин.

Решение

 1. Строим рабочую таблицу для предварительных расчетов (табл. 4):

Таблица 4

Обозна-чение  интер-вала

Классовый интервал в секундах

Эмпирические частоты 

(мужчины)

Эмпирические

частоты

(женщины)

Сумма

эмпирических частот

Теоретические частоты

1

2

3

4

5

6

A

В

C

D

E

F

G

0,10 ÷ 0,12

0,12 ÷ 0,14

0,14 ÷ 0,16

0,16 ÷ 0,18

0,18 ÷ 0,20

0,20 ÷ 0,22

0,22 ÷ 0,24

2

15

26

5

2

0

0

0

12

20

8

7

2

1

2

27

46

13

9

2

1

1

13,5

23

6,5

4,5

1

0,5

Сумма

 

50

50

100

 

Столбец 1 служит исключительно  для экономии: в дальнейшем мы не будем указывать границы классовых  интервалов – нам будет достаточно того, что распределение включает в себя 7 количественных градаций (классов). В столбцах 2, 3 и 4 отражены данные из условия задачи. Столбец 5 служит для  дальнейших вычислений.

Теоретические частоты (столбец 6) в данном случае вычисляются следующим  образом:

1) в случае равноценных  выборок теоретическая частота  в каждом классе вычисляется  как среднее арифметическое двух  эмпирических частот;

2) если объемы выборок  различны, то теоретическая частота  вычисляется как сумма эмпирических  частот в данной строке, умноженная  на сумму в каждом столбце  (по вертикали) и отнесенная  к общей сумме частот.

Для дальнейших вычислений вносим данные в табл. 5:

Таблица 5

 

Мужчины

Женщины

 

Интервал 

 

fэксп

 

.fтеор.

 

fэксп

 

.fтеор.

1

2

3

4

5

6

7

A

В

C

D

E

F

G

2

15

26

5

2

0

0

1

13,5

23

6,5

4,5

1

0,5

1,00

0,17

0,39

0,35

1,39

1,00

0,50

0

12

20

8

7

2

1

1

13,5

23

6,5

4,5

1

0,5

1,00

0,17

0,39

0,35

1,39

1,00

0,50


Можно видеть, что это  – типичная таблица для вычисления критерия χ2 .Значения в столбцах 3 и 6 для мужчин и женщин одинаковы; это естественно, так как теоретические частоты соответствуют средним значениям экспериментальных частот в каждой выборке. Тем не менее χ2 следует рассчитывать, суммируя все значения в столбцах 4 и 6 (т. е. по обеим выборкам).

В итоге получаем χ2 = 9,6. В табл. VI Приложений для уровня значимости 0,95 и ν = N – 1 = 6 находим значение χ2кр., равное12,6.

Вывод:

Различия между распределениями  не являются статистически достоверными.

Критерий Манна-Уитни

U-критерий Манна-Уитни  используется для оценки различий между двумя малыми выборками  (n1,n2≥3 или n1=2, n2≥5) по уровню количественно измеряемого признака. При этом первой выборкой принято считать ту, где значение признака больше.     

Нулевая гипотеза H0={уровень  признака во второй выборке не ниже уровня признака в первой выборке}; альтернативная гипотеза – H1={уровень  признака во второй выборке ниже уровня признака в первой выборке}.

Рассмотрим алгоритм применения U-критерия Манна-Уитни:

1.       Перенести все данные испытуемых на индивидуальные карточки, пометив карточки 1-й выборки одним цветом, а 2-й – другим.

2.       Разложить все карточки в единый ряд по степени возрастания признака и проранжировать в таком порядке.

3.       Вновь разложить карточки по цвету на две группы.

4.       Подсчитать сумму рангов отдельно по группам и проверить, совпадает ли общая сумма рангов с расчетной.

5.       Определить большую из двух ранговых сумм  .

6.       Вычислить эмпирическое значение U:

, где   - количество испытуемых в   - выборке (i = 1, 2),   - количество испытуемых в группе с большей суммой рангов.

7.               Задать уровень значимости α и, используя специальную таблицу, определить критическое значение Uкр(α). Если  , то H0 на выбранном уровне значимости принимается.

Рассмотрим использование U критерия Манна-Уитни на примере.

Проведение срезовой контрольной работы по математике (алгебра и геометрия) в средней общеобразовательной школе дало следующие результаты по 10-балльной шкале для класса, обучающегося по программе «Развивающего обучения» (7 «Б»), и класса, обучающегося по традиционной системе (7 «А»),представленные в табл. 6 

Таблица 6

Ученик \ Класс

7 «А» (баллы)

7 «Б» (баллы)

1

9

5

2

7

10

3

7

7

4

8

8

5

6

8

6

4

4

7

4

6

8

8

8

9

6

8

10

6

9

11

5

7

12

-

10

Статистические критерии