Сравнение средних
Сравнение средних
Сравнение средних
значений различных выборок относится
к наиболее часто применяемым
методам статистического
При сравнении
средних значений выборок предполагается,
что обе выборки подчиняются
нормальному распределению. Если это
не так, то вычисляются медианы и
для сравнения выборок
При сравнении средних значений выборок выделяют четыре различные тестовые ситуации:
- сравнение двух независимых выборок
- сравнение двух зависимых (спаренных) выборок
- сравнение более двух независимых выборок
- сравнение более двух зависимых выборок
В этих ситуациях соответственно применяются следующие статистические тесты:
- t-тест для независимых выборок (тест Стьюдента)
- t-тест для зависимых выборок
- однофакторный дисперсионный анализ
- однофакторный дисперсионный анализ с повторными измерениями
Первые три из этих тестов вызываются с помощью меню Analyze (Анализ) Compare Means (Сравнение средних)
Чтобы провести
однофакторный дисперсионный
Сначала мы рассмотрим тесты, вызов которых происходит посредством пункта меню Compare Means. Для примера мы возьмем данные исследования гипертонии в файле hyper.sav (см. главу 9).
- Загрузите файл hyper.sav.
- Выберите в меню команды Analyze (Анализ) Compare Means (Сравнение средних)
В подменю содержатся, в частности, t-тест для независимых выборок (Independent-Samples Т Test), t-тест для парных выборок (Paired-Samples Т Test) и однофакторный дисперсионный анализ (ANOVA) для сравнения нескольких независимых выборок ( One-Way ANOVA).
Еще один тест, включенный в данное подменю, это t-тест случайной выборки, используемый для сравнения с заданным значением (One-Sample T Test), рассматривается в разделе 13.5. В подпункте меню Means... (Средние) вычисляются средние значения раздельно по категориям группирующей переменной; здесь также можно проверить существование значимого различия при помощи однофакторного дисперсионного анализа. В этом отношении данный подпункт предоставляет меньше возможностей, чем подпункт One-Way ANOVA..., и поэтому здесь не рассматривается.
13.1 Сравнение двух независимых выборок
Мы хотим проверить, значительно ли различается действие двух групп медикаментов на людей в зависимости от их возраста. Такое различие было бы, конечно, нежелательным, так как в этом случае разницу в действии лекарств можно было бы объяснить разным возрастным составом пациентов.
- Выберите в подменю команду Independent-Samples T Test... (t-тест для независимых выборок)
Откроется диалоговое окно Independent-Samples T Test (см. рис. 13.1).
- В списке исходных переменных щелкните на переменной а и щелчком на кнопке с треугольником перенесите ее в список тестируемых переменных (Test Variable(s)).
- Таким же способом перенесите переменную med в поле Grouping Variable (Группирующая переменная).
- Щелчком на кнопке Define Groups... (Определить группы) открывается окно, в котором можно ввести значения двух категорий для группирующей переменной. Мы будем сравнивать две группы, удовлетворяющие условиям соответственно med = 1 и med = 2. Поэтому внесите в поле Group 1 (Группа 1) значение 1, а в поле Group2 — значение 2.
- Щелчком на кнопке Continue вернитесь в основное диалоговое окно.
- Теперь следует выяснить, какие параметры установлены по умолчанию. Щелкните для этого на кнопке Options... (Параметры). Не изменяя настроек, щелкните на кнопке Continue и вернитесь в основное диалоговое окно.
Рис. 13.1: Диалоговое окно Independent-Samples T Test
- Запустите t-тест, щелкнув на ОК. В окне просмотра появятся следующие результаты:
Group Statistics (Статистика групп)
|
Independent Samples Test (Тест для независимых выборок)
| |||||||||||||||||||||||||||||||||||||||||||
Выведенные результаты содержат:
- количество наблюдений, средние значения, стандартные отклонения и стандартные ошибки средних в обеих группах,
- результаты теста Левена на равенство дисперсий.
Как правило, гипотеза о равенстве (гомогенности) дисперсий не принимается, если тест Левена дает значение р < 0,05 (гетерогенность дисперсий). Для случаев как гомогенности (равенства), так и гетерогенности (неравенства) выводятся следующие характеристики:
- результаты t-теста: значение распределения t, количество степеней свободы df, вероятность ошибки р (под обозначением "Значимость (2-сторонняя)"), а также
- разница средних значений, ее стандартная ошибка и доверительный интервал.
В данном примере мы не получаем значимого различия воздействия двух группами лекарств по возрасту (р = 0,880).
В следующем t-тесте мы проверим, различается ли действие двух групп лекарств по так называемому индексу Брока. Этот индекс, разработанный одним парижским хирургом, предусматривает, что нормальный вес человека можно определить из следующего уравнения:
Нормальный вес (кг) = Рост (см) — 100
Если взять отношение фактического веса человека к нормальному весу по этой рормуле, то мы получим процентный показатель, который у людей с нормальным весом равен 100, у людей с избытком веса > 100 и т.д.
Индекс Брака =((Вес в кг)/(Рост в см - 100)) • 100
- Определим на основе существующих переменных новую переменную, для чего выберем команды меню Transform (Преобразовать) Compute... (Вычислить)
- В поле выходной переменной (Target Variable) задайте новое имя "broca", а в поле численного выражения (Numeric Expression) введите выражение gew I (gr- 100) * 100
- Щелкните на кнопке ОК. Теперь можно командами меню Analyze (Анализ) Compare Means (Сравнение средних) Independent Samples T Test... (t-тест для независимых выборок) описанным выше способом провести t-тест для новой переменной broca.
И этот тест показывает, что между двумя труппами лекарств не наблюдается значимого различия по индексу Брока (р = 0,233).
13.3 Сравнение более двух независимых выборок
Далее мы исследуем, существует ли значимое различие веса (переменная gr) между четырьмя разными возрастными группами (переменная ak).
- Выберите в подменю команду One-Way ANOVA... (Однофакторный дисперсионный анализ)
Подобная возможность есть и в первом пункте подменю (Means...), но она дает значительно более ограниченные возможности для анализа, и поэтому мы ее не рассматриваем. Появится диалоговое окно One-Way AN OVA.
- Перенесите переменную gr в список зависимых переменных (Dependent List), a переменную ak — в поле Factor (Фактор).
- Посмотрите, какие параметры можно задать для этого теста (кнопка Options...). Задайте вывод описательной статистики (флажок Descriptive) и проверку на гомогенность дисперсий (флажок Homogeneity-of-variance).
- Чтобы выполнить апостериорный тест, вернувшись в основное диалоговое окно, щелкните на кнопке Post Нос... Откроется диалоговое окно One-Way ANOVA: Post Hoc Multiple Comparisons (Однофакторный дисперсионный анализ: апостериорные множественные сравнения) рис. 13.4.
- Выберите тест Дункана (флажок Duncan). При значимом результате дисперсионного анализа этот тест показывает, какие именно возрастные группы значимо отличаются друг от друга. По умолчанию установлен уровень значимости 0,05; можно выбрать и другое значение.
- Запустите тест, щелкнув на ОК.
Рис. 13.3:
Диалоговое окно One-Way ANOVA
Рис. 13.4: Диалоговое окно One-Way AN OVA: Post Hoc Multiple Comparisons
В окне просмотра появятся следующие результаты:
Descriptives (Описательная статистика)
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Test of Homogeneity of Variances (Тест гомогенности дисперсий)
| ||||||||||||
ANOVA (Дисперсионный анализ)
| ||||||||||||||||||||||||||||||
Апостериорные тесты Гомогенные подгруппы
Рост
| ||||||||||||||||||||||||||||||
Means for groups in homogeneous subsets are displayed (Показаны средние значения для групп внутри гомогенных подгрупп).
a. Uses Harmonic Mean Sample Size = 39,300 (Используется гармоническое среднее для размера выборки = 39,300).
b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. (Размеры групп неодинаковы. Используется гармоническое среднее размеров групп. Уровни ошибок типа I не гарантируются).
Выведенные результаты содержат:
- количество наблюдений, средние значения, стандартные отклонения и стандартные ошибки средних, 95 % доверительные интервалы, минимумы и максимумы для всех слоев фактора,
- результаты теста Левена на гомогенность дисперсий,
- типовую схему дисперсионного анализа, включая вероятность ошибки р (значимость) для оценки общей значимости,
- результаты многорангового теста Дункана.
В этом примере дисперсионный анализ дает максимально значимый результат (р < 0,001). Тест Дункана выделяет две гомогенные подгруппы (со стандартным значением р = 0,05), одна из которых включает возрастной класс до 55 лет, а другая — три остальных класса. Это означает, что возрастной класс до 55 лет значимо отличается от трех других возрастных классов, которые, в свою очередь, не обнаруживают значимого различия между собой.
Уменьшение роста с увеличением возраста может быть связано с тем, что в старших возрастных классах преобладают женщины, рост которых мал по сравнению с мужчинами, что и вызывает данный эффект. Повторим этот анализ для категорий пола. Окажется, что у мужчин факт уменьшения роста с увеличением возраста подтверждается, а для женщин — нет.
Далее мы подробно рассмотрим имеющиеся в диалоговом окне AN OVA кнопки Contrasts (Контрасты), Post Hoc... и Options..., а также возможности, которые они предоставляют.
13.4. Сравнение более чем двух зависимых выборок
На основе данных по гипертонии исследуем, значимо ли изменяется содержание холестерина в течение четырёх промежутков времени (такое сравнение для первых двух промежутков времени мы уже провели в параграфе 13.2).
Для достижения этой цели подходит однофакторный дисперсионный анализ с повторными измерениями. Пользователи SPSS, работавшие с этим пакетом на больших компьютерах, знают, что выполнить эту весьма распространенную операцию можно было только с помощью процедуры MANOVA (многомерный дисперсионный анализ). Ясно, что эта процедура предназначена для разнообразных методов многомерного анализа, но может быть использована при одномерном дисперсионном анализе с повторными измерениями.
Начиная с версии 7 SPSS процедура MANOVA была заменена процедурой GLM (General Linear Model). Однако и в текущей версии процедура MANOVA по прежнему остается доступной при использовании программного синтаксиса.
Разнообразные возможности анализа, предоставляемые этими процедурами (GLM и MANOVA), обеспечиваются ценой уже практически необозримого количества команд, спецификаций, параметров и ключевых слов. Даже при решении такой простой задачи, как рассматриваемая, надо уметь ориентироваться в этом многообразии. Несколько подробнее процедура GLM рассматривается в главе 17; однако в рамках этой книги невозможно охватить всю широту диапазона возможностей, предоставляемых этой процедурой. Теперь перейдем к решению нашей задачи при помощи однофакторного дисперсионного анализа с повторными измерениями.
- Загрузите файл hyper, sav.
- Выберите в меню команды Analyze (Анализ) General Linear Model (Общая линейная модель) Repeated Measures... (Повторные измерения)
Откроется диалоговое окно Repeated Measures Define Factors) (Определить фактор(ы) для повторных измерений).
В данном примере
мы подвергнем анализу четыре переменных:
cho10, cho11, cho16 и chol12; следовательно, фактор
повторных измерений будет
- Введите число 4 в поле Number of Levels (Количество уровней). По умолчанию принимается имя фактора faktorl; при желании можно задать для него любое другое i имя (например, "время").
- Щелкните на кнопке Add. Других факторов повторных измерений у нас нет, поэтому можно сразу закрыть этот диалог кнопкой Define (Определить). Появится диалоговое окно Repeated Measures (Повторные измерения) (см. рис. 13.7).
- Перенесите переменные cho10, choll, cho16 и chol12 в список Within-Subject Variables (Переменные внутри субъекта); далее кнопками, которые находятся внизу диалогового окна, можно установить дополнительные параметры но мы не будем их рассматривать.
- Запустите вычисления, щелкнув на ОК.
Рис. 13.6:
Диалоговое окно Repeated Measures Define Factor(s)
Рис. 13.7: Диалоговое окно Repeated Measures
- Проанализируйте результаты, появившиеся в окне просмотра.
Вы убедитесь,
что для неподготовленного
Tests of Within-Subjects Effects (Тест эффектов внутри субъекта)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вероятность ошибки р составляет 0,048, что указывает на значимое различие между отдельными моментами времени. К сожалению, даже в 10-й версии SPSS отсутствует возможность провести апостериорный тест для повторных измерений, чтобы выяснить, какие именно промежутки времени значимо отличаются друг от друга. В случае, если выявлены значимые отличия, как в рассмотренном примере, пользователю не остается ничего другого, кроме выполнения парного t-теста.
13.5 t-тест одной выборки
Этот тест позволяет выяснить, отличается ли среднее значение, полученное на основе данной выборки, от предварительно заданного контрольного значения.
Мы проверим, отличается ли средний показатель холестерина, полученный при исследовании гипертонии, от значения 229, которое могло быть определено в каком-либо другом исследовании.
- Загрузите файл hyper.sav.
- Выберите в меню команды Analyze (Анализ) Compare Means (Сравнение средних) One-Sample T Test... (t-тест для одной выборки) Откроется диалоговое окно One-Sample T Test (см. рис. 13.8).
- Перенесите переменную cho10 в поле Test Variable(s) и введите в поле Test Value (Контрольное значение) значение 229.
- Запустите вычисления, щелкнув на ОК.
Результаты, показанные
в окне просмотра, свидетельствуют
о том, что в данном исследовании
средний исходный уровень холестерина
составляет 237,27, что значимо (р = 0,029) отличается
от контрольного значения 229.
Рис. 13.8: Диалоговое окно One-Sample T Test
One-Sample Statistics (Статистика одной выборки)
|
One-Sample Test (Тест пои одной выборке)
| |||||||||||||||||||||||
Кнопкой Options... (Параметры) можно задать вместо 95 % любой другой доверительный интервал. Значение доверительного интервала может принимать значения в промежутке от 1 до 99%.

- Сравнение сталинской эпохи и правления Хрущёва
- Сравнение стандартов электронной подписи РФ и США
- Сравнение старого и нового Консульского Устава
- Сравнение старой и новой редакции закона закона от 06.12.2011 N 402-ФЗ "О бухгалтерском учете" (далее – Закон N 402-ФЗ)
- Сравнение стран Ямайка и Швеция
- Сравнение стратификаций по К. Марксу и П. Сорокину
- Сравнение страхования с зарубежными странами
- Сравнение различных версий пакета Microsoft Office
- Сравнение романтического героя Байрона и романтического героя Лермонтова
- Сравнение РСБУ и МСФО
- Сравнение систем множественного доступа (FDMA, TDMA, СDMА)
- Сравнение систем образования в США, Великобритании и России
- Сравнение системы согласных древнеанглийского и современного периодов
- Сравнение Сократа и Иисуса