Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Дисперсионный анализ. 3

Содержание. ст

Введение…………………………………………………………………………....3

1.Задача дисперсионного анализа……………………………………………...4

2. Однофакторный дисперсионный анализ ………………….………………..6

3.Двухфакторный дисперсионный анализ…………………………………….11

4. Планирование эксперимента при дисперсионном анализе.

Латинские и гипер-греко-латинские квадраты.………………..…………......22

Заключение...............................................................................................................30

Литература................................................................................................................32

Введение.

Результаты эксперимента в химии и химической промышленности были и остаются главным критерием при решении практических задач и при проверке теоретических гипотез. Изучение сложных технологических процессов сопряжено с трудоемким и длительным экспериментом. Для увеличения эффективности научных исследований, сокращения сроков разработки новых технологических процессов необходима оптимизация экспериментальных исследований на всех стадиях разработки, исследования, внедрения и эксплуатации химико-технологических процессов.

В настоящее время мощным средством повышения эффективности научных исследований при решении задач расчета, анализа, оптимизации и прогнозирования химико-технологических процессов стал метод математического моделирования. При наличии полной информации о механизме процесса (термодинамике, кинетике, гидродинамики) составляют детерминированную математическую модель, представляющая собой систему дифференциальных уравнений обыкновенных или в частных производных. Для определения неизвестных констант, входящих в систему дифференциальных уравнений и проверки адекватности математической модели процесса, проводится эксперимент.

В качестве выходных величин рассматривают любой технологический или экономический показатель процесса. Используя при обработке опытных данных принципы прогрессивного и корреляционного анализа, удается найти зависимость между переменными и определить условия оптимума.

Математической моделью служит функция отклика, связывающая параметр оптимизации, характеризующий результаты эксперимента, с переменными параметрами, которыми варьируют при проведении опытов.

Любые контролируемые параметры технологических процессов (температура, давление, расход, реагентов и др.) изменяются во времени случайным образом и следовательно, являются случайными. За время наблюдений случайный процесс принимает тот или иной конкретный вид, заранее неизвестный, называемый реализацией случайного процесса. Случайный процесс можно рассматривать как систему, состоящую из бесконечного множества величин.

Различают стационарные и нестационарные случайные процессы. Стационарные случайные процессы протекают во времени приблизительно однородно и имеют вид случайных колебании вокруг некоторого среднего значения, причем средняя амплитуда, ни характер этих колебаний не обнаруживают существенных изменений с течением времени. Нестационарные случайные процессы имеют определенную тенденцию развития во времени, характеристики такого процесса зависят от начала отсчета.

1. Задача дисперсионного анализа.

В любом эксперименте среднее значение наблюдаемых величин меняются с изменением основных факторов (качественных и количественных), определяющих условия опыта, а также и случайных факторов. Исследование влияние тех или иных факторов на изменчивость средних является задачей дисперсионного анализа.

Дисперсионный анализ использует свойство аддитивности дисперсии изучаемой случайной величины, обусловленной действием независимых факторов. Р.А. Фишер в 1938 г. впервые определил дисперсионный анализ как «отделение дисперсии, приписываемой одной группе причин от дисперсии, приписываемой другими группами». В зависимости от числа источников дисперсии различают однофакторный и многофакторный дисперсионный анализ.

Дисперсионный анализ особенно эффективен при изучении нескольких факторов. При классическом методе исследования варьируют только один фактор, а остальные оставляют постоянными. при этом для каждого фактора проводится серия наблюдений, не используемая при изучении других факторов. Кроме того, при таком методе исследования не удается определить взаимодействие факторов при одновременном их изменении. При дисперсионном анализе каждое наблюдение служит для одновременной оценки всех факторов и их взаимодействий.

Дисперсионный анализ состоит в выделении и оценке отдельных факторов, вызывающих изменчивость изучаемой случайной величины. Для этого производится разложение суммарной выборочной дисперсии на составляющие, обусловленные независимыми факторами. Каждая из этих составляющих представляет собой оценку дисперсии генеральной совокупности. Чтобы решить, значимо ли влияние данного фактора, необходимо оценить значимость соответствующей выборочной дисперсии в сравнении с дисперсией воспроизводимости, обусловленной случайными факторами. Проверка значимости оценок дисперсий проводится по критерию Фишера. Если рассчитанное значение критерия Фишера окажется меньше табличного, то влияние рассматриваемого фактора нет оснований считать значимым. Если же рассчитанное значение критерия Фишера окажется больше табличного, то рассматриваемый фактор влияет на изменчивость средних. В дальнейшем будем полагать, что выполняются следующие допущения:

- случайные ошибки наблюдений имеют нормальное распределение;

- факторы влияют только на изменение средних значений, а дисперсия наблюдений остается постоянной;

- эксперименты равноточны.

Требование нормального распределения определяет выбор основных факторов при исследовании процесса методом дисперсионного анализа. Если нужно получить нормальное распределение выходной величины, к случайным желательно относится только те факторы, влияние которых на выходную величину очень мало. Исключение можно делать лишь для тех факторов, которые сами по себе (из каких-либо других соображений) дают нормальное распределение результатов.

Факторы рассматриваемые в дисперсионном анализе, бывают двух родов:

- со случайными уровнями;

- с фиксированными.

В первом случае предполагается, что выбор уровней производится из бесконечной совокупности возможных уровней и сопровождаются рандомизацией. При этом результаты эксперимента имеют большее значение, поскольку выводы по эксперименту можно распространить на всю генеральную совокупность. Если все уровни выбираются случайным образом, математическая модель эксперимента называется моделью со случайными уровнями факторов (случайная модель). Когда все уровни фиксированы, модель называется моделью с фиксированными уровнями. Когда часть факторов рассматривается на фиксированных уровнях, а уровни остальных выбираются случайным образом, модель называется моделью смешанного типа. Иногда отсутствие различие в критериях, применяемых для разных моделей, и единственное различие состоит в общности выводов, в других случаях существует различие в критериях.

Дисперсионный анализ может применяться в различных формах в зависимости от структуры исследуемого процесса; выбор соответствующей формы является обычно одной из главных трудностей в практическом применении анализа.

2. Однофакторный дисперсионный анализ.

Рассмотрим действие единичного фактора А (количественного или качественного), который принимает k различных значений (уровней фактора). На i-м уровне производится n_i наблюдений, результаты которых можно записать следующим образом:

Будем предполагать, что результат любого наблюдения можно представить в виде модели:

(1.1)

где,

μ – суммарный эффект во всех опытах;

- эффект фактора на i-м уровне (i=1,2…,k);

ε_ij – ошибка измерения на i-м уровне. Предположим также, что наблюдения на фиксированном уровне фактора нормально распределены относительно среднего значения μ+ с общей дисперсией . Общее число опытов равно N:

(1.2)

проверяется нулевая гипотеза равенства средних значений на различных уровнях А:

Наиболее простые расчеты получаются при равном числе опытов на каждом уровне фактора А: n₁=n₂=…=n_k=n.

При этом общее число наблюдений N равно kn. Обозначим через , среднее значение наблюдений на i-м уровне.

(1.3)

а общее среднее значение для всей выборки из N наблюдений:

(1.4)

Для проведения дисперсионного анализа необходимо общую выборочную дисперсию s².

(1.5)

разложить на составляющие, которые характеризовали бы вклад, фактора А и фактор случайности при этом легко оценить благодаря наличию повторных опытов на каждом уровне. Определить выборочную дисперсию на каждом уровне:

i=1,2,…,k. (1.6)

Если нет уверенности в равноточности экспериментов, однородность дисперсий s₁², s₂²,…, s_k², можно проверить по критерию Кохнера.

Если между дисперсиями нет значимых различий, для оценки генеральной дисперсии σ², характеризующнй фактор случайности. используют выборочную дисперсию s²_общ:

(1.7)

Число степеней свободы дисперсии s²_общ равно k(n-1)=N-k. Приближенную оценку для дисперсии фактора А можно получить следующим образом:

(1.8)

Более точную оценку для можно получить, рассматривая отклонение средних на отдельных уровнях от общего среднего всей выборки . Действительно,

(1.9)

Отсюда

(1.10)

Дисперсия фактора А для модели с фиксированными уровнями не связана ни с какой случайной, это условное название для математического ожидания среднего квадрата отклонений, обусловленного влиянием фактора А. Такое обозначение удобно, так как определяет рассеяние, вызванное влиянием фактора А аналогично показателю влияния случайного фактора. что позволяет непосредственно сравнивать фактор А с эффектом случайности. Введем также следующее обозначение:

(1.11)

Эта дисперсия имеет k-1степеней свободы. Если дисперсия значимо отличается от , нулевая гипотеза m₁=m₂=…=m_k=m отвергается, влияние фактора А считается существенным. Проверяется нулевая гипотеза по критерию Фишера. Так как альтернативой является равенство , для проверки гипотезы применяется односторонний критерий Фишера. Влияние фактора А считается значимым:

(1.12)

Дисперсионный анализ можно провести по следующему алгоритму: 1. итоги по столбцам

(1.13)

2. сумму квадратов всех наблюдений

(1.14)

3. сумму квадратов по столбцам, деленную на число наблюдений в столбце,

(1.15)

4. квадрат общего итога, деленный на число всех наблюдений (корректирующей член),

(1.16)

5. сумму квадратов для столбца

(1.17)

6. - общую сумму квадратов, равную разнице между суммой квадратов всех наблюдений и корректирующим членом,

(1.18)

7. - остаточную сумму квадратов для оценки ошибки эксперимента

(1.19)

8. дисперсию

(1.20)

9. дисперсию

(1.21)

Результаты расчета представляются в виде таблицы дисперсионного анализа:

Таблицы №1.

Однофакторный дисперсионный анализ (с равным числом повторений опытов)

Источник дисперсии	Число степеней свободы	Сумма квадратов	Средний квадрат	Математическое ожидание среднего квадрата
А	k-1
Остаток	k(n-1)
Общая сумма	kn-1			-

Если отношение , то влияние фактора А следует считать незначимым. При этом общая дисперсия s² связана только с фактором случайности и может служить оценкой для дисперсии воспроизводимости. Такая оценка лучше, чем, так как имеет большее число степеней свободы, равное kn-1. при интерпретации результатов дисперсионного анализа необходимо иметь в виду, что очень низкое значение дисперсионного отношения может быть связано с тем, что влияние какого-то важного неконтролируемого в ходе эксперимента фактора не было рандомизированно. Это может увеличить дисперсию внутри уровней, а дисперсию между уровнями оставить неизменной, что уменьшает дисперсионное отношение.

Если же справедливо неравенство (1.12), различие между дисперсиями и значимо и, следовательно значимо влияние фактора А. Определим оценку фактора А из (1.11):

(1.22)

При этом нулевая гипотеза m₁=m₂=…=m_k=m отвергается, и различие между средними m₁, m₂,…,m_k следует считать значимым. Для выяснения вопроса, какие именно средние различны, применяются критерии Стьюдента, Фишера или ранговый критерий Дункана.

При интерпретации результатов дисперсионного анализа для модели со случайными уровнями обычно интересуются не проверкой гипотез относительно средних, а оценкой компонент дисперсий. В отличие от модели с фиксированными уровнями выводы по случайной модели распространяются на всю генеральную совокупность уровней.

Рассмотрим схему вычислений для разного числа параллельных наблюдений. Пусть на уровне a_i проведено n_i параллельных наблюдений. Общее число всех наблюдений равно

Определим: 1. итоги по столбцам

(1.23)

2. суммы квадратов наблюдений

(1.24)

3. сумма квадратов итогов по столбцам, деленных на число наблюдений в соответствующем столбце

(1.25)

4. общего итога, деленный на число наблюдений

(1.26)

Дальнейшие расчеты проводятся по формулам (1.17) – (1.21). Если дисперсии и значимо отличаются друг от друга, дисперсию фактора А вычисляют по формуле:

(1.27)

3. Двухфакторный дисперсионный анализ.

Изучается влияние процессов одновременно факторов А и В. Фактор А исследуется на уровнях a₁, а₂,…, а_k, фактор В – на уровнях b₁,b₂,…,b_m. Допустим, что при каждом сочетании факторов А и В проводятся n параллельных наблюдений (таблица №2)

Таблицы №2.

Данные для двухфакторного дисперсионного анализа с повторениями.

В	А						Итого
В	а₁	а₂	…	а_j	…	a_k	Итого
b₁	y₁₁₁, y₁₁₂,…, y_11n	y₂₁₁, y₂₁₂,…, y_21n	…	y_i11, y_i12,…, y_i1n	…	y_k11, y_k12,…, y_k1n	B₁
b₂	y₁₂₁, y₁₂₂,…, y_12n	y₂₂₁, y₂₂₂,…, y_22n	…	y_i21, y_i22,…, y_i2n	…	y_k21, y_k22,…, y_k2n	B₂
…	…	…	…	…	…	…	…
b_j	y_1j1, y_1j2,…, y_1nj	y_2j1, y_2j2,…, y_2jn	…	y_ij1, y_ij2,…, y_ijn	…	y_kj1, y_kj2,…, y_kjn	B_j
…	…	…	…	…	…	…	…
b_m	y_1m1, y_1m2,…, y_1mn	y_2m1, y_2m2,…, y_2mn	…	y_im1, y_im2,…, y_imn	…	y_km1, y_km2,…, y_kmn	B_m
Итоги	A₁	A₂	…	A_i	…	A_k

Общее число наблюдений равно N=nkm. Результат наблюдения можно представить в виде следующей модели:

(1.28)

где,

μ – общее среднее;

α_i – эффект фактора А на i-м уровне, i=1,2,…,k;

β_j – эффект фактора В на j-м уровне j=1,2,…, m;

α_iβ_i – эффект взаимодействия факторов.

Эффект взаимодействия представляет собой отклонение среднего по наблюдениям в ij-й серии от суммы первых трех членов в модели (11.28), а (q=1,2,…,n) учитывается вариацию внутри серии наблюдений (ошибка воспроизводимости). Будем полагать, как и прежде, что распределена нармально с нулевым математическим ожиданием и дисперсией . Если предложить, что между факторами нет взаимодействия, то можно принять линейную модель:

(1.29)

Эта модель обычно применяется при отсутствии параллельных наблюдений:

Таблицы №3.

Данные для двухфакторного дисперсионного анализа без повторениями.

В	А				Итоги
В	а₁	а₂	…	а_k	Итоги
b₁	y₁₁	y₂₁	…	y_k1	В₁
b₂	y₁₂	y₂₂	…	y_k2	В₂
…	…	…	…	…	…
…	…	…	…	…	…
…	…	…	…	…	…
b_m	y_1m	y_2m	…	y_km	В_m
Итоги	A₁	A₂	…	A_k

Рассмотрим вначале линейную модель. Через обозначим среднее, соответственно по столбцам и по строкам:

(1.30)

(1.31)

через - среднее всех результатов:

(1.32)

Рассеяние по столбцам , ,.., относительно общего среднего не зависит от фактора В, так как все уровни факторов В усреднены. Это рассеяние связано с влиянием фактора А и случайного фактора А. Так как дисперсия среднего в m раз меньше дисперсии единичного измерения, имеем:

(1.33)

В свою очередь рассеяние в средних по строчкам не зависит от фактора А и связано с влиянием фактора В:

(1.34)

Равенства (1.33) и (1.34) позволяет оценить влияние факторов А и В, если известна оценка дисперсии . Чтобы оценить фактор случайности при отсутствии параллельных наблюдений, поступим следующим образом. Найдем дисперсию наблюдений по i-му столбцу:

(1.35)

Эта дисперсия обусловлена влиянием фактора В и фактор случайности

Равенство станет более точным, если вместо использовать средневзвешенную дисперсию по всем столбцам:

(1.36)

Вычитая (11.35) из (11.34), получим

(1.37)

Отсюда

(1.38)

Обозначим полученную оценку (11.38) для дисперсии через . Число степеней свободы равно (k-1)(m-1). Введем также следующее обозначение:

(1.39)

(1.40)

Величины и можно считать выборочными дисперсиями с (k-1) и (m-1) степеней свободы соответственно. проверяют нулевые гипотезы о незначимости влияния фактора А и В по критерию Фишера. Если дисперсионное отношение

(1.41)

принимается гипотеза Н₀: α_i=0. Если

(1.42)

нулевая гипотез отвергается. и влияние фактора А считается значимым. Аналогично, если

(1.43)

принимается гипотеза Н₀: β_i=0. при справедливости неравенства

(1.44)

влияние фактора В считается значимым. при проверке нулевых гипотез односторонний критерий Фишера, так как альтернативой равенства служит неравенство при проведении дисперсионного анализа в условиях линейной модели (1.29) удобно использовать следующий алгоритм расчета. Находят: 1. итоги по столбцам

(1.45)

2. итоги по строкам

(1.46)

3. сумму квадратов всех наблюдений

(1.47)

4. сумму квадратов итогов по столбцам, деленную на число наблюдений в столбце,

(1.48)

5. сумму квадратов итогов по строкам, деленную на число наблюдений в строке

(1.49)

6. квадрат общего итога, деленный на число всех наблюдений (корректирующий член),

(1.50)

7. сумму квадратов столбца

(1.51)

8. сумму квадратов для строки

(1.52)

9. общую сумму квадратов, равную разнице между суммой квадратов всех наблюдений и корректирующим членом

(1.53)

10. остаточную сумму квадратов

(1.54)

11. дисперсию

(1.55)

12. дисперсию

(1.56)

13. дисперсию

(1.57)

Результаты расчета можно представить в виде таблицы дисперсионного анализа.

Таблицы №4.

Двухфакторный дисперсионный анализ (без повторениями опытов).

Источник дисперсии	Число степеней свободы	Сумма квадратов	Средний квадрат	Математическое ожидание среднего квадрата
А	k-1
В	m-1
Остаток	(k-1)(m-1)
Общая сумма	km-1		-	-

Установив при помощи дисперсионного анализа значимость влияния данного фактора, выясним затем при помощи критерия Стьюдента или рангового критерия Дункана, какие именно средние значения y различны.

Линейная модель (1.29) справедлива, если между факторами А и В нет взаимодействия. В противном случае взаимодействию как фактору присуща своя дисперсия . Взаимодействие АВ, служит мерой того, насколько влияние фактора А зависит от уровня В, и наоборот, насколько влияние фактора В зависит от уровня А. В приведенном алгоритме при наличии взаимодействия между факторами , как составная часть, входит в дисперсию . Выделить можно только при наличии параллельных наблюдений.

Пусть при каждом сочетании уровней факторов А и В производится n параллельных опытов. Так, в таблице №2 в ячейке, образованной пересечением i-го столбца и j-й строки целая серия наблюдений y_ij1, y_ij2,…, y_ijn. Сохраним обозначение за средним результатом в ячейке. Выборочная дисперсия результатов в каждой ячейке

(1.58)

имеет n-1 степеней свободы. Если выборочные дисперсии по всем ячейкам однородны, их можно усреднить и использовать полученную средневзвешенную дисперсию

(1.59)

в качестве оценки дисперсии воспроизводимости σ². Число степеней свободы равно mk(n-1). Более удобная формула для вычисления дисперсии воспроизводимости

(1.60)

где

- сумма наблюдений в ij-й ячейке.

При проведении дисперсионного анализа при нелинейной модели удобно использовать следующий алгоритм расчета. По таблице №2 находят: 1. суммы наблюдений в каждой ячейке

(1.61)

2. квадрат сумм наблюдений в каждой ячейке

(1.62)

3.итоги по столбцам

(1.63)

4. итоги по строкам

(1.64)

5. сумму всех наблюдений (общий итог)

(1.65)

6. сумму квадратов всех наблюдений

(1.66)

7. сумму квадратов итогов по столбцам, деленную на число наблюдений в строке

(1.67)

8. сумму квадратов по итогам по строкам, деленную на число наблюдений в строке