Основы дисперсионного анализа
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»
(ГОУВПО «ВГТУ»)
___________________Инженерно-
(факультет)
Кафедра__экономики и управления на предприятии машиностроении___
КУРСОВАЯ РАБОТА
по дисциплине «Теория вероятностей и математическая статистика».
Тема «Основы дисперсионного анализа».
Разработал(а) студент(ка) гр. Э-115 1234567890
Подпись, дата Инициалы, фамилия
Руководитель
Подпись, дата Инициалы, фамилия
Защищена ___________________ Оценка _____________________________
2012
Содержание
Введение
1 Основные понятия
2 Модели дисперсионного анализа.
2.1Случайная модель
2.2Детерминированная модель
2.3Смешанная модель
3 Формула разложения дисперсии
4 Дисперсионный анализ
4.1 Однофакторный анализ
4.2Двухфакторный анализ
Статистическая обработка результатов измерений
Заключение
Список литературы
Введение
Статистические дисциплины играют важную роль в системе экономического образования. Для общеэкономических специальностей, статистика является основой для разработки и совершенствования методов экономического анализа. Сама же статистика - самостоятельная общественная наука, имеющая свой предмет и метод исследования. Понятие статистика происходит от латинского слова status, которое в переводе, означает - положение, состояние, порядок явлений. Эта наука, изучающая положение дел в государстве. Главная её задача это сбор цифровых данных, их обобщение и переработка.
Математическая статистика – это наука, занимающаяся методами обработки экспериментальных данных, которая решает следующие задачи:
1) систематизировать полученный статистический материал;
2) на основании полученных экспериментальных данных оценить интересующие нас числовые характеристики наблюдаемой случайной величины;
3) определить число опытов, достаточное для получения достоверных результатов при минимальных ошибках измерения.
Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две случайные величины некоррелированы (т.е. не связаны между собой) и т.д. В результате проверки правдоподобия гипотезы она либо отбрасывается, как противоречащая опытным данным, либо принимается, как приемлемая. Таким образом, математическая статистика помогает экспериментатору лучше разобраться в полученных опытных данных, оценить, значимы или нет определенные наблюденные факты, принять или отбросить те или иные гипотезы о природе рассматриваемого явления.
3.
Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j – номер станка, j = 1, 2, …, k, а n – объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределениеN(m(j), σ2) с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [19].
Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы
H0: m(1) = m(2) = … = m(k).
В
дисперсионном анализе
Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:
где s2 – выборочная дисперсия в объединенной выборке, т.е.
Далее, s2(j) – выборочная дисперсия в j-ой группе,
Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,
Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), σ2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на σ2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на σ2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина
имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если F < F1-α, и отвергается в противном случае, где F1-α – квантиль порядка 1-α распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. ЗначенияF1-α берут из соответствующих таблиц [8].
Разработаны непараметрические методы решения классических задач дисперсионного анализа [19], в частности, проверки гипотезы Н0.
Статистическая обработка
Практическая часть
ИДЗ-19.1
а)Располагаем значения результатов эксперимента в порядке возрастания, то есть записываем вариационный ряд.
Таблица 1. Вариационный ряд
0,2 |
0,3 |
0,4 |
0,5 |
0,7 |
0,8 |
1 |
1,1 |
1,2 |
1,4 |
1,7 |
1,8 |
1,9 |
2,1 |
2,2 |
2,3 |
2,4 |
2,5 |
2,6 |
2,9 |
3,1 |
3,2 |
3,3 |
3,4 |
3,6 |
3,7 |
3,8 |
4,2 |
4,3 |
4,4 |
4,4 |
4,5 |
4,6 |
4,7 |
4,7 |
4,8 |
4,9 |
5 |
5,1 |
5,2 |
5,3 |
5,5 |
5,6 |
5,7 |
5,7 |
5,8 |
5,9 |
5,9 |
6 |
6,1 |
6,2 |
6,2 |
6,3 |
6,4 |
6,5 |
6,8 |
6,9 |
7 |
7,1 |
7,2 |
7,3 |
7,3 |
7,4 |
7,5 |
7,6 |
7,7 |
7,8 |
7,9 |
8,1 |
8,2 |
8,3 |
8,4 |
8,6 |
8,7 |
8,8 |
8,9 |
9 |
9,1 |
9,2 |
9,4 |
9,5 |
9,6 |
9,7 |
9,9 |
10 |
10,1 |
10,2 |
10,3 |
11 |
10,9 |
11,1 |
11,2 |
11,3 |
11,4 |
11,5 |
11,6 |
11,7 |
11,8 |
12 |
11,9 |
б) находим размах варьирования
ω=хmax-xmin=11,9-0,2=11,7;
По формуле h=, -число интервалов, вычисляем длин частичного интервала h=11,7/9=1,3. В качестве границы первого интервала выбираем значение xmin. Тогда границы следующих частичных интервалов вычисляем по формуле xmin+dh, d= от 1 до . Находим середины интервалов по формуле х’i=(xi +xi+1)/2. Подсчитываем число значений результатов эксперимента, попавших в каждый интервал, то есть находим частоты интервалов ni. После вычисляем относительные частоты Wi=ni/n, где n=100 и их плотности Wi/h. Все полученные результаты сводим в таблицу 2.
Таблица 2. Полученные результаты эксперимента.
номер частичного интервала li |
Границы интервала xi -xi+1 |
Середина интервала х’i=(xi +xi+1)/2 |
частота интервала ni |
относительная частота Wi |
плотность относительной частоты Wi/h. |
1 |
0,2-1,5 |
0,85 |
10 |
0,1 |
0,076923077 |
2 |
1,5-2,8 |
2,15 |
9 |
0,09 |
0,069230769 |
3 |
2,8-4,1 |
3,45 |
8 |
0,08 |
0,061538462 |
4 |
4,1-5,4 |
4,75 |
14 |
0,14 |
0,107692308 |
5 |
5,4-6,7 |
6,05 |
14 |
0,14 |
0,107692308 |
6 |
6,7-8 |
7,35 |
13 |
0,13 |
0,1 |
7 |
8-9,3 |
8,65 |
11 |
0,11 |
0,084615385 |
8 |
9,3-10,6 |
9,95 |
10 |
0,1 |
0,076923077 |
9 |
10,6-11,9 |
11,25 |
11 |
0,11 |
0,084615385 |
∑ |
_ |
_ |
100 |
_ |
_ |
в) Строим полигон частот и гистограмму относительных частот (рисунок 1 и рисунок 2 соответственно; масштабы на осях выбираем разные)
Рисунок 1. Полигон частот.
Рисунок 2.Гистограмма относительных частот.
Находим значения эмпирической
функции распределения F*(x)=nx
nx- число вариант, меньших х;
n-объем выборки;
Результаты сводим в таблицу 3.
Таблица 3. Значения эмпирической функции распределения.
F(0,2) |
0 |
F(1,5) |
0,1 |
F(2,8) |
0,19 |
F(4,1) |
0,31 |
F(5,4) |
0,44 |
F(6,7) |
0,6 |
F(8) |
0,71 |
F(9,3) |
0,82 |
F(10,6) |
0,92 |
F(11,9) |
1 |
Рисунок 4. График эмпирической функции распределения.
г) Находим выборочное среднее
Х=
и выборочную дисперсию
Dв= = – х2.
Для этого составляем расчетную таблицу 4.
Таблица 4.Расчетная таблица.
mi |
Границы интервала xi ;xi+1 |
Середина интервала х’i |
частота интервала ni |
ni*х’i |
(х’i)2 |
ni*(х’i)2 |
1 |
0,2-1,5 |
0,85 |
10 |
8,5 |
0,7225 |
7,225 |
2 |
1,5-2,8 |
2,15 |
9 |
19,35 |
4,6225 |
41,6025 |
3 |
2,8-4,1 |
3,45 |
8 |
27,6 |
11,9025 |
95,22 |
4 |
4,1-5,4 |
4,75 |
14 |
66,5 |
22,5625 |
315,875 |
5 |
5,4-6,7 |
6,05 |
14 |
84,7 |
36,6025 |
512,435 |
6 |
6,7-8 |
7,35 |
13 |
95,55 |
54,0225 |
702,2925 |
7 |
8-9,3 |
8,65 |
11 |
95,15 |
74,8225 |
823,0475 |
8 |
9,3-10,6 |
9,95 |
10 |
99,5 |
99,0025 |
990,025 |
9 |
10,6-11,9 |
11,25 |
11 |
123,75 |
126,563 |
1392,188 |
∑ |
_ |
_ |
100 |
620,6 |
_ |
4879,91 |
Из нее получаем:
х=620,6/100=6,206;
Dв = 4879,91/100 – (6,206)2 = 10,284664;
σв= = 3,206971157.
Выборочная дисперсия является смещенной оценкой генеральной дисперсии, а исправленная дисперсия - несмещенной.
Dв = * Dв = 100/99 *10,284664=10,38854949;
σв= =3,206971157;
д) Согласно критерию Пирсона, сравниваем эмпирические и теоретические частоты. Эмпирические частоты даны, следовательно, необходимо рассчитать теоретические частоты. Для этого пронумеруем Х, то есть перейдем к СВ z=(х-х)*σв и вычислим концы интервалов:zi=(xi-x)/σв, zi+1 = (xi+1 –x)/σв, причем наименьшее значение z, то есть z1, положим стремящимся к минус бесконечности, а наибольшее к плюс бесконечности. Результаты сводим в таблицу 5.
Таблица 5.Результаты расчетов
i |
Границы интервала xi; xi+1 |
xi-x |
xi+1-x |
Границы интервала (zi; zi+1) | ||
xi |
xi+1 |
zi=(xi-x)/σв |
zi+1=(xi+1-x)/σв | |||
1 |
0,2 |
1,5 |
-4,706 |
-1,47 | ||
2 |
1,5 |
2,8 |
-4,706 |
-3,406 |
-1,47 |
-1,06 |
3 |
2,8 |
4,1 |
-3,406 |
-2,106 |
-1,06 |
-0,66 |
4 |
4,1 |
5,4 |
-2,106 |
-0,806 |
-0,66 |
-0,25 |
5 |
5,4 |
6,7 |
-0,806 |
0,494 |
-0,25 |
0,15 |
6 |
6,7 |
8 |
0,494 |
1,794 |
0,15 |
0,56 |
7 |
8 |
9,3 |
1,794 |
3,094 |
0,56 |
0,96 |
8 |
9,3 |
10,6 |
3,094 |
4,394 |
0,96 |
1,37 |
9 |
10,6 |
11,9 |
4,394 |
1,37 |
||
Находим теоретические вероятности Рi и теоретические частоты n’i =nPi= 100Pi. Составим расчетную таблицу 6.
Таблица 6.Расчетная таблица.
i |
Границы интервала zi; zi+1 |
Ф( zi) |
Ф( zi+1) |
Pi =Ф( zi+1)-Ф( zi) |
n'i=100Pi | |
zi |
zi+1 | |||||
1 |
-1,47 |
-0,5 |
-0,4292 |
0,0708 |
7,08 | |
2 |
-1,47 |
-1,06 |
-0,4292 |
-0,3554 |
0,0738 |
7,38 |
3 |
-1,06 |
-0,66 |
-0,3554 |
-0,2454 |
0,11 |
11 |
4 |
-0,66 |
-0,25 |
-0,2454 |
-0,0987 |
0,1467 |
14,67 |
5 |
-0,25 |
0,15 |
-0,0987 |
0,0596 |
0,1583 |
15,83 |
6 |
0,15 |
0,56 |
0,0596 |
0,2123 |
0,1527 |
15,27 |
7 |
0,56 |
0,96 |
0,2123 |
0,3315 |
0,1192 |
11,92 |
8 |
0,96 |
1,37 |
0,3315 |
0,4147 |
0,0832 |
8,32 |
9 |
1,37 |
0,4147 |
0,5 |
0,0853 |
8,53 | |
∑ |
1 |
100 | ||||
Вычислим наблюдаемое значение критерия Пирсона. Для этого составим таблицу расчетов №7. Последние два столбца служат для контроля вычислений по формуле
χ2набл = – n.
Таблица 7.Значения расчетов
i |
ni |
n'i |
ni-n'i |
(ni-n'i)^2 |
(ni-n'i)^2 /n'i |
n i^2 |
n i^2/n'i |
1 |
10 |
7,08 |
2,92 |
8,5264 |
1,2043 |
100 |
14,1243 |
2 |
9 |
7,38 |
1,62 |
2,6244 |
0,3556 |
81 |
10,9756 |
3 |
8 |
11 |
-3 |
9 |
0,8182 |
64 |
5,8182 |
4 |
14 |
14,67 |
-0,67 |
0,4489 |
0,0306 |
196 |
13,3606 |
5 |
14 |
15,83 |
-1,83 |
3,3489 |
0,2116 |
196 |
12,3816 |
6 |
13 |
15,27 |
-2,27 |
5,1529 |
0,3375 |
169 |
11,0675 |
7 |
11 |
11,92 |
-0,92 |
0,8464 |
0,0710 |
121 |
10,1510 |
8 |
10 |
8,32 |
1,68 |
2,8224 |
0,3392 |
100 |
12,0192 |
9 |
11 |
8,53 |
2,47 |
6,1009 |
0,7152 |
121 |
14,1852 |
Σ |
100 |
100 |
38,8712 |
4,0832 |
1148 |
104,0832 |
Произведем контроль: –n = =104,0832 -100=4,0832. По таблице критических точек распределения χ2, уровню значимости a=0,025 и числу степеней свободы k= l – 3= 9 - 3= 6 (l - число интервалов) находим χ2кр= 14,4.
Так как χ2набл< χ2кр, то гипотеза Но о нормальном распределении генеральной совокупности принимается.
е) Если СВ Х генеральной
совокупности распределена нормально,
то с надежностью γ можно
ИДЗ-19.2
Дана таблица распределения 100 заводов по производственным средствам Х(тыс.ден.ед.) и по суточной выработке Y(т). Известно, что между Х и Y существует линейная корреляционная зависимость.
Таблица 7. Распределение заводов по производственным средствам
21 |
21,3 |
21,6 |
21,9 |
22,2 |
22,5 |
22,8 |
23,1 |
mx | |
0,9 |
1 |
3 |
2 |
6 | |||||
1,05 |
4 |
2 |
3 |
9 | |||||
1,2 |
5 |
7 |
6 |
18 | |||||
1,35 |
6 |
14 |
9 |
29 | |||||
1,5 |
7 |
6 |
7 |
20 | |||||
1,65 |
6 |
7 |
5 |
18 | |||||
my |
1 |
7 |
9 |
16 |
27 |
21 |
14 |
5 |
100 |
а) Для подсчета числовых характеристик: выборочных средних х и y, выборочных средних квадратичных отклонений sx и sy и выборочного корреляционного момента sxy составим расчетную таблицу 8.
При заполнении таблицы осуществим контроль по строкам и столбцам:
= = n=100;
==135,3;
==2221,5;
== 49373,37;
Вычислим выборочные средние x и y, где i от 1 до 6 и j от 1 до 8;
x= = = =1,355;
y= = = 22,215;
Выборочные дисперсии находим по формулам:
Sx2 = ( - ()^2) = 1/99(187,56– 0,01(135,3)2)=0,04;
Sy2 = ( - () ) = 1/99(49373,37– 0,01(2221,5)2)= 0,23;
Sx≈ =0,2;
Sy≈ =0,48;
Корреляционный момент вычисляем по формуле:
Sxy = ( - ()() = 1/99(3014,505– 0,01(135,3*2221,5)) =0,07;
Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид:
y= y + rxy (x- x), где
rxy = = ;
составим уравнение
y = 22,215+ 0,73(x –1,355),
y= 22,215+ 1,752(x-494,7); y=19,84+1,752x;
б) Строим линию регрессии и разные точки (xi; yj).
Таблица 9. Расчетная таблица для графика
х |
||
Y |
Заключение
Данная курсовая работа посвящена теории вероятностей и математической статистики. Мы изучили такие явления как доверительные интервалы и интервальные оценки параметров распределения. Произвели статистическую обработку результатов измерений, выполнили два индивидуальных задания. Приобретенный навык нам понадобится не только на практических занятиях в университете, но и в жизни, будущей профессии экономиста.