Основы дисперсионного анализа

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО  ОБРАЗОВАНИЯ

«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ  ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

(ГОУВПО «ВГТУ»)

___________________Инженерно-экономический___________________

(факультет)

Кафедра__экономики и управления на предприятии машиностроении___

 

 

КУРСОВАЯ РАБОТА

 

по дисциплине      «Теория вероятностей и математическая статистика».

Тема            «Основы дисперсионного анализа».

 

Разработал(а) студент(ка) гр.                    Э-115           1234567890

Подпись, дата         Инициалы, фамилия

Руководитель                                                             1234567890

Подпись, дата         Инициалы, фамилия

 

Защищена ___________________ Оценка _____________________________

 

 

 

2012

Содержание

Введение

1 Основные понятия дисперсионного  анализа.

2 Модели дисперсионного анализа.

2.1Случайная модель

2.2Детерминированная модель

2.3Смешанная модель

3 Формула разложения дисперсии

4 Дисперсионный анализ

4.1 Однофакторный анализ

4.2Двухфакторный анализ

Статистическая обработка  результатов измерений

Заключение

Список литературы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

  Статистические дисциплины играют важную роль в системе экономического образования. Для общеэкономических специальностей, статистика является основой для разработки и совершенствования методов экономического анализа. Сама же статистика - самостоятельная общественная наука, имеющая свой предмет и метод исследования. Понятие статистика происходит от латинского слова status, которое в переводе, означает - положение, состояние, порядок явлений. Эта наука, изучающая положение дел в государстве. Главная её задача это сбор цифровых данных, их обобщение и переработка.

  Математическая статистика – это наука, занимающаяся методами обработки экспериментальных данных, которая решает следующие задачи:

1) систематизировать полученный статистический материал; 

2) на основании полученных экспериментальных данных оценить интересующие нас числовые характеристики наблюдаемой случайной величины; 

3) определить число опытов, достаточное для получения достоверных результатов при минимальных ошибках измерения. 

  Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две случайные величины некоррелированы (т.е. не связаны между собой) и т.д. В результате проверки правдоподобия гипотезы она либо отбрасывается, как противоречащая опытным данным, либо принимается, как приемлемая. Таким образом, математическая статистика помогает экспериментатору лучше разобраться в полученных опытных данных, оценить, значимы или нет определенные наблюденные факты, принять или отбросить те или иные гипотезы о природе рассматриваемого явления.

 

3.

Дисперсионный анализ применяют для изучения влияния  качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j – номер станка, j = 1, 2, …, k, а n – объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределениеN(m(j), σ2) с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [19].

Проверка  однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

H0: m(1) = m(2) = … = m(k).

В дисперсионном анализе разработаны  методы проверки подобных гипотез. Теория дисперсионного анализа и расчетные  формулы рассмотрены в специальной  литературе [20].

Гипотезу Нпроверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:

   (7)

где s– выборочная дисперсия в объединенной выборке, т.е.

Далее, s2(j) – выборочная дисперсия в j-ой группе,

Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую  дисперсию. Наконец,   - межгрупповая дисперсия,

Область прикладной статистики, связанную с  разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной  выше гипотезы Нв предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), σ2) с одной и той же дисперсией. При справедливости Нпервое слагаемое в правой части формулы (7), деленное на σ2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на σ2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Нпринимается, если F < F1-α, и отвергается в противном случае, где F1-α – квантиль порядка 1-α распределения Фишера с указанными числами степеней свободы.  Такой выбор критической области определяется тем, что при Нвеличина F безгранично увеличивается при росте объема выборок n. ЗначенияF1-α берут из соответствующих таблиц [8].

Разработаны непараметрические методы решения  классических задач дисперсионного анализа [19], в частности, проверки гипотезы Н0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Статистическая обработка результатов  измерений.

Практическая часть

ИДЗ-19.1

а)Располагаем значения результатов  эксперимента в порядке возрастания, то есть записываем вариационный ряд.

Таблица 1. Вариационный ряд

0,2

0,3

0,4

0,5

0,7

0,8

1

1,1

1,2

1,4

1,7

1,8

1,9

2,1

2,2

2,3

2,4

2,5

2,6

2,9

3,1

3,2

3,3

3,4

3,6

3,7

3,8

4,2

4,3

4,4

4,4

4,5

4,6

4,7

4,7

4,8

4,9

5

5,1

5,2

5,3

5,5

5,6

5,7

5,7

5,8

5,9

5,9

6

6,1

6,2

6,2

6,3

6,4

6,5

6,8

6,9

7

7,1

7,2

7,3

7,3

7,4

7,5

7,6

7,7

7,8

7,9

8,1

8,2

8,3

8,4

8,6

8,7

8,8

8,9

9

9,1

9,2

9,4

9,5

9,6

9,7

9,9

10

10,1

10,2

10,3

11

10,9

11,1

11,2

11,3

11,4

11,5

11,6

11,7

11,8

12

11,9


 

б) находим размах варьирования

ω=хmax-xmin=11,9-0,2=11,7;

По формуле h=,  -число интервалов, вычисляем длин частичного интервала h=11,7/9=1,3. В качестве границы первого интервала выбираем значение xmin. Тогда границы следующих частичных интервалов вычисляем по формуле xmin+dh, d= от 1 до . Находим середины интервалов по формуле х’i=(xi +xi+1)/2. Подсчитываем число значений результатов эксперимента, попавших в каждый интервал, то есть находим частоты интервалов ni. После вычисляем относительные частоты Wi=ni/n, где n=100 и их плотности Wi/h. Все полученные результаты сводим в таблицу 2.

 

 

 

 

 

Таблица 2. Полученные результаты эксперимента.

 

номер частичного интервала li

Границы интервала xi -xi+1

Середина интервала х’i=(xi +xi+1)/2

частота интервала ni

относительная частота Wi

плотность относительной  частоты Wi/h.

1

0,2-1,5

0,85

10

0,1

0,076923077

2

1,5-2,8

2,15

9

0,09

0,069230769

3

2,8-4,1

3,45

8

0,08

0,061538462

4

4,1-5,4

4,75

14

0,14

0,107692308

5

5,4-6,7

6,05

14

0,14

0,107692308

6

6,7-8

7,35

13

0,13

0,1

7

8-9,3

8,65

11

0,11

0,084615385

8

9,3-10,6

9,95

10

0,1

0,076923077

9

10,6-11,9

11,25

11

0,11

0,084615385

_

_

100

_

_


 

 

в) Строим полигон частот и гистограмму относительных  частот (рисунок 1 и рисунок 2 соответственно; масштабы на осях выбираем разные)

 

Рисунок 1. Полигон  частот.

 

 

 

Рисунок 2.Гистограмма  относительных частот.

 

 

Находим значения эмпирической функции распределения F*(x)=nx/n, где

nx- число вариант, меньших х;

n-объем выборки;

Результаты сводим в таблицу 3.

Таблица 3. Значения эмпирической функции распределения.

F(0,2)

0

F(1,5)

0,1

F(2,8)

0,19

F(4,1)

0,31

F(5,4)

0,44

F(6,7)

0,6

F(8)

0,71

F(9,3)

0,82

F(10,6)

0,92

F(11,9)

1


 

 

 

 

Рисунок 4. График эмпирической функции распределения.

 

г) Находим выборочное среднее

 

Х=

и выборочную дисперсию

Dв= = – х2.

Для этого составляем расчетную  таблицу 4.

Таблица 4.Расчетная  таблица.

mi

Границы интервала xi ;xi+1

Середина интервала х’i

частота интервала ni

ni*х’i

(х’i)2

ni*(х’i)2

1

0,2-1,5

0,85

10

8,5

0,7225

7,225

2

1,5-2,8

2,15

9

19,35

4,6225

41,6025

3

2,8-4,1

3,45

8

27,6

11,9025

95,22

4

4,1-5,4

4,75

14

66,5

22,5625

315,875

5

5,4-6,7

6,05

14

84,7

36,6025

512,435

6

6,7-8

7,35

13

95,55

54,0225

702,2925

7

8-9,3

8,65

11

95,15

74,8225

823,0475

8

9,3-10,6

9,95

10

99,5

99,0025

990,025

9

10,6-11,9

11,25

11

123,75

126,563

1392,188

_

_

100

620,6

_

4879,91


 

Из нее получаем:

х=620,6/100=6,206;

Dв = 4879,91/100 – (6,206)2 = 10,284664;

σв= = 3,206971157.

Выборочная дисперсия  является смещенной оценкой генеральной  дисперсии, а исправленная дисперсия - несмещенной.

Dв = * Dв = 100/99 *10,284664=10,38854949;

σв= =3,206971157;

д) Согласно критерию Пирсона, сравниваем эмпирические и теоретические  частоты. Эмпирические частоты даны, следовательно, необходимо рассчитать теоретические частоты. Для этого  пронумеруем Х, то есть перейдем к  СВ z=(х-х)*σв и вычислим концы интервалов:zi=(xi-x)/σв,            zi+1 = (xi+1 –x)/σв, причем наименьшее значение z, то есть z1, положим стремящимся к минус бесконечности, а наибольшее к плюс бесконечности. Результаты сводим в таблицу 5.

Таблица 5.Результаты расчетов

 

i

Границы интервала xi; xi+1

xi-x

xi+1-x

Границы интервала (zi; zi+1)

xi

xi+1

zi=(xi-x)/σв

zi+1=(xi+1-x)/σв

1

0,2

1,5

 

-4,706

 

-1,47

2

1,5

2,8

-4,706

-3,406

-1,47

-1,06

3

2,8

4,1

-3,406

-2,106

-1,06

-0,66

4

4,1

5,4

-2,106

-0,806

-0,66

-0,25

5

5,4

6,7

-0,806

0,494

-0,25

0,15

6

6,7

8

0,494

1,794

0,15

0,56

7

8

9,3

1,794

3,094

0,56

0,96

8

9,3

10,6

3,094

4,394

0,96

1,37

9

10,6

11,9

4,394

 

1,37

 

 

Находим теоретические вероятности  Рi и теоретические частоты                    n’i =nPi= 100Pi. Составим расчетную таблицу 6.

Таблица 6.Расчетная  таблица.

i

Границы интервала zi; zi+1

Ф( zi)

Ф( zi+1)

Pi =Ф( zi+1)-Ф( zi)

n'i=100Pi

zi

zi+1

1

 

-1,47

-0,5

-0,4292

0,0708

7,08

2

-1,47

-1,06

-0,4292

-0,3554

0,0738

7,38

3

-1,06

-0,66

-0,3554

-0,2454

0,11

11

4

-0,66

-0,25

-0,2454

-0,0987

0,1467

14,67

5

-0,25

0,15

-0,0987

0,0596

0,1583

15,83

6

0,15

0,56

0,0596

0,2123

0,1527

15,27

7

0,56

0,96

0,2123

0,3315

0,1192

11,92

8

0,96

1,37

0,3315

0,4147

0,0832

8,32

9

1,37

 

0,4147

0,5

0,0853

8,53

       

1

100


 

Вычислим наблюдаемое  значение критерия Пирсона. Для этого  составим таблицу расчетов №7. Последние  два столбца служат для контроля вычислений по формуле 

χ2набл = – n.

 

 

 

 

 

 

 

 

 

 

Таблица 7.Значения расчетов

i

ni

n'i

ni-n'i

(ni-n'i)^2

(ni-n'i)^2 /n'i

n i^2

n i^2/n'i

1

10

7,08

2,92

8,5264

1,2043

100

14,1243

2

9

7,38

1,62

2,6244

0,3556

81

10,9756

3

8

11

-3

9

0,8182

64

5,8182

4

14

14,67

-0,67

0,4489

0,0306

196

13,3606

5

14

15,83

-1,83

3,3489

0,2116

196

12,3816

6

13

15,27

-2,27

5,1529

0,3375

169

11,0675

7

11

11,92

-0,92

0,8464

0,0710

121

10,1510

8

10

8,32

1,68

2,8224

0,3392

100

12,0192

9

11

8,53

2,47

6,1009

0,7152

121

14,1852

Σ

100

100

 

38,8712

4,0832

1148

104,0832


 

 

Произведем контроль: –n = =104,0832 -100=4,0832. По таблице критических точек распределения χ2, уровню значимости a=0,025   и числу степеней свободы k= l – 3= 9 - 3= 6 (l - число интервалов) находим χ2кр= 14,4.

Так как  χ2набл< χ2кр, то гипотеза Но о нормальном распределении генеральной совокупности принимается.

е) Если СВ Х генеральной  совокупности распределена нормально, то с надежностью γ можно утверждать, что математическое ожидание а СВ Х покрывается доверительным интервалом (х - tγ; х + tγ), где tγ=δ- точность оценки. В нашем случае х=6,206; σв = 3,20697; n=100. Из приложения 4 для γ=0,95  находим tγ=1,984  и δ=Доверительный интервал для а будет (5,5697;6,8423). Доверительный интервал, покрывающий среднее квадратичное отклонение σ с заданной надежностью γ (σв(1-q); σв(1+q)), где q находим по данным γ и n из приложения 9. При γ=0,95 и n=100 имеем q=0,143 . Доверительным интервалом для σ будет (2,748;3,666).

 

ИДЗ-19.2

Дана таблица распределения 100 заводов по производственным средствам  Х(тыс.ден.ед.) и по суточной выработке  Y(т). Известно, что между Х и Y существует линейная корреляционная зависимость.

 

Таблица 7. Распределение  заводов по производственным средствам

 

21

21,3

21,6

21,9

22,2

22,5

22,8

23,1

mx

0,9

1

3

2

         

6

1,05

 

4

2

3

       

9

1,2

   

5

7

6

     

18

1,35

     

6

14

9

   

29

1,5

       

7

6

7

 

20

1,65

         

6

7

5

18

my

1

7

9

16

27

21

14

5

100


 

а) Для подсчета числовых характеристик: выборочных средних  х и y, выборочных средних квадратичных отклонений sx и sy и выборочного корреляционного момента sxy составим расчетную таблицу 8.

 

 

 

 

 

 

 

 

При заполнении таблицы осуществим контроль по строкам и столбцам:

= = n=100;

==135,3;

==2221,5;

== 49373,37;

Вычислим выборочные средние  x и y, где i от 1 до 6 и j от 1 до 8;

x= = = =1,355;

y= = = 22,215;

Выборочные дисперсии  находим по формулам:

Sx2 = ( - ()^2) = 1/99(187,56– 0,01(135,3)2)=0,04;

Sy2 = ( - () ) = 1/99(49373,37– 0,01(2221,5)2)= 0,23;

Sx≈ =0,2;

Sy≈ =0,48;

Корреляционный момент вычисляем  по формуле:

Sxy = ( - ()() = 1/99(3014,505– 0,01(135,3*2221,5)) =0,07;

Оценкой теоретической линии  регрессии является эмпирическая линия  регрессии, уравнение которой имеет  вид:

y= y + rxy (x- x), где

rxy = = ;

составим уравнение эмпирической линии регрессии y на х,

y = 22,215+ 0,73(x –1,355),

y= 22,215+ 1,752(x-494,7);  y=19,84+1,752x;

 

б) Строим линию регрессии  и разные точки (xi; yj).

Таблица 9. Расчетная таблица  для графика

х

   

Y

   

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

Заключение

Данная курсовая работа посвящена  теории вероятностей и математической статистики. Мы изучили такие явления  как доверительные интервалы  и интервальные оценки параметров распределения. Произвели статистическую обработку  результатов измерений, выполнили  два индивидуальных задания. Приобретенный  навык нам понадобится не только на практических занятиях в университете, но и в жизни, будущей профессии  экономиста.