Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Основы дисперсионного анализа

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

(ГОУВПО «ВГТУ»)

___________________Инженерно-экономический___________________

(факультет)

Кафедра__экономики и управления на предприятии машиностроении___

КУРСОВАЯ РАБОТА

по дисциплине «Теория вероятностей и математическая статистика».

Тема «Основы дисперсионного анализа».

Разработал(а) студент(ка) гр. Э-115 1234567890

Подпись, дата Инициалы, фамилия

Руководитель 1234567890

Подпись, дата Инициалы, фамилия

Защищена ___________________ Оценка _____________________________

2012

Содержание

Введение

1 Основные понятия дисперсионного анализа.

2 Модели дисперсионного анализа.

2.1Случайная модель

2.2Детерминированная модель

2.3Смешанная модель

3 Формула разложения дисперсии

4 Дисперсионный анализ

4.1 Однофакторный анализ

4.2Двухфакторный анализ

Статистическая обработка результатов измерений

Заключение

Список литературы

Введение

Статистические дисциплины играют важную роль в системе экономического образования. Для общеэкономических специальностей, статистика является основой для разработки и совершенствования методов экономического анализа. Сама же статистика - самостоятельная общественная наука, имеющая свой предмет и метод исследования. Понятие статистика происходит от латинского слова status, которое в переводе, означает - положение, состояние, порядок явлений. Эта наука, изучающая положение дел в государстве. Главная её задача это сбор цифровых данных, их обобщение и переработка.

Математическая статистика – это наука, занимающаяся методами обработки экспериментальных данных, которая решает следующие задачи:

1) систематизировать полученный статистический материал;

2) на основании полученных экспериментальных данных оценить интересующие нас числовые характеристики наблюдаемой случайной величины;

3) определить число опытов, достаточное для получения достоверных результатов при минимальных ошибках измерения.

Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две случайные величины некоррелированы (т.е. не связаны между собой) и т.д. В результате проверки правдоподобия гипотезы она либо отбрасывается, как противоречащая опытным данным, либо принимается, как приемлемая. Таким образом, математическая статистика помогает экспериментатору лучше разобраться в полученных опытных данных, оценить, значимы или нет определенные наблюденные факты, принять или отбросить те или иные гипотезы о природе рассматриваемого явления.

Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x₁(j), x₂(j), … , x_n(j)), где j – номер станка, j = 1, 2, …, k, а n – объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределениеN(m(j), σ²) с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [19].

Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

H₀: m(1) = m(2) = … = m(k).

В дисперсионном анализе разработаны методы проверки подобных гипотез. Теория дисперсионного анализа и расчетные формулы рассмотрены в специальной литературе [20].

Гипотезу Н₀проверяют против альтернативной гипотезы Н₁, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:

(7)

где s²– выборочная дисперсия в объединенной выборке, т.е.

Далее, s²(j) – выборочная дисперсия в j-ой группе,

Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,

Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н₀в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), σ²) с одной и той же дисперсией. При справедливости Н₀первое слагаемое в правой части формулы (7), деленное на σ², имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на σ², также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н₀принимается, если F < F_1-α, и отвергается в противном случае, где F_1-α– квантиль порядка 1-α распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н₁величина F безгранично увеличивается при росте объема выборок n. ЗначенияF_1-αберут из соответствующих таблиц [8].

Разработаны непараметрические методы решения классических задач дисперсионного анализа [19], в частности, проверки гипотезы Н₀.

Статистическая обработка результатов измерений.

Практическая часть

ИДЗ-19.1

а)Располагаем значения результатов эксперимента в порядке возрастания, то есть записываем вариационный ряд.

Таблица 1. Вариационный ряд

0,2	0,3	0,4	0,5	0,7	0,8	1	1,1	1,2	1,4
1,7	1,8	1,9	2,1	2,2	2,3	2,4	2,5	2,6	2,9
3,1	3,2	3,3	3,4	3,6	3,7	3,8	4,2	4,3	4,4
4,4	4,5	4,6	4,7	4,7	4,8	4,9	5	5,1	5,2
5,3	5,5	5,6	5,7	5,7	5,8	5,9	5,9	6	6,1
6,2	6,2	6,3	6,4	6,5	6,8	6,9	7	7,1	7,2
7,3	7,3	7,4	7,5	7,6	7,7	7,8	7,9	8,1	8,2
8,3	8,4	8,6	8,7	8,8	8,9	9	9,1	9,2	9,4
9,5	9,6	9,7	9,9	10	10,1	10,2	10,3	11	10,9
11,1	11,2	11,3	11,4	11,5	11,6	11,7	11,8	12	11,9

б) находим размах варьирования

ω=х_max-x_min=11,9-0,2=11,7;

По формуле h=, -число интервалов, вычисляем длин частичного интервала h=11,7/9=1,3. В качестве границы первого интервала выбираем значение x_min. Тогда границы следующих частичных интервалов вычисляем по формуле x_min+dh, d= от 1 до . Находим середины интервалов по формуле х’_i=(x_i +x_i+1)/2. Подсчитываем число значений результатов эксперимента, попавших в каждый интервал, то есть находим частоты интервалов n_i. После вычисляем относительные частоты W_i=n_i/n, где n=100 и их плотности W_i/h. Все полученные результаты сводим в таблицу 2.

Таблица 2. Полученные результаты эксперимента.

номер частичного интервала li	Границы интервала xi -xi+1	Середина интервала х’i=(xi +xi+1)/2	частота интервала ni	относительная частота Wi	плотность относительной частоты Wi/h.
1	0,2-1,5	0,85	10	0,1	0,076923077
2	1,5-2,8	2,15	9	0,09	0,069230769
3	2,8-4,1	3,45	8	0,08	0,061538462
4	4,1-5,4	4,75	14	0,14	0,107692308
5	5,4-6,7	6,05	14	0,14	0,107692308
6	6,7-8	7,35	13	0,13	0,1
7	8-9,3	8,65	11	0,11	0,084615385
8	9,3-10,6	9,95	10	0,1	0,076923077
9	10,6-11,9	11,25	11	0,11	0,084615385
∑	_	_	100	_	_

в) Строим полигон частот и гистограмму относительных частот (рисунок 1 и рисунок 2 соответственно; масштабы на осях выбираем разные)

Рисунок 1. Полигон частот.

Рисунок 2.Гистограмма относительных частот.

Находим значения эмпирической функции распределения F*(x)=n_x/n, где

n_x- число вариант, меньших х;

n-объем выборки;

Результаты сводим в таблицу 3.

Таблица 3. Значения эмпирической функции распределения.

F(0,2)	0
F(1,5)	0,1
F(2,8)	0,19
F(4,1)	0,31
F(5,4)	0,44
F(6,7)	0,6
F(8)	0,71
F(9,3)	0,82
F(10,6)	0,92
F(11,9)	1

Рисунок 4. График эмпирической функции распределения.

г) Находим выборочное среднее

Х=

и выборочную дисперсию

D_в= = – х².

Для этого составляем расчетную таблицу 4.

Таблица 4.Расчетная таблица.

mi	Границы интервала xi ;xi+1	Середина интервала х’i	частота интервала ni	ni*х’i	(х’i)2	ni*(х’i)2
1	0,2-1,5	0,85	10	8,5	0,7225	7,225
2	1,5-2,8	2,15	9	19,35	4,6225	41,6025
3	2,8-4,1	3,45	8	27,6	11,9025	95,22
4	4,1-5,4	4,75	14	66,5	22,5625	315,875
5	5,4-6,7	6,05	14	84,7	36,6025	512,435
6	6,7-8	7,35	13	95,55	54,0225	702,2925
7	8-9,3	8,65	11	95,15	74,8225	823,0475
8	9,3-10,6	9,95	10	99,5	99,0025	990,025
9	10,6-11,9	11,25	11	123,75	126,563	1392,188
∑	_	_	100	620,6	_	4879,91

Из нее получаем:

х=620,6/100=6,206;

D_в= 4879,91/100 – (6,206)² = 10,284664;

σ_в=₌ 3,206971157.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, а исправленная дисперсия - несмещенной.

D_в = * D_в = 100/99 *10,284664=10,38854949;

σ_в=₌3,206971157;

д) Согласно критерию Пирсона, сравниваем эмпирические и теоретические частоты. Эмпирические частоты даны, следовательно, необходимо рассчитать теоретические частоты. Для этого пронумеруем Х, то есть перейдем к СВ z=(х-х)*σ_в и вычислим концы интервалов:z_i=(x_i-x)/σ_в, z_i+1 = (x_i+1–x)/σ_в, причем наименьшее значение z, то есть z1, положим стремящимся к минус бесконечности, а наибольшее к плюс бесконечности. Результаты сводим в таблицу 5.

Таблица 5.Результаты расчетов

i	Границы интервала xi; xi+1		xi-x	xi+1-x	Границы интервала (zi; zi+1)
i	xi	xi+1	xi-x	xi+1-x	zi=(xi-x)/σв	zi+1=(xi+1-x)/σв
1	0,2	1,5		-4,706		-1,47
2	1,5	2,8	-4,706	-3,406	-1,47	-1,06
3	2,8	4,1	-3,406	-2,106	-1,06	-0,66
4	4,1	5,4	-2,106	-0,806	-0,66	-0,25
5	5,4	6,7	-0,806	0,494	-0,25	0,15
6	6,7	8	0,494	1,794	0,15	0,56
7	8	9,3	1,794	3,094	0,56	0,96
8	9,3	10,6	3,094	4,394	0,96	1,37
9	10,6	11,9	4,394		1,37

Находим теоретические вероятности Р_i и теоретические частоты n’_i=nP_i= 100P_i. Составим расчетную таблицу 6.

Таблица 6.Расчетная таблица.

i	Границы интервала zi; zi+1		Ф( zi)	Ф( zi+1)	Pi =Ф( zi+1)-Ф( zi)	n'i=100Pi
i	zi	zi+1	Ф( zi)	Ф( zi+1)	Pi =Ф( zi+1)-Ф( zi)	n'i=100Pi
1		-1,47	-0,5	-0,4292	0,0708	7,08
2	-1,47	-1,06	-0,4292	-0,3554	0,0738	7,38
3	-1,06	-0,66	-0,3554	-0,2454	0,11	11
4	-0,66	-0,25	-0,2454	-0,0987	0,1467	14,67
5	-0,25	0,15	-0,0987	0,0596	0,1583	15,83
6	0,15	0,56	0,0596	0,2123	0,1527	15,27
7	0,56	0,96	0,2123	0,3315	0,1192	11,92
8	0,96	1,37	0,3315	0,4147	0,0832	8,32
9	1,37		0,4147	0,5	0,0853	8,53
∑					1	100

Вычислим наблюдаемое значение критерия Пирсона. Для этого составим таблицу расчетов №7. Последние два столбца служат для контроля вычислений по формуле

χ²_набл = – n.

Таблица 7.Значения расчетов

i	ni	n'i	ni-n'i	(ni-n'i)^2	(ni-n'i)^2 /n'i	n i^2	n i^2/n'i
1	10	7,08	2,92	8,5264	1,2043	100	14,1243
2	9	7,38	1,62	2,6244	0,3556	81	10,9756
3	8	11	-3	9	0,8182	64	5,8182
4	14	14,67	-0,67	0,4489	0,0306	196	13,3606
5	14	15,83	-1,83	3,3489	0,2116	196	12,3816
6	13	15,27	-2,27	5,1529	0,3375	169	11,0675
7	11	11,92	-0,92	0,8464	0,0710	121	10,1510
8	10	8,32	1,68	2,8224	0,3392	100	12,0192
9	11	8,53	2,47	6,1009	0,7152	121	14,1852
Σ	100	100		38,8712	4,0832	1148	104,0832

Произведем контроль: –n = =104,0832 -100=4,0832. По таблице критических точек распределения χ², уровню значимости a=0,025 и числу степеней свободы k= l – 3= 9 - 3= 6 (l - число интервалов) находим χ²_кр= 14,4.

Так как χ²_набл< χ²_кр, то гипотеза Но о нормальном распределении генеральной совокупности принимается.

е) Если СВ Х генеральной совокупности распределена нормально, то с надежностью γ можно утверждать, что математическое ожидание а СВ Х покрывается доверительным интервалом (х - t_γ; х + t_γ), где t_γ=δ- точность оценки. В нашем случае х=6,206; σ_в = 3,20697; n=100. Из приложения 4 для γ=0,95 находим t_γ=1,984 и δ=Доверительный интервал для а будет (5,5697;6,8423). Доверительный интервал, покрывающий среднее квадратичное отклонение σ с заданной надежностью γ (σ_в(1-q); σ_в(1+q)), где q находим по данным γ и n из приложения 9. При γ=0,95 и n=100 имеем q=0,143 . Доверительным интервалом для σ будет (2,748;3,666).

ИДЗ-19.2

Дана таблица распределения 100 заводов по производственным средствам Х(тыс.ден.ед.) и по суточной выработке Y(т). Известно, что между Х и Y существует линейная корреляционная зависимость.

Таблица 7. Распределение заводов по производственным средствам

	21	21,3	21,6	21,9	22,2	22,5	22,8	23,1	mx
0,9	1	3	2						6
1,05		4	2	3					9
1,2			5	7	6				18
1,35				6	14	9			29
1,5					7	6	7		20
1,65						6	7	5	18
my	1	7	9	16	27	21	14	5	100

а) Для подсчета числовых характеристик: выборочных средних х и y, выборочных средних квадратичных отклонений s_x и s_y и выборочного корреляционного момента s_xy составим расчетную таблицу 8.

При заполнении таблицы осуществим контроль по строкам и столбцам:

_{=
=}n=100;

=_=135,3;

=_=2221,5;

== 49373,37;

Вычислим выборочные средние x и y, где i от 1 до 6 и j от 1 до 8;

x= = ₌ =1,355;

y= ₌ = 22,215;

Выборочные дисперсии находим по формулам:

Sx² = (_- (_)^2) = 1/99(187,56– 0,01(135,3)²)=0,04;

Sy² = (_- (_{) ) = 1/99(}49373,37– 0,01(2221,5)²)= 0,23;

Sx≈ =0,2;

Sy≈ =0,48;

Корреляционный момент вычисляем по формуле:

Sxy = ( - (_{)() = 1/99(}3014,505– 0,01(135,3*2221,5)) =0,07;

Оценкой теоретической линии регрессии является эмпирическая линия регрессии, уравнение которой имеет вид:

y= y + r_xy (x- x), где

r_xy = = ;

составим уравнение эмпирической линии регрессии y на х,

y = 22,215+ 0,73(x –1,355),

y= 22,215+ 1,752(x-494,7); y=19,84+1,752x;

б) Строим линию регрессии и разные точки (x_i; y_j).

Таблица 9. Расчетная таблица для графика

х
Y

Заключение

Данная курсовая работа посвящена теории вероятностей и математической статистики. Мы изучили такие явления как доверительные интервалы и интервальные оценки параметров распределения. Произвели статистическую обработку результатов измерений, выполнили два индивидуальных задания. Приобретенный навык нам понадобится не только на практических занятиях в университете, но и в жизни, будущей профессии экономиста.