Контрольная работа по «Статистический анализ нечисловой информации»

МИНИСТЕРСТВО ОБРАЗОВАНИЯ  И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

 

Федеральное государственное  бюджетное образовательное учреждение

высшего профессионального образования

«Оренбургский государственный университет»

 

Кафедра математических методов и  моделей в экономике

 

 

 

 

 

Индивидуальное задание

по дисциплине «Статистический анализ нечисловой информации»

 

 

Исходные данные: результаты анкетирования на тему: «Ваше отношение к курению»

 

Задание 1. Построить все возможные двухфакторные таблицы сопряженности и провести предварительную обработку результатов анкетирования;

Задание 2. Для всех пар признаков проверить гипотезу об отсутствии связи между ними;

Задание 3. Провести точечное и интервальное оценивание коэффициентов парной связи между признаками. Сделать вывод о тесноте и направлении связи;

Задание 4. С помощью логлинейного анализа исследовать структуру взаимосвязей между тремя дихотомическими признаками:

  • построить насыщенную логлинейную модель;
  • найти нормированные оценки параметров модели;
  • сделать предварительный вывод о значимости параметров модели;
  • если возможно, подобрать иерархическую ненасыщенную логлинейную модель, адекватную экспериментальным данным и при этом содержащую минимальное число параметров;
  • сделать интерпретацию полученной модели.

 

 

 

          Дата выдачи задания « 6 »    сентября   2012г.

          Руководитель               _______________ Чудинова О.С.

          Исполнитель

          студент группы 11Эк(б)Ст  ___________Головкова А.Н.

          Срок защиты работы «  29  »    декабря   2012г.

 

Содержание

 

1. Построение и предварительный  анализ выборочных таблиц сопряженности………………………………………………………………….....4

2. Проверка гипотезы о независимости признаков и характеристика связи………………………………………………………………………………..7

2.1. Анализ и исследование  связи в таблицах сопряженности 2×2……………7

2.2. Анализ и исследование  связи в таблицах сопряженности r×s…………...11

3. Анализ 3-х факторной таблицы сопряженности…………………………..24

3.1. Построение и анализ насыщенной логлинейной модели...………………24

3.2. Построение и анализ  ненасыщенных и иерархических логлинейных моделей…………………………………………………………………………...27

Приложение А……………………………………………………………………32

Приложение Б……………………………………………………………………33

Приложение В……………………………………………………………………35

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Тема вреда курения, влияния его на организм очень актуальна. Актуальность темы заключается в том, что курением охвачено очень большое количество людей, очень остро стоит вопрос курящих. Решение этой проблемы - сложнейшая задача, стоящая не только перед государством, но и обществом. Поэтому тема курения является очень важной для исследования.

Объектом  исследования выступает небольшая группа людей, в основном, жителей города Оренбурга.

Предметом исследования является отношение респондентов к изучаемой проблеме.

Цель -  исследование взаимосвязи между такими признаками, как отношение к курению, курит или не курит человек, влияние курения на здоровье, влияние половозрастных компонентов на отношение к курению и т.д.

Для достижения поставленной цели необходимо решить следующие задачи:

1) на основе собранных данных построить все возможные двухфакторные таблицы сопряженности признаков и провести предварительную обработку результатов;

2) для всех пар признаков проверить гипотезу об их независимости;

3) рассчитать коэффициенты парной связи, доверительные интервалы и на основе расчетов интерпретировать связь между признаками;

4) провести логлинейный анализ взаимосвязей трех дихотомических признаков.

Информационной базой  исследования послужили результаты опроса респондентов на тему «Ваше  отношение к курению». Анкета приведена в приложении А, результаты опроса – в приложении Б.

Для достижения поставленных задач были использованы следующие  общенаучные методы: методы группировки, методы анализа двухфакторных таблиц сопряженности, логлинейный анализ таблиц сопряженности.

В процессе исследования для статистической обработки данных были использованы следующие инструментальные средства: компьютерные программы Мicrosoft Word 2007, Microsoft Excel 2007, STATICTICA 8.

 

 

 

1. Построение и предварительный анализ выбранных таблиц сопряжённости

 

По данным анкеты было опрошено 34 лиц женского пола и 16 человек  мужского пола. Для каждой пары признаков  были составлены таблицы сопряженности.

 

2-х факторные таблицы  сопряженности:

1)  Ваш пол и Курите ли  Вы? (1-3)

                             уj) Курите ли Вы?

                                                            

xi)  Пол

у1) Да

у2)Нет

ni*

х1) Мужской

6

10

16

х2) Женский

9

25

34

n*j

15

35

50


По данным таблицы можно сказать, что 70% из всех опрошенных не курят.

 

2) Ваш пол и Считаете ли Вы, что курение вредит здоровью? (1-5)

                             уj) Вредит ли курение?

xi)  Пол

у1) Да

у2)Нет

ni*

х1) Мужской

13

3

16

х2) Женский

30

4

34

n*j

43

7

50


Проанализировав таблицу, можно заметить, что 86% из респондентов считают, что курение вредит здоровью.

 

3) Курите ли Вы? и Считаете  ли Вы, что курение вредит здоровью? (3-5)

                             уj) Вредит ли курение?      

xi)  Курите ли Вы?

у1) Да

у2)Нет

ni*

х1)да

10

5

15

х2)нет

33

2

35

n*j

43

7

50


Из таблицы видно, что 66% из опрошенных не курят и считают это занятие вредным, 20% - курят, но при этом считаю курение вредным для здоровья.

 

4) Ваш пол и Ваш возраст (1-2)

                             уj) Ваш возраст

xi)  Ваш пол

у1) до 25 лет

у2)25-40лет

у3)после 40 лет

ni*

х1)муж.

8

4

4

16

х2)жен.

15

12

7

34

n*j

23

16

11

50


По данным таблицы, можно утверждать, что из всех опрошенных – 68% женщин и 32% мужчин, причем больше всего (46%) людей  в возрасте до 25 лет.

 

 

 

 

 

 

 

5) Ваш пол и Как Вы относитесь  к курению? (1-4)

                             уj) Отношение к курению

xi)  Ваш пол

у1)полож.

у2)отриц.

у3)безразл.

ni*

х1)муж.

1

13

2

16

х2)жен.

4

25

5

34

n*j

5

38

7

50


По таблице можно судить о  том, что76% из респондентов отрицательно относятся к курению, 10% - положительно и 14% - безразлично.

 

6) Курите ли Вы? и Как Вы  относитесь к курению? (3-4)

                             уj) Отношение к курению

xi)Курите ли Вы?

у1)полож.

у2)отриц.

у3)безразл.

ni*

х1)да

5

6

4

15

х2)нет

-

32

3

35

n*j

5

38

7

50


По данным таблицы можно сказать, что людей, которые бы не курили и  при этом положительно относились бы к курению, нет.

 

7) Ваш возраст и Курите ли  Вы? (2-3)

                             уj) Курите ли Вы?

xi)  Ваш возраст

у1) да

у2) нет

ni*

х1)до 25 лет

6

17

23

х2)25-40 лет

5

11

16

х3) после 40 лет

4

7

11

n*j

15

35

50


Проанализировав таблицу, можно утверждать, что 34% из опрошенных в возрасте до 25 лет и 22% - в возрасте 25-40 лет не курят.

 

8) Ваш возраст и Считаете ли Вы, что курение вредит здоровью? (2-5)

                             уj)Вредит ли кур-е здор-ю?

xi)  Ваш возраст

у1) да

у2) нет

ni*

х1)до 25 лет

20

3

23

х2)25-40 лет

14

2

16

х3) после 40 лет

9

2

11

n*j

43

7

50


На основе данных таблицы можно  заметить, что 40% из всех респондентов в возрасте до 25 лет считают курение вредным.

 

9) Как Вы относитесь к курению?  и Считаете ли Вы, что курение  вредит здоровью? (4-5)

                             уj)Вредит ли кур-е здор-ю?

xi) Отн-е к курению

у1)да

у2)нет

ni*

х1)положительно

2

3

5

х2)отрицательно

35

3

38

х3)безразлично

6

1

7

n*j

43

7

50


Из таблицы видно, что 2% из опрошенных не курят и безразлично относятся  к курению.

 

10) Ваш возраст и Как Вы  относитесь к курению? (2-4)

                             уj)Отнош-е к курению

xi)  Ваш возраст

у1) полож.

у2) отриц.

у3)безразл.

ni*

х1)до 25 лет

3

17

3

23

х2)25-40 лет

1

12

3

16

х3) после 40 лет

1

9

1

11

n*j

5

38

7

50


По данным таблицы можно увидеть, что по 2% из респондентов в возрасте 25-40 лет и после 40 лет положительно относятся к курению.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Проверка гипотезы о независимости признаков и характеристика связи

 

2.1. Анализ и исследование  связи в таблицах сопряженности  2×2

 

Проведен опрос на тему «Ваше  отношение к курению». Объем выборки  составил n=50.

 

1)Фиксированы значения двух признаков: х – Ваш пол (х1 – мужской, х2 – женский), у – Курите ли Вы? ( у1 – да, у2 – нет).

 

Результаты  опроса представлены в виде двухфакторной таблицы сопряженности:

                             уj) Курите ли Вы?

                                                            

xi)  Пол

у1) Да

у2)Нет

ni*

х1) Мужской

6

10

16

х2) Женский

9

25

34

n*j

15

35

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий Пирсона Х2. Статистика критерия имеет вид: Х2 =

Статистика Х2 при справедливости H0 распределяется по закону

V = (r-1)(s-1)=1

 

Рассчитаем теоретические частоты 

=

=

=

=

 

Рассчитаем наблюдаемое  значение статистики Х2

= = +0,14+0,06=0,63

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (0,63<3,8), то гипотеза H0 подтверждается, следовательно, можно сделать вывод, что пол не оказывает значимого влияния на то, курит человек или не курит.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

2) Фиксированы значения двух признаков: х – пол (х1 –мужской, х2 – женский), у – Считаете ли Вы, что курение вредит здоровью? ( у1 – да, у2 – нет).

 

Результаты  опроса представлены в виде двухфакторной таблицы сопряженности:

                             уj) Вредит ли курение?

xi)  Пол

у1) Да

у2)Нет

ni*

х1) Мужской

13

3

16

х2) Женский

30

4

34

n*j

43

7

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как  объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий Пирсона Х2. Статистика критерия имеет вид: Х2 =

Статистика  Х2 при справедливости H0 распределяется по закону

V = (r-1)(s-1)=1

Рассчитаем теоретические частоты 

=

=

=

=

Рассчитаем наблюдаемое значение статистики Х2

= =

Пусть уравнение  значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

= 3,8

 

Вывод: Так как > (3,8>0,44), то гипотеза H0 подтверждается, следовательно, можно сделать вывод, что пол не оказывает значимого влияния на то, вредит ли курение здоровью или нет.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

3) Фиксированы значения двух признаков: х – Курите ли Вы? ( х1 – да, х2 – нет), у – Считаете ли Вы, что курение вредит здоровью?  ( у1 – да, у2 – нет).

 

Результаты  опроса представлены в виде двухфакторной таблицы сопряженности:

                             уj) Вредит ли курение?      

xi)  Курите ли Вы?

у1) Да

у2)Нет

ni*

х1)да

10

5

15

х2)нет

33

2

35

n*j

43

7

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий Пирсона Х2. Статистика критерия имеет вид: Х2 =

Статистика Х2 при справедливости H0 распределяется по закону

V = (r-1)(s-1)=1

 

Рассчитаем теоретические частоты 

=

=

=

=

 

Рассчитаем наблюдаемое  значение статистики Х2

= =

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

= 3,8

Вывод: Так как < (3,8<6,65), то гипотеза H0 отвергается, следовательно, можно сделать вывод, что в зависимости от того, курит человек или нет, он формирует свое мнение о влиянии курения на его здоровье.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

Перейдем к интерпретации  связи.

Рассчитаем коэффициенты связи  х – Курите ли Вы? ( х1 – да, х2 – нет), у – Считаете ли Вы, что курение вредит здоровью?  ( у1 – да, у2 – нет).

 

Меры связи, основанные на статистике :

а) Фи-коэффициент

- связь умеренная;

б) Коэффициент сопряженности Пирсона

- связь умеренная;

в) Коэффициент контингенции

- связь умеренная, отрицательная;

г) Тао-коэффициент  Гудмана и Краскала

- связь слабая

 

Меры связи, основанные на отношении  шансов:

а) Коэффициент  ассоциации

- связь тесная, отрицательная

Рассчитаем доверительные интервалы для коэффициентов связи. Для таблиц сопряженности 2 2 доверительные интервалы рассчитываются только для коэффициента Юла (ассоциации):

, где  , следовательно, с вероятностью коэффициент Юла принадлежит интервалу (-3,38; -0,023);

б) Коэффициент  поллигации

- связь умеренная, отрицательная

в) Отношение  шансов

<1 – связь отрицательная

 

Вывод: в результате проверки гипотезы о независимости признака х – Курите ли Вы? ( х1 – да, х2 – нет) и признака у – Считаете ли Вы, что курение вредит здоровью?  ( у1 – да, у2 – нет) доказано наличие значимой связи между признаками. По большинству коэффициентов связи можно сделать вывод, что эта связь – умеренной силы, отрицательная, т.е. если человек считает, что курение вредит здоровью, то, скорее всего, он не курит.

 

2.2. Анализ и  исследование связи в таблицах  сопряженности r×s

 

4) Рассмотрим 2 категоризованных номинальных признака: х – Ваш пол (х1-мужской, х2- женский), у – Ваш возраст (у1-до 25 лет, у2-25-40 лет, у3-после 40 лет).

 

Результаты опроса представлены в  виде таблицы сопряженности 2 3:

                             уj) Ваш возраст

xi)  Ваш пол

у1) до 25 лет

у2)25-40лет

у3)после 40 лет

ni*

х1)муж.

8

4

4

16

х2)жен.

15

12

7

34

n*j

23

16

11

50


 

Исследование связи между признаками х и у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения  этой связи формируются следующие  гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как  объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические частоты 

= ,36

= ,12

=

=

 

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =0,55

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6>0,55), то гипотеза H0 подтверждается, а следовательно, между признаками х и у не существует связи, то есть пол человека не зависит от его возраста и наоборот.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

5) Рассмотрим 2 категоризованных номинальных признака: х – Ваш пол (х1-мужской, х2- женский), у – Как вы относитесь к курению? (у1-положительно, у2-отрицательно, у3-безразлично).

 

Результаты опроса представлены в  виде таблицы сопряженности 2 3:

                             уj) Отношение к курению

xi)  Ваш пол

у1)полож.

у2)отриц.

у3)безразл.

ni*

х1)муж.

1

13

2

16

х2)жен.

4

25

5

34

n*j

5

38

7

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения  этой связи формируются следующие  гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как  объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика  критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические частоты

=

=

=

=

 

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =0,483

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6>0,483), то гипотеза H0 подтверждается, а следовательно, между признаками х и у не существует значимой связи, то есть от пола человека не зависит его отношение к курению.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

6) Рассмотрим 2 категоризованных номинальных признака: х – Курите ли Вы? (х1-да, х2- нет), у – Как Вы относитесь к курению? (у1-положительно, у2-отрицательно, у3-безразлично).

 

 

 

 

 

Результаты опроса представлены в  виде таблицы сопряженности 2 3:

                             уj) Отношение к курению

xi)Курите ли Вы?

у1)полож.

у2)отриц.

у3)безразл.

ni*

х1)да

5

6

4

15

х2)нет

-

32

3

35

n*j

5

38

7

50

Контрольная работа по «Статистический анализ нечисловой информации»