Исследование влияния основных социально-экономических показателей на результативный признак

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

 

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Оренбургский государственный университет»

 

 

Кафедра математических методов и моделей в экономике

 

 

 

 

ИНДИВИДУАЛЬНАЯ РАБОТА

по дисциплине «Эконометрика (продвинутый курс)»

 

 

 

Исследование влияния основных социально-экономических показателей на результативный признак

 

 

 

 

ОГУФЭУгруппаЭк(м) ИРЭ

 

 

Руководитель работы:

____________Бантикова О.И.

«_____»_________________2014г.

Исполнитель:

Магистрант гр. _________________

_________________ Пахарь В.В.

«_____»_________________2014г.

 

 

 

 

 

 

Оренбург 2014

Ведение

 

Актуальность: общеобразовательная школа является базовым звеном в системе непрерывного образования. Современное образование ищет пути совершенствования образовательной практики, направленной на повышение успеваемости подрастающего поколения.

По определению успеваемость - степень усвоения знаний, умений и навыков, установленных учебной программой, с точки зрения их полноты, глубины, сознательности и прочности, находит свое внешнее отражение в оценочных баллах. Сравнительные данные оценок по отдельным предметам характеризуют успеваемость по каждому учебному предмету, по циклу предметов, по классам или по школе в целом.

Высокая успеваемость достигается системой методов, форм и средств. Успешность обучения существенно зависит от способностей и личностных характеристик самого ученика, уровня квалификации и требований учителя, родительского воспитания и общества в целом. Актуальность исследования обоснована потребностью выявления и количественного описания факторов, оказывающих влияние на учебную деятельность,  способствующих повышению успеваемости школьников.

Тем более актуально изучать влияние интересов старшеклассников на их успеваемость, ведь в это время перед учениками встает вопрос профессионального самоопределения.

Цель исследования: изучение влияния факторов на успеваемостьшкольников Сузановской средней школы 8-11 классов.

Объект исследования: ученики8-11 классаСузановской средней школы Новосергиевского района Оренбургской области.

Предметом исследования выступает набор количественных и качественных признаков, характеризующих:

y- успеваемость по обществознанию;

x1 - количество школьников в исследуемых классах;

x2 - возраст школьника;

x3 - полнота семьи школьника;

x4 - посещаемость кружков, секций;

x5 - успеваемость по русскомуязыку;

x6 - успеваемость по математическим дисциплинам (алгебра);

х7 – успеваемость по истории Отечества;

х8 – пол учеников.

Информационная база по выбранному предмету исследования: школьные журналы успеваемости, информационная база Сузановской средней школы.

 

 

 

 

Информационная база для эконометрического моделирования

 

Ученик

 

Пол ученика

Количество человек в классе

 

Возраст учеников

 

Состав семьи

Занятость в кружках/ секциях

Средний бал по успеваемости по русскому языку

Средний бал по успеваемости по алгебре

Средний бал по истории

Средний бал по обществознанию

 

Х8

Х1

Х2

Х3

Х4

Х5

Х6

Х7

Y

8 Класс

   

Чубов Д.

Муж.

6

14

Полная

Да

4,3

4

4,6

4

Буткевич К.

Жен.

6

14

Полная

Да

2,4

2,2

3

3,1

Тарханова Р.

Жен.

6

14

Полная

Да

2,7

2,3

2,7

2,6

Бекиров К.

Муж.

6

14

Полная

Да

3,1

2

2,5

2,6

Бодягин А.

Муж.

6

14

Полная

Да

3,4

2,8

3,5

3,7

Сулейманов И.

Муж.

6

14

Полная

Да

4,1

4,5

4,7

5

9 класс

   

Бекирова К.

Жен.

14

16

Полная

Да

2,5

2,8

3,4

3,2

Клюева А.

Жен.

14

14

Полная

Да

2,8

4,4

3,9

4,1

Поздняков М.

Муж.

14

14

Неполная

Нет

2,6

2,8

3,2

3,5

Актемиров Д.

Муж.

14

14

Полная

Да

2,8

2,5

2,8

2,9

Прохоров И.

Муж.

14

16

Полная

Да

2,5

2,9

3,3

3,4

Струц А.

Жен.

14

15

Полная

Да

4

4,4

4,8

4,6

Струц А.

Муж.

14

15

Полная

Нет

3

2,7

4

4,4

Сулейманов М.

Муж.

14

14

Полная

Да

4,7

4,8

4,8

4,8

Филатов А.

Муж.

14

15

Полная

Да

3,2

2,7

4,4

4,2

Чумаченко А.

Муж.

14

14

Полная

Нет

3,3

2,6

3,2

3

Энс А.

Муж.

14

16

Полная

Да

3

2,5

3,6

3,9

Протас И.

Муж.

14

15

Полная

Нет

4,2

4,1

4,5

4,6

Шуваева М.

Жен.

14

15

Полная

Да

3,4

2,9

4,6

4

Каширских Е.

Муж.

14

15

Полная

Да

4,3

4,1

4,8

5

10 класс

   

Бекиров И.

Муж.

10

16

Неполная

Да

2,6

2,4

2,7

2,6

Татаркина Д.

Жен.

10

16

Полная

Да

4,4

4

4

4,2

Фахрудинова К.

Жен.

10

16

Неполная

Нет

3,1

2,6

3,6

3,8

Беляева М.

Жен.

10

16

Полная

Да

3

2,5

3,4

3,1

Захаров А.

Муж.

10

16

Неполная

Да

3,3

2,6

4

3,4

Келлер Я.

Муж.

10

16

Полная

Да

2,9

2,7

3,1

2,8

Волгунцев А.

Муж.

10

16

Полная

Нет

2,7

2,6

4,4

3,7

Красовский Д.

Муж.

10

17

Неполная

Да

3,1

2,9

3,7

3,9

Каширских А.

Жен.

10

16

Полная

Да

4,5

4,2

4,7

4,9

Ширяева А.

Жен.

10

16

Полная

Да

4,4

4

5

4,8

11 класс

   

Ижока А.

Жен.

3

16

Неполная

Нет

3,3

2,8

3

3,2

Назаров Д.

Муж.

3

18

Полная

Нет

3

2,5

2,6

2,8

Клюев А.

Муж.

3

16

Полная

Да

2,9

2,7

2,9

2,7




 

 

 

 

 

1 задача. Анализ данных (регрессия)

Предположим, что существует  линейная  зависимость между успеваемостью школьников по обществознанию и отобранными факторами в линейном виде:

Применив метод наименьших квадратов для оценки неизвестных коэффициентов, получим следующую оценку модели множественной регрессии:

 

ВЫВОД ИТОГОВ

             
                 

Регрессионная статистика

             

Множественный R

0,946002

             

R-квадрат

0,89492

             

Нормированный R-квадрат

0,859893

             

Стандартная ошибка

0,289146

             

Наблюдения

33

             
                 

Дисперсионный анализ

           
 

df

SS

MS

F

Значимость F

     

Регрессия

8

17,08863

2,136078

25,54958

6,07E-10

     

Остаток

24

2,006525

0,083605

         

Итого

32

19,09515

           
                 
 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

0,252033

0,89983

0,28009

0,781808

-1,60512

2,10919

-1,60512

2,10919

Переменная X 1

0,013914

0,016375

0,849705

0,403886

-0,01988

0,04771

-0,01988

0,04771

Переменная X 2

-0,0033

0,051633

-0,06385

0,949616

-0,10986

0,103269

-0,10986

0,103269

Переменная X 3

-0,05262

0,143029

-0,36789

0,716177

-0,34782

0,242579

-0,34782

0,242579

Переменная X 4

-0,13166

0,124794

-1,05499

0,301936

-0,38922

0,125906

-0,38922

0,125906

Переменная X 5

0,073818

0,15008

0,491855

0,62729

-0,23593

0,383568

-0,23593

0,383568

Переменная X 6

0,245348

0,126245

1,943434

0,063781

-0,01521

0,505905

-0,01521

0,505905

Переменная X 7

0,667216

0,126698

5,266202

2,12E-05

0,405725

0,928708

0,405725

0,928708

Переменная X 8

0,011572

0,108341

0,106809

0,915828

-0,21203

0,235177

-0,21203

0,235177



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ВЫВОД ОСТАТКА

 
     

Наблюдение

Предсказанное Y

Остатки

1

4,484661

-0,48466

2

2,823662

0,276338

3

2,670177

-0,07018

4

2,504228

0,095772

5

3,389869

0,310131

6

4,659293

0,340707

7

3,349856

-0,14986

8

4,104761

-0,00476

9

3,426236

0,073764

10

2,916233

-0,01623

11

3,319241

0,080759

12

4,79054

-0,19054

13

3,909085

0,490915

14

4,955221

-0,15522

15

4,059079

0,140921

16

3,376219

-0,37622

17

3,458176

0,441824

18

4,674763

-0,07476

19

4,244784

-0,24478

20

4,750653

0,249347

21

2,800583

-0,20058

22

4,129202

0,070798

23

3,607141

0,192859

24

3,257505

-0,15751

25

3,768707

-0,36871

26

3,1106

-0,3106

27

4,070339

-0,37034

28

3,624086

0,275914

29

4,652705

0,247295

30

4,796419

0,003581

31

3,173247

0,026753

32

2,762969

0,037031

33

2,87976

-0,17976





2 задача. Остатки

2 задача. Остатки

Исследуем характер распределения регрессионных остатков на нормальный закон распределения.

 

 

Карман

Частота

-0,48466

1

-0,28955

4

-0,09443

7

0,100685

11

0,2958

6

Еще

4




 

 

 

 

 

 

 

На основе этого всего строим график. Сервис, анализ данных, гистограмма. Входной интервал остатки, галочка на вывод графика.

 

Вывод:  по виду гистограмма распределения регрессивных остатков можно предложить нормальный закон распределения, что соответствует о правомерности выбора линейной формы зависимости.

 

3 задание. Проверка  адекватности модели выборочным данным

 

Сделаем промежуточные расчёты, на основе которых мы сделаем оценку нашей модели. Ниже представлены коэффициенты и стандартные ошибки (от регрессии).

 

Y-пересечение

0,252033

0,89983

Переменная X 1

0,013914

0,016375

Переменная X 2

-0,0033

0,051633

Переменная X 3

-0,05262

0,143029

Переменная X 4

-0,13166

0,124794

Переменная X 5

0,073818

0,15008

Переменная X 6

0,245348

0,126245

Переменная X 7

0,667216

0,126698

Переменная X 8

0,011572

0,108341


 

 

Выдвинем следующие гипотезы:

 

H0: В0 = В1 = В2=В3=В4=В5=В6=В7=В8 = 0 (модель неадекватна выборочным данным).

Н1:ƎВ; не=0 (модель адекватна выборочным данным).

 

Fнаблюдаемое –25,5

 

F табличное - 33-8-1 (ά; к; п-к-1) = (0,05;8;24), где ά всегда = 0,05

 

Далее по таблице Фишера = 2,35

 

Вывод: F наблюдаемое больше чем Fтабличное. Гипотеза Н0 отклоняется принимается Н1. Модель адекватна выборочным данным.

 

 

 

 

4 Задание. Проверка на значимость отдельных коэффициентов модели множественной регрессии

 

H0: Вj = 0 (незначимый)

В1: Вj не= 0 (значимый)

tкр= (ά;n-к-1) по таблице Стьюдента, где ά = 0,05

 

Tкр– находим по таблице Стьюдента. (0,05; 24)

 

Tкр= 2,06

Таблица

 

Коэффициент

Значение

Tкр

Выводы

В0

0,25

0,28

2,06

Незначим

В1

0,01

0,84

2,06

Незначим

В2

-0,0033

-0,06

2,06

Незначим

В3

-0,05

-0,36

2,06

Незначим

В4

-0,13

-1,05

2,06

Незначим

В5

0,07

0,49

2,06

Незначим

В6

0,24

1,94

2,06

Незначим

В7

0,66

5,26

2,06

Значим

В8

0,01

0,106

2,06

Незначим


 

 

5 Задание. Для значимых коэффициентов построим доверительные интервалы

 

Нижняя граница

Коэффициент

Верхняя граница

0,405

В7

0,92


 

 

 

6 Задание. Оценим  качество построенной модели  с помощью выборочного коэффициента  детерминации

 

R2=0,89

 

Выводы:В результате эконометрического моделирования мы выявили, что значимое влияние на успеваемость школьников Сузановской средней школы в 8-11 классах оказывает фактор x7 – успеваемость по истории (по расчетам в excel и по таблице).

Успеваемость по истории Отечества влияет на успеваемость по обществознанию, так как оба предмета являются  гуманитарными и часто выбираются  учащимися при сдаче ЕГЭ для поступления в учебные заведения. Кроме этого историю и обществознание в Сузановской школе ведет один и тот же педагог.

Поэтому при улучшении успеваемости школьников по истории Отечества на 1 балл,  успеваемость школьников по обществознанию увеличится в среднем на 0,66 баллов.

Все остальные факторы оказались незначимыми. Однако R2 = 0, 89 (чем ближе к 1, тем лучше). Это означает, что вариация успеваемости школьников на 89% объясняется вошедшими в модель факторами. И на 11% объясняется вариацией неучтенных моделей факторов.

 

 

2 задача. Мультиколлинеарность.

 

Из условия (постановки) задачи можно заподозрить зависимость между признаками x5 и x7, т.е. успеваемостью по русскому языку и истории, поскольку это две дисциплины гуманитарного блока.

Проверим данное предположение с помощью внешних и формальных признаков.

Внешние признаки:

1) Большинство (все кроме  B7) оказались незначимы. В то время как вся модель казалась адекватной выборочным данным;

2) Большинство доверительных  интервалов для коэффициентов  (все кроме В7) содержат внутри себя точку 0;

3) Стандартные ошибки  для коэффициентов В0,В2, В3, В4, В5, В8      превышают значение самих коэффициентов;

4) х2, х3, х4 имеют отрицательные значения. Однако не всегда отрицательные знаки интерпретируются неправильно. В нашем случае отрицательный знак при x4 наоборот верный, он показывает, что ученики, которые занимаются в кружках (секциях) имеют успеваемость по обществознанию ниже, чем ученики, которые не занимаются в кружках, это можно объяснить их занятостью и меньшим количеством времени на выполнение домашнего задания и подготовку к уроку.

 

Анализируя корреляционную матрицу можно выявить наиболее тесную взаимосвязь Х5 , Х6, и Х7. Ниже представлена корреляционная матрица.

 

 

Столбец 1

Столбец 2

Столбец 3

Столбец 4

Столбец 5

Столбец 6

Столбец 7

Столбец 8

Столбец 1

1

             

Столбец 2

-0,16762

1

           

Столбец 3

0,104839

-0,26647

1

         

Столбец 4

0,012581

-0,13939

0,283333

1

       

Столбец 5

0,051806

-0,10561

0,223452

0,141732

1

     

Столбец 6

0,239981

-0,189

0,252349

0,192382

0,810425

1

   

Столбец 7

0,38811

-0,09569

0,230599

0,131329

0,753419

0,778709

1

 

Столбец 8

0,050435

-0,06574

-0,0297

-0,13363

-0,06399

-0,14576

-0,10146

1


 

 

Действительно, на основе корреляционной матрицы можно выделить зависимость между х6и х5; х7 и х5; х7 и х6. Выбирали среди признаков, где коэффициент корреляции больше 0,6.

 

R2х1 = 0,32

R2х2 = 0,13

R2х3 = 0,16

R2х4 = 0,11

R2х5 =0,75

R2х6 =0,74

R2х7 =0,72

R2х8 =0,06

 

Наиболее близкие показатели к 1 (R2х5 =0,75, R2х6 =0,74, R2х7 =0,72) между этими показателями существует мультиколлинеарность.

Устраним мультиколлинеарность методом пошаговой регрессии с исключением переменных. На первом шаге исключаем из рассмотрения х2 поскольку ему соответствует незначительный коэффициент = 0,06.

Возвращаемся к исходным данным удаляем х2. Снова регрессия, но уже без х2.

 

Y=  0,19+0,01х1-0,05х3-0,13х4+0,07х5+0,24х6+0,66 х7+0,01х8

Ткр= (0,05; 25) = 2,05

Таблица

 

Коэффициент

Значение

Tкр

Выводы

В0

0,19

0,65

2,05

Незначим

В1

0,01

0,88

2,05

Незначим

В3

0,05

-0,37

2,05

Незначим

В4

0,13

-1,07

2,05

Незначим

В5

0,07

0,501

2,05

Незначим

В6

0,24

2,01

2,05

Незначим

В7

0,66

5,409

2,05

Значим

В8

0,01

0,11

2,05

Незначим 


 

 

На следующем шаге исключаем х8. Убираем х8.

Y=  0,206+0,014х1-0,05х3-0,13х4+0,07х5+0,24х6+0,66х7

Ткр= (0,05; 26) = 2,05

Таблица

 

Коэффициент

Значение

Tкр

Выводы

В0

0,206

0,71

2,05

Незначим

В1

0,014

0,92

2,05

Незначим

В3

-0,05

-0,37

2,05

Незначим

В4

-0,13

-1,11

2,05

Незначим

В5

0,07

0,53

2,05

Незначим

В6

0,24

2,06

2,05

Значим

В7

0,66

5,52

2,05

Значим


 

 

Исключаем х3. Убираем х3.

 

Y=  0,19 + 0,01х1-0,14 х4 + 0,07 х5 + 0,24 х6 + 0,66 х7

Ткр= (0,05; 27) = 2,05

Таблица

Коэффициент

Значение

Tкр

Выводы

В0

0,19

0,69

2,05

Незначим

В1

0,01

0,92

2,05

Незначим

В4

-0,14

-1,26

2,05

Незначим

В5

0,07

0,52

2,05

Незначим

В6

0,24

2,07

2,05

Значим

В7

0,66

5,604

2,05

Значим


 

 

Исключаем х5. Убираем х5.

 

Y=  0,26 + 0,01х1-0,14 х4 + 0,27х6 + 0,69х7

Ткр= (0,05; 28) = 2,04

 

Таблица

Коэффициент

Значение

Tкр

Выводы

В0

0,26

1,08

2,04

Незначим

В1

0,01

0,78

2,04

Незначим

В4

-0,14

-1,3

2,04

Незначим

В6

0,27

2,86

2,04

Значим

В7

0,69

6,64

2,04

Значим


 

 

Исключаем х1. Убираем х1.

 

Y=  0,302-0,14 х4 + 0,26х6 + 0,71х7

Ткр= (0,05; 29) = 2,04

Таблица

Коэффициент

Значение

Tкр

Выводы

В0

0,302

1,26

2,04

Незначим

В4

-0,14

-1,33

2,04

Незначим

В6

0,26

2,81

2,04

Значим

В7

0,71

7,36

2,04

Значим


 

 

 

Исключаем х4. Убираем х4.

 

Y=  0,23 + 0,72х6 + 0,24х7

Ткр= (0,05; 30) = 2,04

Таблица

Коэффициент

Значение

Tкр

Выводы

В0

0,23

0,98

2,04

Незначим

В6

0,72

7,31

2,04

Значим

В7

0,24

2,61

2,04

Значим


 

 

Вывод: Мы получили модель со значимыми коэффициентами В6и В7. Таким образом, на успеваемость учащихся Сузановской средней школы по обществознанию оказывают значительное влияние средний бал успеваемости по алгебре и средний бал успеваемости по истории Отечества.

При увеличении успеваемости школьников по алгебре на 1 балл их успеваемость по обществознанию улучшается, а именно, увеличивается в среднем на 0,72 балла,  увеличение успеваемости по истории на 1 балл приводит к роту среднего балла по обществознанию на 0,24 балла.

 

3. Обобщенная линейная модель множественной регрессии. С гетероскедастичными остатками.

 

На основе предыдущего задания мы выявили, что значимыми являются факторы х6 и х7. Теперь определим, существует ли у этих факторов гетероскедастичные остатки.

 

Д (Ei) = const - гомоскед.

Д (Ei) = (не равно) const – гетероск.

 

Берём фактор х6 рядом с ним в Excel ставим последние остатки полученные нами во время устранения мультиколлинеарности. Дальше через вставку функции (АВS) определяем е\.

Исследование влияния основных социально-экономических показателей на результативный признак