Обработка статистических данных. 3

Федеральное агентство по образованию

ГОУ ВПО

                                           «Уральский государственный

горный университет» 

Кафедра экономики и менеджмента 

                                                       КУРСОВАЯ РАБОТА

По дисциплине «Статистика»

на тему: 

                                          «Обработка статистических данных» 
 
 

Проверил: ст. пр. Юркова Е. И

                                                                                  Выполнила:Можаровская К.О

Группа: ЭУП-09-2 
 

                                 

Екатеринбур

2011 
 

Содержание 

Введение 3

1. Теоретическая часть 4

1.1. Метод корреляционно – регрессионного анализа. 4

1.2 Аналитическая группировка. Структурные средние 6

1.3 Ряды динамики 8

1.4 Показатели вариации. 11

2. Практическая часть 15

2.1 Аналитическая группировка. Структурные средние. 16

2.2 Динамика основных показателей 20

2.3 Рассчитать показатели вариации 23

2.4 Распределение затрат на постоянные и переменные, методом корреляционно-регрессионного анализа 25

Заключение 28

Список использованной литературы 29 
 
 
 
 
 

                                                 
 

Введение 

Статистика — это точная наука, изучающая методы сбора, анализа и обработки данных, которые описывают массовые действия, явления и процессы. Данные, изучаемые в статистике, затрагивают не отдельные объекты, а их совокупности. Главным методом сбора данных для статистики является полное обследование объектов, имеющих отношение к изучаемой проблеме.   Обработка статистических данных  уже давно  применяется в  самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных  не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.

Цель курсовой работы – освоить инструменты статистики для дальнейшего применения в решении управленческих задач. Можно выделить следующие задачи данного курсового проекта: - приобрести навыки работы с большими массивами данных и навыки представления данных статистического наблюдения в виде, удобном для восприятия, анализа и принятия решений; - освоить методы выполнения оценок параметров больших множеств по данным выборочного наблюдения; - развить аналитические навыки в ходе применения вариационного и корреляционного методов и интерпретации полученных результатов.

Теоретическая часть

1.1. Метод корреляционно – регрессионного анализа.

    Корреляционный  анализ является одним из методов  статистического анализа взаимосвязи  нескольких признаков.

    Он  определяется как метод, применяемый  тогда, когда данные наблюдения можно  считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном  анализе) состоит в оценке уравнения  регрессии.

      Корреляция – это статистическая  зависимость между случайными  величинами, не имеющими строго  функционального характера, при  которой изменение одной из  случайных величин приводит к  изменению математического ожидания  другой.

    Корреляционный  анализ - метод установления связи и измерения ее тесноты между наблюдениями. Корреляционная связь проявляется в среднем для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной.

    В статистике теснота связи может  определяться с помощью различных  коэффициентов (Фехнера, Пирсона, коэффициентные ассоциации и т. д.).

    При линейной зависимости коэффициент  корреляции между факторами х и у определяется следующим образом:

     r = 

    X – значение факторного признака;

    Y – значение результативного признака;

    N – количество ед. совокупности.

    Значения  коэффициента корреляции изменяются в  интервале [- 1; + 1].

    Значение r = - 1 свидетельствует о наличии жестко детерминированной обратно пропорциональной связи между факторами; r = + 1 - соответствует жестко детерминированной связи с прямо пропорциональной зависимостью факторов. Если линейной связи между факторами не наблюдается, r 0.

    Другие  значения коэффициента корреляции свидетельствуют  о наличии стохастической связи, причем чем ближе г к единице, тем связь теснее.

    При r < 0,3 - связь можно считать слабой; при 0,3 < r  < 0,7 - связь средней тесноты; r > 0,7 - тесная.

    Регрессионный анализ - это метод установления аналитического выражения стохастической зависимости между исследуемыми признаками.

    Уравнение регрессии показывает, как в среднем  изменяется у при изменении любого из х, и имеет вид:

    у=f(х1,х2,…,хn),

    где у - зависимая переменная;

    xi— независимые переменные.

    В ходе регрессионного анализа решаются две основные задачи:

  • построение уравнения регрессии, т. е. нахождение вида зависимости между результативным показателем и независимыми факторами.
  • оценка значимости полученного уравнения, т. е. определение того, насколько выбранные факторные признаки объясняют вариацию признака у.

    Регрессионный анализ - один из наиболее разработанных  методов математической статистики.

    При линейной зависимости уравнение  регрессии имеет вид:

    y = a + bx

    где а, Ь- параметры уравнения, из которых Ь- коэффициент регрессии.

    По  методу способом наименьших квадратов  для нахождения параметров линейной регрессии систему нормальных уравнений:

;

;

a - характеризует значение неучтенных факторов, влияющих на формирование результативного признака;

b - показывает изменение факторного признака на единицу собственного изменения.

                     1.2 Аналитическая группировка. Структурные средние

 

    Аналитическая группировка - статистическая группировка, предназначенная для изучения взаимосвязей между признаками. Аналитическую  группировку строят по одному из взаимосвязанных  признаков, например факторному, а далее  вычисляют по каждой выделенной группе средние (или относительные) значения другого признака. Параллельно сопоставляя  значения обоих признаков по характеру  их совместных изменений, делают заключение о наличии и направлении связи.

     Важная  проблема аналитических группировок  – правильный выбор числа групп  и определение их границ, что в  последующем обеспечивает объективность  характеристик связи.

     В процессе аналитических группировок  следует соблюдать общие правила  группировки, т. е. единицы в образованных группах должны быть существенно  различны, количество единиц в группах  должно быть достаточным для расчета  надежных статистических характеристик. Кроме того, групповые средние  должны подчиняться определенной закономерности: последовательно увеличиваться  или уменьшаться.

     Мода - это наиболее часто встречающийся  вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом  у покупателей. Модой для дискретного  ряда является варианта, обладающая наибольшей частотой. При вычислении моды для  интервального вариационного ряда необходимо сначала определить модальный  интервал (по максимальной частоте), а  затем - значение модальной величины признака по формуле:

,

где:

    - нижняя граница модального  интервала;

    -  величина интервала;

    - частота модального интервала;

      - частота интервала, предшествующего  модальному;

    - частота интервала, следующего  за модальным.

     Медиана - это значение признака, которое  лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для определения  медианы в дискретном ряду при  наличии частот сначала вычисляют  полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:

Ме = (n(число  признаков в совокупности) + 1)/2,

в случае четного числа признаков медиана  будет равна средней из двух признаков  находящихся в середине ряда).

     При вычислении медианы для интервального  вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем —  значение медианы по формуле:

,

 где:

- нижняя граница интервала,  который содержит медиану;

- величина интервала;

- сумма накопленных частот  интервалов, предшествующих медианному; - частота медианного интервала;

- сумма частот или число  членов ряда;

1.3 Ряды динамики

     Ряды  динамики - это значения статистических показателей, которые представлены в определенной хронологической  последовательности. Каждый динамический ряд содержит две составляющие:

  • показатели периодов времени (годы, кварталы, месяцы, дни или даты);
  • показатели, характеризующие исследуемый объект за временные периоды или на соответствующие даты, которые называют уровнями ряда.

    Классификация рядов динамики производится по следующим  признакам:

  • В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных, относительных и средних величин.
  • В зависимости от того, как выражаются уровни ряда на определенные моменты времени (на начало месяца, квартала, года и т.п.) или его величина на определенные интервалы времени (например, за сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики.

    Особенность интервального ряда состоит в  том, что его уровни характеризуют  собой суммарный итог какого либо явления за определенный отрезок  времени. Они зависят от продолжительности  этого периода времени, их можно  суммировать, как не содержащие повторного счета.

    Особенность моментного ряда состоит в том, что  его уровни, как правило, содержат элементы повторного счета, например, число вкладов населения, учитываемых  за январь, существует и в настоящее  время, являясь единицами совокупности в июне. В результате чего суммировать  уровни ряда нецелесообразно.

  • В зависимости от расстояния между уровнями ряды динамики подразделяются на ряды динамики с равностоящими и неравностоящими уровнями во времени.
  • В зависимости от наличия основной тенденции изучаемого процесса ряды динамики подразделяются на стационарные и нестационарные.

    Если  математическое ожидание значения признака и дисперсия постоянны, не зависят  от времени, процесс считается стационарным и ряды динамики также называются стационарными. Экономические и  социальные процессы во времени обычно не являются стационарными, т.к. содержат основную тенденцию развития, но их можно преобразовать в стационарные путем исключения тенденций.

     Для характеристики интенсивности развития во времени используются статистические показатели, получаемые сравнением уровней  между собой, в результате чего получаем систему абсолютных и относительных  показателей динамики: абсолютный прирост, темп роста (коэффициент и показатель в % выражении), темп прироста (коэффициент  и показатель в % выражении).

     В ходе исследования необходимо сравнить несколько последовательных уровней, их можно получить путем сравнения  с постоянной базой (базисные показатели), или сравнение с переменной базой (цепные показатели).

     Базисные  показатели характеризуют итоговый результат всех изменений в уровнях  ряда от периода базисного уровня до данного (i-го) периода.

     Цепные  показатели характеризуют интенсивность  изменения уровня от одного периода  к другому в пределах того промежутка времени, который исследуется.

      Абсолютный  прирост выражает абсолютную скорость изменения ряда динамики и определяется как разность между данным уровнем  и уровнем, принятым за базу сравнения. 
 
 
 
 

  • Абсолютный  прирост (базисный)

    ,

    где

    yi - уровень сравниваемого периода;

    y0 - уровень базисного периода.

  • Абсолютный прирост с переменной базой (цепной)

    ,

    где:

    yi - уровень сравниваемого периода;

    yi-1 - уровень предшествующего периода.

  • Темп роста – относительный показатель, показывающий процентное изменение уровня ряда по сравнению с базисным или цепным показателем. Может быть представлен в виде коэффициента или в процентах

                       

  • Темп прироста – относительный показатель, показывающий на сколько процентов один уровень ряда динамики больше или меньше другого, принимаемого за базу для сравнения

    Тп = Тр - 100%

1.4 Показатели вариации.

    Вариация - это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое  практическое значение и является необходимым  звеном в экономическом анализе. Необходимость изучения вариации связана  с тем, что средняя, являясь равнодействующей, выполняет свою основную задачу с  разной степенью точности: чем меньше различия индивидуальных значений признака, подлежащих осреднению, тем однороднее совокупность, а, следовательно, точнее и надежнее средняя, и наоборот. Следовательно по степени вариации можно судить о границах вариации признака, однородности совокупности по данному признаку, типичности средней, взаимосвязи факторов, определяющих вариацию.

    Изменение вариации признака в совокупности осуществляется с помощью абсолютных и относительных  показателей.

Абсолютные показатели вариации включают:

  • размах вариации R
  • среднее линейное отклонение
  • дисперсию
  • среднее квадратическое отклонение
 

Виды  вариации:

  • вариация в пространстве: изменение значений признаков по отдельным территориям.
  • вариация во времени: изменение значений признака в различные периоды времени.

Абсолютные  показатели:

  • Размах вариации (представляет собой разность между max и min значением) в изученной совокупности

R = Xmax – Xmin

  • Среднее линейное отклонение  рассчитывается из отклонения в первой степени  (используется для сравнения всех имеющихся элементов затрат со средней величиной и дает обобщенную характеристику степени колеблемого элемента затрат и вычисляется как среднее арифметическое из абсолютных значений отклонения индивидуального значения затрат элементов от средней величины)

1. для  несгруппированных данных: 

2. для  сгруппированных данных:  ,

где

n – количество рядов;

- значение объема продаж.

  • Дисперсия  (представляет собой среднюю арифметическую из квадратов отношений индивидуального значения от их средней величины. Измеряет вариацию затрат во всей совокупности под влиянием всех факторов обуславливающих эту вариацию).

1. для  несгруппированных данных: 

2. для  сгруппированных данных: 

 

  • Среднее квадратическое отклонение

 

    Относительные показатели:

  • коэффициент вариации (оценивает однородность совокупности, совокупность считается однородной, если коэффициент вариации не превышает 33%).

;

  • Линейный коэффициент вариации

  • Коэффициент осцилляции
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

                               2. Практическая часть 
     
     

Месяц Объём производства,

кг

Затраты на производство,  тыс. руб
1 2 3
Январь 34,13 15421,22
Февраль 36,08 16773,54
Март 40,08 14480,42
Апрель 43,99 15399,52
Май 37,67 16515,38
Июнь 39,90 21325,29
Июль 35,21 16736,03
Август 40,45 16266,90
Сентябрь 35,16 14536,11
Октябрь 35,61 15912,76
Ноябрь 37,43 15451,00
Декабрь 47,90 19242,44
Итого 463,6 198060,6
Среднее  значение 38,6 16505,05
 
 
 
 
 
 
 
 
 

2.1  Аналитическая группировка. Структурные средние.

Факторный признак : объём производства

Результативный  признак: затраты на производства

 1. Определяем величину интервала

X max = 47,90

 Xmin=34,13

R = 47,90-34,13=13,77

-  Определяем  число групп  
n= 1+3,32*lg12= 1+3,32*1,08 = 4,58 = 5

n= 5 интервалов

- Определяем  величину равных интервалов 

I = 13,77/4,6 = 2,9

2. Построение интервалов

[34,13-37,03] – 1, 2,7,9,10

[37,03-39,93] - 5,11

[39,93-42,83] – 3,6,8

[42,83-45,73] - 4

[45,73-48,63] – 12 
 
 
 
 
 

3. Группировачная таблица:

Группы  предприятий

по объёму произв-ва

количество  предприятий среднее значение
единицы % Объём произ-ва(кг) Затраты на произв.(тыс.руб)
1 34,13-37,03 5 42 35,21 (min) 15875,93
2 37,03-39,93 2 17 37,55 15983,19
3 39,93-42,83 3 25 40,14 17357,53
4 42,83-45,73 1 8,3 43,99 15399,52 (min)
5 45,73-48,63 1 8,3 47,90 (max) 19242,44 (max)

                                          Таблица 2.1 

 Гистограмма 2.1 

Вывод:

Наименьшее  среднее значение затрат на производства составляет 15399,52 тыс.руб ,в данную группу входит одно предприятие. При этом среднее  значение объёма производства составляет 43,99 кг . Уровень объёма производства составляет [42,83-45,73]

Наибольшее  среднее значение затрат на производства составляет 19242,44 тыс.руб, в данную группу входит одно предприятие. При этом среднее  значение объёма производства составляет 47,90 кг. Уровень объёма производства составляет [45,73-48,63]

     Наибольшее  количество предприятий попадают в группу по объему производства от 34,13 до 37,03 тыс. т, при средних суммарных затратах 15875,93 руб.; группу составляют 5 предприятий или 42% от общего их количества. 

Структурные средние:

Мода:    

                   

Группы  месяцев по объему пр-ва Количество  месяцев Накопительная частота
34,13-37,03 5 5
37,03-39,93 2 7
39,93-42,83 3 10
42,83-45,73 1 11
45,73-48,63 1 12

                       Таблиц 2.2

.

X0=34,13 тыс. т.; h=2,9 тыс. т.; fМо=5; fМо-1=0; fМо+1=2

Mо=34,13 +2,9*(5-0)/((5-0)+(5-2))=36

  У наибольшего количества месяцев объема производства в среднем размере составляет 36% 

Медиана:

Группы  месяцев по объему пр-ва Количество  месяцев Накопительная частота
34,13-37,03 5 5
37,03-39,93 2 7
39,93-42,83 3 10
42,83-45,73 1 11
45,73-48,63 1 12
Обработка статистических данных. 3