Основные приемы статистического анализа

Министерство  сельского хозяйства Российской Федерации

Департамент научно-технологической  политики и образования

Федеральное государственное  бюджетное образовательное учреждение

высшего профессионального  образования

«Красноярский государственный аграрный университет»

Институт  экономики и финансов  АПК

                                                      Кафедра: Экономического анализа

и статистики                                      

                                                  Дисциплина: Основные приемы статистического анализа

 экономических  данныы

Контрольная работа № 1

Вариант 13

 

Выполнил 

студент группы

(№ зачетной  книжки )

 

 
 

(подпись)

 

  Принял

   
 

(подпись)

 

 

Красноярск 2012 г.

ПЛАН:

ТЕМА 1

Вопрос 1.1 Какие виды средних используются на интервальной шкале измерения……………………………………………………………………..…..3

Вопрос 1.2 Где применяются взвешенные средние………………………….4

Вопрос 1.3 Что такое паказатели вариации……………………………………7

ТЕМА 2

Вопрос 2.1 Что такое несмещенная оценка……………………………………..9

Вопрос 2.2 Как определяется функция правдоподобия….………………….11

Вопрос 2.3 В каких случаях применяются параметрические критерии……..12

ТЕМА 3

Вопрос 3.1 Как проводится проверка гипотезы о равенстве групповых ожиданий…………………………………………………………………………15

Вопрос 3.2 Нарисуйте таблицу однофакторного дисперсионного анализа..17

ТЕМА 4

Вопрос 4.1 Укажите недостатки иерархических алгоритмов………………17

Вопрос 4.2 Когда используется расстояние Евклида…………………………19

Вопрос 4.2 Что такое такс………………………………………………………20

ТЕМА  5

Вопрос 5.1 Что такое уравнение регрессии…………………………………..21

Вопрос 5.2 В чем смысл метода наименьших квадратов……………………21

Вопрос 5.3 Назовите виды экономических моделей…………………………22

Используемая  литература

 

 

 

 

 

 

 

Вопрос 1.1 Какие виды средних используются на интервальной

 

Шкала интервалов является первой метрической шкалой. Собственно, начиная с нее, имеет смысл говорить об измерениях в узком смысле этого слова – о введении меры на множестве объектов. Шкала интервалов определяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, насколько более или менее выражено определенное свойство у одного объекта, чем у другого.

Шкала интервалов очень часто используется исследователями. Классическим примером применения этой шкалы в физике является измерение температуры по Цельсию. Шкала интервалов имеет масштабную единицу, но положение нуля на ней произвольно, поэтому нет смысла говорить о том, во сколько раз больше или меньше утренняя температура воздуха, измеренная шкалой Цельсия, чем дневная.

Значения интервальной шкалы  инвариантны относительно группы аффинных преобразований прямой. То есть мы имеем  право изменять масштаб шкалы, умножая  каждое из ее значений на константу, и  производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу).

Интервальная  шкала позволяет применять практически  всю параметрическую статистику для анализа данных, полученных с  ее помощью. Помимо медианы и моды для характеристики центральной тенденции используется среднее арифметическое, а для оценки разброса – дисперсия. Можно вычислять коэффициенты асимметрии и эксцесса и другие параметры распределения. Для оценки величины статистической связи между переменными применяется коэффициент линейной корреляции Пирсона и т. д.

 

 

Вопрос 1.2 Где применяются взвешенные средние

 

Средняя величина - это обобщающий показатель статистической совокупности, который погашает индивидуальные различия значений статистических величин, позволяя сравнивать разные совокупности между собой.

Существует 2 класса средних величин: степенные и структурные.

К структурным средним  относятся мода и медиана, но наиболее часто применяются степенные средние различных видов.

Степенные средние  величины

Степенные средние могут  быть простыми и взвешенными.

Взвешенная средняя  величина рассчитывается по сгруппированным статистическим величинам с использованием следующей общей формулы:

где X – значения отдельных  статистических величин или середин  группировочных интервалов; 
m - показатель степени, от значения которого зависят следующие виды степенных средних величин:

при m = -1 средняя гармоническая;

при m = 0 средняя геометрическая;

при m = 1 средняя арифметическая;

при m = 2 средняя квадратическая;

при m = 3 средняя кубическая.

Используя общие  формулы простой и взвешенной средних при разных показателях  степени m, получаем частные формулы  каждого вида, которые будут далее  подробно рассмотрены.

Средняя арифметическая взвешенная

В отличие от простой средней средняя арифметическая взвешенная применяется, если каждое значение признака х встречается несколько раз, т.е. для каждого значения признака f≠1. Данная средняя широко используется при исчислении средней на основании дискретного ряда распределения:

 
,

где - число групп, х – значение осредняемого признака, f- вес значения признака (частота, если f – число единиц совокупности; частость, если f- доля единиц с вариантой х в общем объёме совокупности).

Средняя гармоническая взвешенная

Произведение xf даёт объём осредняемого признака х для совокупности единиц и обозначается w. Если в исходных данных имеются значения осредняемого признака х и объём осредняемого признака w, то для расчёта средней применяется гармоническая взвешенная:

 
,

 

где х – значение осредняемого признака х (варианта); w – вес варианты х, объем осредняемого признака.

Средняя квадратическая и средняя кубическая

В ряде случаев  в экономической практике возникает  потребность расчета среднего размера  признака, выраженного в квадратных или кубических единицах измерения. Тогда применяется средняя квадратическая (например, для вычисления средней величины стороны и квадратных участков, средних диаметров труб, стволов и т.п.) и средняя кубическая (например, при определении средней длины стороны и кубов).

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной, простой или взвешенной.

Средняя квадратическая взвешенная

Средняя квадратическая взвешенная применяется, если каждое значение осредняемого признака х встречается f раз: 
 

 
где f – вес варианты х.

Средняя кубическая взвешенная

 
,

где f-вес варианты х.

Средние квадратическая и кубическая имеют ограниченное применение в практике статистики. Широко пользуется статистика средней квадратической, но не из самих вариантов x, и из их отклонений от средней при расчете показателей вариации.

 

 

 

 

 

 

Вопрос 1.3 Показатели вариации

 

Вариация - это различие значений величин X у отдельных единиц статистической совокупности.

Существуют следующие показатели вариации:

1) Размах вариации – это разность между максимальным и минимальным значениями X из имеющихся в изучаемой статистической совокупности:

Недостатком показателя H является то, что он показывает только максимальное различие значений X и не может измерять силу вариации во всей совокупности.

2) Cреднее линейное отклонение - это средний модуль отклонений значений X от среднего арифметического значения. Его можно рассчитывать по формуле средней арифметической простой - получим среднее линейное отклонение простое:

Если исходные данные X сгруппированы (имеются частоты f), то расчет среднего линейного отклонения выполняется по формуле средней  арифметической взвешенной - получим среднее линейное отклонение взвешенное:

3) Линейный коэффицинт вариации - это отношение среднего линейного отклонение к средней арифместической:

С помощью линейного  коэффицинта вариации можно сравнивать вариацию разных совокупностей, потому что его значение не зависит от единиц измерения X.

4) Дисперсия - это средний квадрат отклонений значений X от среднего арифместического значения. Дисперсию можно рассчитывать по формуле средней арифметической простой - получим дисперсию простую:

Если исходные данные X сгруппированы (имеются частоты f), то расчет дисперсии выполняется по формуле средней арифметической взвешенной - получим дисперисю взвешенную:

Если преобразовать  формулу дисперсии (раскрыть скобки в числителе, почленно разделить  на знаменатель и привести подобные), то можно получить еще одну формулу для ее расчета как разность средней квадратов и квадрата средней:

Если значения X - это доли совокупности, то для расчета дисперсии используют частную формулу дисперсии доли:

.

5) Cреднее квадратическое отклонение

Формула средней квадратической применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма:

Еще проще можно  найти среднее квадратическое отклонение, если предварительно рассчитана дисперсия, как корень квадратный из нее:

В примере  про студента, в котором выше рассчитали дисперсию, найдем среднее квадратическое отклонение как корень квадратный из нее: .

6) Квадратический коэффициент вариации - это самый популярный относительный показатель вариации:

7) Критериальным значением квадратического коэффициента вариации V служит 0,333 или 33,3%, то есть если V меньше или равен 0,333 - вариация считает слабой, а если больше 0,333 - сильной. В случае сильной вариации изучаемая статистическая совокупность считается неоднородной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности.

 Квадратический коэффициент вариации V = 0,707/4 = 0,177, что меньше критериального значения 0,333, значит вариация слабая и равна 17,7%.

 

Вопрос 2.1 Что такое несмещенная оценка

 

 Несмещённая оценка, оценка параметра распределения вероятностей по наблюдаемым значениям, лишенная систематической ошибки. Более точно: если оцениваемое распределение зависит от параметров q1, q2,..., qs, то функция qi* (x1, x2,..., xn) от результатов наблюдения x1, x2,..., xn называемых Н. о. для параметра qi, если при любых допустимых значениях параметров q1, q2,..., qs математическое ожидание Е qi* (x1, x2,..., xn) = qi,.

Например, если. x1, x2,..., xn суть результаты n независимых наблюдений случайной величины, имеющей нормальное распределение

с неизвестными а (математическое ожидание) и s2 (дисперсия), то среднее арифметическое

 

будет Н. о. для а.

Часто используемая для оценки эмпирической дисперсии

не является несмещенной оценкой. Н. о. для s2 служит

величина Н. о. квадратичного отклонения s имеет  более сложное выражение

Оценка (1) для математического  ожидания и оценка; (2) для дисперсии являются Н. о. и при распределениях, отличных от нормального; оценка (3) для квадратичного отклонения, вообще говоря может быть смещенной.

Использование Н. о. необходимо при оценке неизвестного параметра по большому числу серий  наблюдений, каждая из которых состоит  из небольшого числа наблюдений. Пусть, например, имеется k серий

xi1, xi2,×××, xin (i = 1, 2, ×××, k)

по n наблюдений в каждой и пусть si — несмещенная оценка s2 для s2, составленная по i-й серии наблюдений. Тогда при большом k в силу закона больших чисел

даже когда n невелико. Н. о. играют важную роль в статистическом контроле массовой продукции.

 

 

Вопрос 2.2 Как определяется функция правдоподобия

 

Пусть Х – дискретная случайная величина, которая в результате п испытаний приняла значения х1, х2, …, хп. Предположим, что нам известен закон распределения этой величины, определяемый параметром Θ, но неизвестно численное значение этого параметра. Найдем его точечную оценку.

Пусть р(хi, Θ) – вероятность того, что в результате испытания величина Х примет значение хi. Назовем функцией правдоподобия дискретной случайной величины Х функцию аргумента Θ, определяемую по формуле:

L(х1, х2, …, хп; Θ) = p(x1,Θ)p(x2,Θ)…p(xn,Θ).

Тогда в качестве точечной оценки параметра  Θ принимают такое его значение Θ* = Θ(х1, х2, …, хп), при котором функция правдоподобия достигает максимума. Оценку Θ* называют оценкой наибольшего правдоподобия.

Поскольку функции L и lnL достигают максимума при одном и том же значении Θ, удобнее искать максимум ln L – логарифмической функции правдоподобия.

 Для этого  нужно:

1) найти производную;

2) приравнять  ее нулю (получим так называемое уравнение правдоподобия) и найти критическую точку;

3) найти вторую  производную  ; если она отрицательна в критической точке, то это – точка максимума.

Достоинства метода наибольшего правдоподобия: полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях п и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение правдоподобия имеет единственное решение Θ*; метод наиболее полно использует данные выборки и поэтому особенно полезен в случае малых выборок.

Недостаток  метода наибольшего правдоподобия: сложность вычислений.

Для непрерывной  случайной величины с известным  видом плотности распределения f(x) и неизвестным параметром Θ функция правдоподобия имеет вид:

L(х1, х2, …, хп; Θ) = f(x1,Θ)f(x2,Θ)…f(xn,Θ).

Оценка наибольшего правдоподобия  неизвестного параметра проводится так же для дискретной случайной величины.

 

Вопрос 2.3 В каких случаях применяют параметрические критерии

 

Критерии принято  делить на параметрические и непараметрические. Параметрическими критериями являются те, в формулу расчета которых входят параметры распределения – средние или дисперсии. Непараметрические критерии в отличии от параметрических основаны на использовании в их формулах частот, долей или рангов. Непараметрические критерии применимы к переменным выраженным в любых шкалах, а параметрические – только лишь к тем переменным, которые выраженны в шкалах интервалов или отношений.

И те, и другие критерии имеют  свои преимущества и недостатки. В  тех случаях, когда переменная измерена в шкале интервалов и ее распределение  близко к нормальному, лучше пользоваться параметрическими критериями, т.к. они оказываются более мощными, чем непараметрические. Но в том случае, если эти условия не выполняются, более эффективными окажутся непараметрические критерии, так как им ''все равно'' в каких шкалах измерены переменные и соответствует распределение нормальному или нет. В ряде случаев непараметрическим критериям нет замены, особенно если признак определялся не количественно, а качественно.

Если вид  распределения или функция распределения  выборки нам заданы, то в этом случае задача оценки различий двух групп независимых наблюдений может решаться с использованием параметрических критериев статистики: либо критерия Стьюдента (t), если сравнение выборок ведется по средним значениям (X и У), либо с использованием критерия Фишера (F), если сравнение выборок ведется по их дисперсиям.

Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

1. Критерий Стьюдента (t-критерий)

Критерий позволяет  найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно  выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и  та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий.

Выборки при этом называют зависимыми, связанными.

а) случай независимых  выборок

Статистика критерия для случая несвязанных, независимых  выборок равна:

   (1)  

где , — средние арифметические в экспериментальной и контрольной группах,

- стандартная ошибка разности средних арифметических. Находится из формулы:

,  (2)

где n1 и n2 соответственно величины первой и второй выборки.

Если n1=n2, то стандартная ошибка разности средних арифметических будет считаться по формуле:

   (3)

где n величина выборки.

Подсчет числа степеней свободы осуществляется по формуле:

k = n1 + n2 – 2.  (4)

При численном  равенстве выборок k = 2n - 2.

Далее необходимо сравнить полученное значение tэмп с теоретическим значением t—распределения Стьюдента (см. приложение к учебникам статистики). Если tэмп<tкрит, то гипотеза H0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.

б) случай связанных (парных) выборок

В случае связанных  выборок с равным числом измерений  в каждой можно использовать более  простую формулу t-критерия Стьюдента, по формуле:

  (5)

где — разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;

Sd вычисляется  по следующей формуле:

   (6)

Число степеней свободы k определяется по формуле k=n-1.

2. F — критерий Фишера

Критерий  Фишера позволяет сравнивать величины выборочных дисперсий двух независимых выборок. Для вычисления Fэмп нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фишера такова:

  (8)

где - дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя  должна быть больше или равна величине знаменателя, то значение Fэмп всегда будет больше или равно единице.

 

Вопрос 3.1 Как проводится проверка гипотезы о равенстве групповых математических ожиданий

 

Проверка гипотезы о равенстве математических ожиданий двух случайных величин

Пусть есть две независимые  выборки значений нормально распределенной величины x: х1, х2, ..., xn - всего n элементов, и нормально распределенной величины y: y1, y2, ..., ym - m элементов.

Предполагается, что Dx = Dу. (Предположение о равенстве дисперсий  может быть проверено по "рецепту" 3.3).

Гипотеза Н0 состоит в том, что Мх = Му. Это, пожалуй, наиболее распространенный тип гипотез в технологических, биологических, даже педагогических экспериментах. В обеих выборках существует одинаковый разброс, но важно определить, значимо ли на фоне этого разброса, отличаются средние значения выборок. Проверяемая гипотеза состоит в том, что математические ожидания не отличаются. Критерием проверки служит, как и в разделе 3.2, случайная величина t, но построенная более сложным образом.

Напомним, что по известному закону Стьюдента распределена величина

, где z ~ N(0, 1), V ~ Χ2ν.

Возьмем в качестве z комбинацию

(3.5)

Учитывая, что x ~ N(Mx, Dx), y ~ N(My, Dy), соответственно

~ N(Mx, Dx / n), ~ N(My, Dy / m), x и y независимы и поэтому дисперсия разности их среднеарифметических равна сумме дисперсий, а матожидание разности матожиданий, и помня о равенстве Dx и Dy, получим, что z, определенное по (3.5), действительно распределено нормально с параметрами Mz = 0, Dz = 1.

В качестве V возьмем V = (n - 1) Sx2 / σ2 + (m - 1) Sy2 / σ2 ~ Χ2n+m-2
что следует из определения Χ2 и формулы (2.1). В результате получим

(3.6)

Критическая область - опять  двухсторонняя, т.е. гипотеза отвергается, если | t | > tq.

В качестве примера проверим гипотезу о том, что средняя светоотдача по старой и новой технологии одинакова согласно данным примера из предыдущего раздела. Выберем α = 0.05 и по таблице t-распределения найдем, что при ν = 9 + 10 - 2 = 17 tq = 2.1. Теперь вычисляем:

Вывод: | tэ | < tq. Гипотеза о равенстве средних значений светоотдачи ламп, изготовленных по старой и новой технологии, проверена по t критерию на уровне значимости 5% и принята.

 

Вопрос 3.1 Нарисуйте  таблицу однофакторного дисперсионного анализа

                   
   

Таблица 1. Однофакторного дисперсионого анализа

   
                   

№ п/п

Наименование

Аппарат

Веста 1

Веста 2

Отделение срочного социального обслуживания

Отделение дневного прибывания

Отделение ребилитации  инвалидов

 
 

1

2

3

4

5

6

7

 

1

Количество  штатных единиц

16

21

23

10

15

17

 

2

Итого по учреждению:

102

 
                   
                   

Вопрос 4.1 Укажите недостатки иерархических  алгоритмов

 

При большом  количестве наблюдений иерархические  методы кластерного анализа не пригодны. В таких случаях используют неиерархические  методы, основанные на разделении, которые  представляют собой итеративные  методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки.

Такая неиерархическая  кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два  подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т.е. определение кластера там, где имеется большое "сгущение точек". Второй подход заключается в минимизации меры различия объектов

 

Алгоритм k-средних (k-means)

Наиболее распространен  среди неиерархических методов  алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти  в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических  методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.

Алгоритм k-средних  строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Общая идея алгоритма: заданное фиксированное число k кластеров  наблюдения сопоставляются кластерам  так, что средние в кластере (для  всех переменных) максимально возможно отличаются друг от друга.

 

 

 Недостатки алгоритма k-средних:

1. алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;

2. алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.

Среди новых  масштабируемых алгоритмов также можно  отметить алгоритм CURE - алгоритм иерархической  кластеризации, и алгоритм DBScan, где  понятие кластера формулируется с использованием концепции плотности (density).

Основным недостатком  алгоритмов BIRCH, Clarans, CURE, DBScan является то обстоятельство, что они требуют  задания некоторых порогов плотности  точек, а это не всегда приемлемо. Эти ограничения обусловлены тем, что описанные алгоритмы ориентированы на сверхбольшие базы данных и не могут пользоваться большими вычислительными ресурсами.

Основные приемы статистического анализа