Применение методов регрессионного анализа в статистике

Министерство  общего и профессионального

образования Российской Федерации

 

 

Нижегородский Государственный Университет

 

 

Кафедра:

“ ”

 

 

 

 

КУРСОВАЯ РАБОТА

по курсу

“СТАТИСТИКА”

на тему:

«Применение методов регрессионного анализа в статистике»

 

 

 

                              Выполнил:

                                    cтудент группы
 
                                                                         

Проверил:

 

 

                                                         

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижний Новгород 
2012

Содержание

1. Введение

2. Регрессионный анализ

   2.1. Метод наименьших квадратов

   2.2. Метод наименьших модулей

   2.3. Метод минимакса

3. Статистическое моделирование связи методом  корреляционного и регрессионного анализа

4. Проверка адекватности регрессионной модели

5. Заключение

6. Список литературы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Введение

Слово “статистика” приходит от латинского слова status (состояние), которое употреблялось в значении “политическое состояние”. В научный  оборот слово “статистика” ввёл профессор Геттингенского университета Готфрид Ахенваль (1719 - 1772), и понималось оно тогда как государствоведение.

Сейчас же, под термином  “статистика” понимается три значения:

  • Отрасль практической деятельности (“статистический учёт”) по сбору, обработке, анализу и публикации массовых цифровых данных о самых различных явлениях и процессах общественной жизни; эту деятельность на профессиональном уровне осуществляет государственная статистика – Государственный комитет по статистике Российской Федерации и система его учреждений, организованных по административно-территориальному признаку, а также ведомственная статистика (на предприятиях, в объединениях, ведомствах, министерствах);
  • Совокупность цифровых сведений, статистические данные, предоставляемые в отчетности предприятий, организаций, отраслей экономики, а также публикуемые в сборниках, справочниках, периодической прессе, которые являются результатом статистической работы;
  • Отрасль общественных наук, специальная научная дисциплина, изучаемая в высших и средних специальных учреждениях.

В экономических  исследованиях часто решают задачу выявления факторов, определяющих уровень  и динамику экономического процесса.    

Такая задача чаще всего решается методами корреляционного, регрессионного, факторного и компонентного анализа. Задача регресизм

Все многообразие факторов, которые воздействуют на изучаемый процесс, можно разделить  на две группы: главные (определяющие уровень изучаемого процесса) и второстепенные. Последние часто имеют случайный  характер, определяя специфические и индивидуальные особенности каждого объекта исследования.

Взаимодействие  главных и второстепенных факторов и определяет колеблемость исследуемого процесса. В этом взаимодействии синтезируется  как необходимое, типическое, определяющее закономерность изучаемого явления, так и случайное, характеризующее отклонение от этой закономерности. Случайные отклонения неизбежно сопутствуют любому закономерному явлению.Однак

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.[1]

Не все факторы, влияющие на экономические процессы, являются случайными величинами. Поэтому  при анализе экономических явлений  обычно рассматриваются связи между  случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом

о при  небольшой взаимосвязи между  переменными, если стандартизовать  переменные и рассчитать уравнение  регрессии для стандартизованных  переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию. Стандартизация переменных. Бета коэффициенты. Коэффициенты в последнем уравнении получены при одинаковых масштабах изменения всех переменных и сравнимы. В случае взаимосвязи между аргументами в правой части уравнения могут происходить странные вещи. Надежность и значимость коэффициента регрессии. Здесь  обозначен коэффициент детерминации, получаемый при

ется  смещенной оценкой. Абсолютные значения коэффициентов не позволяют сделать такой вывод.

2. Регрессионный анализ. Рассмо

Термин  "регрессия" (лат. - "regression" - отступление, возврат  к чему-либо) введен английским психологом и антропологом Ф.Гальтпном в  конце 19-го века и связан только со спецификой одного из первых конкретных примеров,  в котором это понятие было использовано. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.

С целью математического  описания конкретного вида зависимостей с использованием регрессионного анализа  подбирают класс функций, связывающих результативный показатель y и аргументы x1, x2,…,хk , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют точность полученного уравнения.[3]

Функция  f(x1, x2,…,хk ), описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии.

никДля точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f(x1, x2,…,хk), основанных на исходных статистических данных.

В рамках отдельных  модельных допущений о типе распределения вектора показателей (у, x1, x2,…,хk) может быть получен общий вид уравнения регрессии f(x)=M(y/x) x=(x1, x2,…,хk) . Например, в предложении, что исследуемая совокупность показателей подчиняется (k + 1) - мерному нормальному закону распределения с вектором математических ожиданий

M = ,

где Mx = , my = MY

и ковариационной матрицей S =  ,

где syy = s2у = M (y-My) ;

     S yx  = ;  S xx =  ;

 

s ij = M (xi – Mxi);(xj – Mxj); sjj = sj = M (xj – Mxj) .[12]

 

Из этого следует, что уравнение регрессии (условное математическое ожидание) имеет вид:

M(y/x) = my + (x - Mx).

Таким образом, если многомерная  случайная величина (у, x1, x2,…,хk ) подчиняется (k +1)-мерному нормальному закону распределения, то уравнение  регрессии  результативного показателя  у по объясняющим переменным x1, x2,…,хk  имеет линейный по х вид. Метод вкопределены.

Однако в статистической практике обычно приходится  ограничиваться поиском  подходящих аппроксимаций  для неизвестной истинной функции  регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результатирующего показателя у при заданных эначениях аргументов х=х.

Рассмотрим взаимоотношение  между истиной f(х)= M(y/x), модельной  у и оценкой у  регрессии. Од

Пусть результативный показатель у связан с аргументом  х соотношением::

y  =  + e ,

где e - случайная величина, имеющая нормальный закон распределения, причем М e = 0 и

D e = .

Истинная функция регрессии  в этом случае имеет вид:

F(x) = M(y/x) = 2x .

Предположим, что точный вид истинного уравнения регрессии  нам не известен, но мы располагаем  девятъю  наблюдениями над двумерной  случайной величиной, связанной  соотношением  уi = 2x + ei, и предcтавленной на рисунке:

        у


      70


      60


      50


      40


      30


      20


      10


        0


0 2     4         6            8    10                

Взаимное расположение истинной f(x) и теоритической у  модели регрессии.

 

 

 Расположение точек  на рисунке позволяет ограничиться классом линейных зависимостей вида: у = b0 + b1 x.[2]

С помощью метода наименьших квадратов найдем оценку уравнения  регрессии

 у = b0 +b1 x.

Дли сравнения на рисунке  приводятся графики истинной функции  регрессии f{х) =2x , теоретической аппроксимирующей функции регрессии = b0 + b1 x.  К последней сходится по вероятности оценка уравнения регрессии при неограниченном увеличении объема выборки (n ).

Поскольку мы ошиблись в  выборе класса функции регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е., как бы мы не увеличивали объем наблюдений, наша выборочная оценка не будет сходиться к истинной функции регрессии f(х). Задача регрессионного анализа состоит в потруда).

Если бы мы правильно выбрали  класс функций регрессии, то неточность в описании f(x) с помощью  объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при n .

С целью наилучшего восстановления по исходным статистическим данным условного  значения результатирующего показателя у(х) и неизвестной функции регрессии f(x) = M(y/x) наиболее часто используют следующие критерии адекватности (функции потерь).[2]

1. Метод наименьших квадратов,  согласно которому минимизируется  квадрат отклонения наблюдаемых  значений результативного показателя yi(i=1,2,…,n) от модельных значений  i = f(xi, b), где b = (b0, b1,…,bk) - коэффициенты уравнения регрессии, xi – значение вектора аргументов в i-м наблюдении:

Решается задача отыскания  оценки вектора b. Получаемая регрессия называется среднеквадратической

(M — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда  .

Для решения задачи регрессионного анализа методом наименьших квадратов  вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная  система является системой   линейных уравнений с   неизвестными 

Если представить свободные  члены левой части уравнений  матрицей

а коэффициенты при неизвестных в правой части  матрицей

то получаем матричное уравнение:  , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения  наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова).

2. Метод наименьших  модулей, согласно которому минимизируется  сумма абсолютных отклонений  наблюдаемых значений результативного  показателя от модульных значений = f(xi, b), т.е.

.

Получаемая  регрессия называется среднеабсолютной (медианой).

3. Метод минимакса  сводится к минимизации максимума  модуля отклонения наблюдаемого  значения результативного показателя yi от модельного значения f(xi, b), т.е.

.

Получаемая  при этом регрессия называется минимаксной. Рассмвключает всеВ практических положениях часто встречаются задачи, в которых изучается случайная величина у, зависящая от некоторого множества переменных x1, x2,…,хk  и неизвестных параметров bj(j=0,1,2,…,k). Будем рассматривать (у, x1, x2,…,хk ) как (k +1) – мерную генеральную совокупность, из которой взята случайная выборка объемов n, где (уi,xi1,xi2,…,xik) результат i-го наблюдения i=1,2,…,n. Требуется по результатам наблюдений оценить неизвестные параметры bj(j=0,1,2,…,k). [1]

 

3. Статистическое  моделирование связи методом   корреляционного и регрессионного  анализа.

Задачи корреляционного  анализа сводятся к измерению  тесноты известной связи между  варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак. [1]

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии). Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии. Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы будет посвящена регрессии, целью которой является построение моделей, предсказывающих вероятности событий. Величина называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами, ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные как неслучайные значения. Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения (например, назначили зарплату работнику), а затем измеряют (оценили, какой стала производительность труда).

Решение всех названных задач приводит к необходимости комплексного использования этих методов. Рассмотрим, что представляет собой эта значимость. Обозначим  коэффициент детерминации, полученный при исключении из правой части уравнения переменной. При этом мы получим уменьшение объясненной дисперсии, на величину. Для оценки значимости включения переменной используется статистика, имеющая распределение Фишера при нулевом теоретическом приросте. Вообще, если из уравнения регрессии исключаются переменных, статистикой значимости исключения будет. Пошаговая процедура построения модели. Основным критерием отбора аргументов должно быть качественное представление о факторах, влияющих на зависимую переменную, которую мы пытаемся смоделировать. Очень хорошо реализован процесс построения регрессионной модели: на машину переложена значительная доля трудностей в решении этой задачи. Возможно построение последовательное построение модели добавлением и удалением блоков переменных. Но мы рассмотрим только работу с отдельными переменными. По умолчанию программа включает все заданные переменные.

Корреляционный  и регрессионный анализ. Исследование связей в условиях массового наблюдения и действия случайных факторов осуществляется, как правило, с помощью экономико-статистических моделей. В широком смысле модель – это аналог, условный образ (изображение, описание, схема, чертёж и т.п.) какого-либо объекта, процесса или события, приближенно воссоздающий «оригинал». Модель представляет собой логическое или математическое описание компонентов и функций, отображающих существенные свойства моделируемого объекта или процесса, даёт возможность установить основные закономерности изменения оригинала. В модели оперируют показателями, исчисленными для качественно однородных массовых явлений (совокупностей). Выражение и модели в виде функциональных уравнений используют для расчёта средних значений моделируемого показателя по набору заданных величин и для выявления степени влияния на него отдельных факторов. Метод включения и исключения переменных состоит в следующем. Из множества факторов, рассматриваемых исследователем как возможные аргументы регрессионного уравнения, отбирается один, который более всего связан корреляционной зависимостью. Далее проводится та же процедура при двух выбранных переменных, при трех и т.д. Процедура повторяется до тех пор, пока в уравнение не будут включены все аргументы, выделенные исследователем, удовлетворяющие критериям значимости включения. Замечание: во избежание зацикливания процесса включения исключения значимость включения устанавливается меньше значимости исключения. Переменные, порождаемые регрессионным уравнением. Сохранение переменных, порождаемых регрессией, производится подкомандой. Благодаря полученным оценкам коэффициентов уравнения регрессии могут быть оценены прогнозные значения зависимой переменной, причем они могут быть вычислены и там, где значения определены, и там где они не определены.

По количеству включаемых факторов модели могут быть однофакторными и многофакторными (два и более факторов).

В зависимости от познавательной цели статистические модели подразделяются на структурные, динамические и модели связи.

Двухмерная линейная модель корреляционного и регрессионного анализа (однофакторный линейный корреляционный и регрессионный анализ). Наиболее разработанной в теории статистики является методология так называемой парной корреляции, рассматривающая влияние вариации факторного анализа х на результативный признак у и представляющая собой однофакторный корреляционный и регрессионный анализ. Овладение теорией и практикой построения и анализа двухмерной модели корреляционного и регрессионного анализа представляет собой исходную основу для изучения многофакторных стохастических связей. Однако при небольшой взаимосвязи между переменными, если стандартизовать переменные и рассчитать уравнение регрессии для стандартизованных переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию. Стандартизация переменных. Бета коэффициенты. Коэффициенты в последнем уравнении получены при одинаковых масштабах изменения всех переменных и сравнимы. В случае взаимосвязи между аргументами в правой части уравнения могут происходить странные вещи. Надежность и значимость коэффициента регрессии. Здесь  обозначен коэффициент детерминации, получаемый при построении уравнения регрессии, в котором в качестве зависимой переменной взята другая переменная. Из выражения видно, что величина коэффициента тем неустойчивее, чем сильнее переменная связана с остальными переменными. Эта статистика имеет распределение Стьюдента. В выдаче пакета печатается наблюдаемая ее двусторонняя значимость - вероятность случайно при нулевом регрессионном коэффициенте получить значение статистики, большее по абсолютной величине, чем выборочное. Значимость включения переменной в регрессию. При последовательном подборе переменных предусмотрена автоматизация, основанная на значимости включения и исключения переменных.

Важнейшим этапом построения регрессионной модели (уравнения  регрессии) является установление в  анализе исходной информации математической функции. Сложность заключается  в том, что из множества функций  необходимо найти такую, которая  лучше других выражает реально существующие связи между анализируемыми признаками. Выбор типов функции может опираться на теоретические знания об изучаемом явлении, опят предыдущих аналогичных исследований, или осуществляться эмпирически – перебором и оценкой функций разных типов и т.п. [7]

При изучении связи экономических  показателей производства (деятельности) используют различного вида уравнения  прямолинейной и криволинейной  связи. Внимание к линейным связям объясняется  ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму. Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:

 

ŷ = a0 + a1x ,

 

где ŷ - теоретические значения результативного признака, полученные по уравнению регрессии;

     a0 , a1 -  коэффициенты (параметры) уравнения  регрессии. Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии. Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы будет посвящена регрессии, целью которой является построение моделей, предсказывающих вероятности событий. Величина называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами, ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные как неслучайные значения. Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения (например, назначили зарплату работнику), а затем измеряют (оценили, какой стала производительность труда).

Поскольку a0 является средним значением у в точке х=0, экономическая интерпретация часто затруднена или вообще невозможна. За это иногда зависимую переменную называют откликом. Теория регрессионных уравнений со случайными независимыми переменными сложнее, но известно, что, при большом числе наблюдений, использование метода разработанного корректно. Для получения оценок  коэффициентов  регрессии минимизируется сумма квадратов ошибок регрессии. В пакете вычисляются статистики, позволяющие решить эти задачи. Существует ли линейная регрессионная зависимость? Для проверки одновременного отличия всех коэффициентов регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом. Статистика  в условиях гипотезы равенства нулю регрессионных коэффициентов имеет распределение Фишера и, естественно, по этой статистике проверяют, являются ли коэффициенты одновременно нулевыми. Коэффициенты детерминации и множественной корреляции. При сравнении качества регрессии, оцененной по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Корень из коэффициента детерминации называется коэффициентом корреляции. Следует иметь в виду, что  является смещенной оценкой. Абсолютные значения коэффициентов не позволяют сделать такой вывод.

Коэффициент парной линейной регрессии a1  имеет смысл  показателя силы связи между вариацией  факторного признака х и вариацией  результативного признака у. Вышеприведенное  уравнение показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, то есть вариацию у, приходящуюся на единицу вариации х. Знак a1 указывает направление этого изменения.

Параметры уравнения a0 , a1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi от выравненных ŷ :

S(yi – ŷ)2 = S(yi – a0 – a1xi)2 ® min [5]

Для нахождения минимума данной функции приравняем к нулю ее частные производные  и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

 

    .

Решим эту систему в общем виде:


Параметры уравнения парной линейной регрессии иногда удобно исчислять  по следующим формулам, дающим тот  же результат:

Определив значения a0 , a1  и подставив их в уравнение  связи   ŷ = a0 + a1x , находим значения ŷ , зависящие только от заданного значения х.

Правильность  расчёта параметров уравнения регрессии  может быть проверена сравниванием сумм ∑у = ∑ŷ . сии. Здесь  обозначен коэффициент детерминации, получаемый при построении уравнения регрессии, в котором в качестве зависимой переменной взята другая переменная. Из выражения видно, что величина коэффициента тем неустойчивее, чем сильнее переменная связана с остальными переменными. Эта статистика имеет распределение Стьюдента. В выдаче пакета печатается наблюдаемая ее двусторонняя значимость - вероятность случайно при нулевом регрессионном коэффициенте получить значение статистики, большее по абсолютной величине, чем выборочное. Значимость включения переменной в регрессию. При последовательном подборе переменных предусмотрена автоматизация, основанная на значимости включения и исключения переменных.

Но для того, чтобы применить рассчитанную формулу, надо рассчитать, насколько она приближенна к реальности, то есть проверить ее адекватность.

 

4. Проверка адекватности регрессионной модели.

Для практического  использования моделей регрессии  большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным.

Корреляционный  и регрессионный анализ обычно (особенно в условиях так называемого малого и среднего бизнеса) проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции – параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

При численности  объектов анализа до 30 единиц возникает  необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными. Эту задачу мы рассмотрим в рамках самой распространенной в статистических пакетах классической модели линейной регрессии. Специфика социологических исследований состоит в том, что очень часто необходимо изучать и предсказывать социальные события. Вторая часть данной главы будет посвящена регрессии, целью которой является построение моделей, предсказывающих вероятности событий. Величина называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами, ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные как неслучайные значения. Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения (например, назначили зарплату работнику), а затем измеряют (оценили, какой стала производительность труда).

Значимость коэффициентов  простой линейной регрессии (применительно  к совокупностям, у которых n<30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия

для параметра a0 :

 для параметра a1 :          

   где n - объём выборки;

- среднее квадратическое  отклонение результативного признака от выравненных значений ŷ ;

    или   

- среднее квадратическое  отклонение факторного признака x от общей средней . [3]

Применение методов регрессионного анализа в статистике