Корреляционный анализ данных социальной динамики

 

 

 

 

Контрольная работа

По предмету: Методы изучения динамики социальных явлений

Тема: Корреляционный анализ данных социальной динамики

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тюмень, 2011

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1. Основные понятия корреляцинного анализа

2. Корреляционные поля и цель их построения

 

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ВВЕДЕНИЕ

 

Обработка статистических данных уже давно применяется в самых  разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать  ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области  знаний и практической деятельности обработка статистических днных  не играет такой исключительно большой  роли, как в экономике, имеющей  дело с обработкой и анализом огромных массивов информации о социально-экономических  явлениях и процессах. Всестронний  и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных  специальных методов, важное место  среди которых занимает корреляционный и регрессионный анализы обработки  данных.

В экономических исследованиях  часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного  и регрессионного анализа. Для достоверного отображения объективно существующих процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных  зависимостей. Под причинной зависимостью понимается такая сваязь между процессами, когда изменение одного из них  является следствием изменения другого.

 Целью контрольной  работы является рассмотрение  корреляционного анализа в социальной  динамики.

Задачи:

    1. Рассмотреть понятие корреляционного анализа
    2. Выявить  задачи корреляционного анализа
    3. Рассмотреть построение корреляционного поля и выявить цель их создания

 

1. Основные понятия корреляцинного анализа

 

Теория и методы корреляционного  анализа используются для изучения сложных связей между явлениями  и признаками, трудно поддающимися функциональному описанию.

К. Пирсон и Дж. Юл разработали  корреляционный анализ, который по их мнению должен ответить на вопрос о  том, как выбрать с учетом специфики  и природы анализируемых переменных подходящий измеритель статистической связи (коэффициент корреляции, корреляционное отношение, и т.д.), решить задачу, как  оценить его числовые значения по уже имеющимся выборочным данным. Корреляционный анализ поможет: найти  методы проверки того, что полученное числовое значение анализируемого измерителя связи действительно свидетельствует  о наличии статистической связи; определить структуру связей между  исследуемыми k признаками х 1, х 2,…, сопоставив каждой паре признаков ответ («связь есть» или «связи нет»). Корреляционный метод анализа дает возможность оценить (количественно) влияние различных факторов на величину искомого показателя.

Корреляционный метод является одним из экономико-математических методов исследования, позволяющий  определить количественную взаимосвязь  между несколькими явлениями  рассматриваемой системы. При этом корреляционная зависимость в отличие  от функциональной может проявляться  только в общем, среднем случае. Таким  образом, корреляция представляет собой  вероятностную зависимость между  явлениями, при которой средняя  величина параметров одного из них  изменяется в зависимости от других. Корреляциям между двумя явлениями  носит название парной, а между  несколькими – множественной.

При проведении корреляционного анализа  выделяют исследуемый результирующий показатель (функцию) и факторные  признаки, от которых он зависит (аргументы). Если в случае увеличения (или уменьшения) аргумента функция также увеличивается (соответственно, уменьшается), то такую  корреляционную связь называют прямой (положительной), а если наоборот –  обратной (отрицательной). При отсутствии зависимостей между аргументом и  функцией корреляционная связь отсутствует.

Теснота корреляционной взаимосвязи  при линейной зависимости оценивается коэффициентом корреляции, при нелинейной зависимости – корреляционным отношением.

Корреляционный  анализ, совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами. Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного К. а. (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).

Корреляционное поле и  корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость выборочных точек получают корреляционное поле. По характеру  расположения точек поля можно составить  предварительное мнение о форме  зависимости случайных величин (например, о том, что одна величина в среднем  возрастает или убывает при возрастании  другой). Для численной обработки  результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы  приводятся численности гц; тех пар (х, у),компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.

Предполагая длины интервалов группировки (по каждому из переменных) равными между собой, выбирают центры xi(соответственно yj) этих интервалов и числа nij в качестве основы для расчётов.

Коэффициент корреляции и  корреляционное отношение дают более  точную информацию о характере и  силе связи, чем картина корреляционного  поля. Выборочный коэффициента корреляции определяют по формуле:

 ,

где

   ,

   .

При большом числе независимых  наблюдений, подчиняющихся одному и  тому же распределению, и при надлежащем выборе интервалов группировки коэффициент    близок к истинному коэффициенту корреляции r. Поэтому использование    как меры связи имеет четко определённый смысл для тех распределений, для которых естественной мерой зависимости служит r (т. е. для нормальных или близких к ним распределений). Во всех др. случаях в качестве характеристики силы связи рекомендуется использовать корреляционное отношение h, интерпретация которого не зависит от вида исследуемой зависимости.

Выборочное значение   y|вычисляется по данным корреляционной таблицы:

 2y|

где числитель характеризует  рассеяние условных средних значений   около безусловного среднего  (аналогично определяется выборочное значение   x|y). Величина   y|x   используется в качестве меры отклонения зависимости от линейной, т. к. обычно   2y|x>r2  x|y>rи лишь в случае линейной зависимости r2 2y|x  x|y. Так, при анализе корреляции между высотой и диаметром северной сосны было обнаружено, что условные средние значения высоты сосны для заданного диаметра связаны нелинейной зависимостью. Корреляционное отношение (высоты к диаметру) в этом случае равно 0,813, а коэффициент корреляции равен 0,762.

Проверка гипотезы значимости связи основывается на знании законов  распределения выборочных корреляционных характеристик. В случае нормального  распределения величина выборочного  коэффициента корреляции    считается значимо отличной от нуля, если выполняется неравенство

 ,

где tесть критическое значение t-распределения Стьюдента с (n—2) степенями свободы, соответствующее выбранному уровню значимости a.  Если же известно, что r ¹ 0, то необходимо воспользоваться z-преобразованием Фишера (не зависящим от r и n):

 .

Исходя из приближённой нормальности z, можно определить доверительные интервалы для истинного коэффициента корреляции r.

В случае когда изучаются  не количественные признаки, а качественные, обычные меры зависимости не годятся. Однако, если удаётся каким-либо образом  упорядочить изучаемые объекты  в отношении некоторого признака, т. е. прописать им порядковые номера — ранги (по два номера в соответствии с двумя признаками), то в качестве выборочной характеристики связи можно  воспользоваться, например, т. н. коэффициентом  ранговой корреляции:

 ,

где d— разность рангов по обоим признакам для каждого объекта. По степени уклонения R от нуля можно сделать некоторое заключение о степени зависимости качественных признаков. Проверка гипотезы независимости признаков при небольшом объёме выборки производится с помощью специальных таблиц, а при n > 10 для вычисления критических значений выборочных коэффициентов пользуются тем, что эти величины распределены приближённо нормально.

Корреляционный  анализ  является  одним  из  методов   статистического анализа взаимосвязи нескольких признаков. Он определяется как метод, применяемый тогда, когда данные  наблюдения можно  считать  случайными  и  выбранными   из   генеральной   совокупности, распределенной  по  многомерному   нормальному   закону.   Основная   задача корреляционного анализа (являющаяся  основной  и  в  регрессионном  анализе) состоит в оценке уравнения регрессии.

      Корреляция  –  это   статистическая   зависимость   между   случайными величинами,  не  имеющими  строго  функционального  характера,  при  которой изменение одной из случайных величин приводит  к  изменению  математического ожидания другой.

1. Парная корреляция  –   связь  между  двумя  признаками  (результативным  и факторным или двумя факторными).

2. Частная корреляция  – зависимость между результативным  и  одним  факторным признаками  при фиксированном значении других  факторных признаков.

3. Множественная корреляция  – зависимость результативного  и двух  или  более факторных  признаков, включенных в исследование.

      Корреляционный  анализ имеет своей задачей   количественное  определение тесноты  связи  между  двумя  признаками  (при   парной   связи)   и   между результативным   признаком   и   множеством   факторных    признаков    (при многофакторной связи).

      Теснота   связи  количественно   выражается   величиной   коэффициентов корреляции.    Коэффициенты    корреляции,    представляя     количественную характеристику тесноты связи между признаками, дают  возможность  определить «полезность» факторных  признаков  при  построении  уравнений  множественной регрессии.  Величина   коэффициентов   корреляции   служит   также   оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

      Первоначально   исследования  корреляции  проводились   в  биологии,   а позднее распространились и на другие области,  в  том  числе  на  социально- экономическую.  Одновременно   с   корреляцией   начала   использоваться   и регрессия.  Корреляция  и  регрессия  тесно  связаны  между  собой:   первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму.  И корреляция, и регрессия служат для установления соотношений между  явлениями и для определения наличия или отсутствия связи между ними. 

 А. В. Прохоров.

 

 

 

 

 

2. Корреляционные  поля и цель их построения

 

Корреляция изучается  на основании экспериментальных  данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xи yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как  и другие статистические методы, основан  на использовании вероятностных  моделей, описывающих поведение  исследуемых признаков в некоторой  генеральной совокупности, из которой  получены экспериментальные значения xи yi

Когда исследуется корреляция между количественными признаками, значения которых можно точно  измерить в единицах метрических  шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая  модель отображает зависимость между  переменными величинами xи yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую  интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: mx, m– средние значения (математические ожидания); sx,s– стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис.1.3, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин  Х и Y

Рис. 1

Если р = 1 или р = -1, то между  случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yопределяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xзначения yтакже увеличиваются), при р = -1 прямая имеет отрицательный наклон (рис.1., б). 
В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xiyi, попадают в область, ограниченную некоторым эллипсом (рис.1, в. г), причем при p > 0 имеет место положительная корреляция (с увеличением xзначения yимеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к  , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. 
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис.1, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить  не только наличия статистической зависимости (линейную или нелинейную) между  исследуемыми признаками, но и ее тесноту  и форму. Это имеет существенное значение для следующего шага в анализе  ѕ выбора и вычисления соответствующего коэффициента корреляции. 
Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

 
 
.

 

 

 

 

ЗАКЛЮЧЕНИЕ

Корреляционный анализ дает  возможность  установить  ассоциированы  ли наборы данных по величине,  то  есть:  большие  значения  из  одного  набора данных  связаны  с  большими  значениями   другого   набора   (положительная корреляция); или, наоборот, малые значения одного набора связаны с  большими значениями другого (отрицательная корреляция); или  данные  двух  диапазонов никак не связаны (корреляция близка к нулю). Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции. 
Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной.  
Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй. 
Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго. Например, больший прыжок и большее количество тренировок — прямая корреляция, уменьшение времени, затраченного на преодоление дистанции, и большее количество тренировок — обратная корреляция.

Сила или теснота корреляционной связи характеризуется различными коэффициентами, измеряющими эту  связь. Так, для метрических шкал используется линейный коэффициент  корреляции (Пирсона) - г. Коэффициент  корреляции - величина относительная, он выражается в долях единицы  от -1 до +1. Обычно считается, что г < 0,3 указывает на слабую связь, при 0,3 < г < 0,5 связь признается умеренной, при 0,5 < г < 0,7 корреляция является значительной, а при 0,7 < г < 0,9 - сильной и при  г > 0,9 -очень сильной, близкой к  функциональной связи.

Следует отметить, что коэффициент  корреляции позволяет определить не только тесноту, но и направление  связи ( на это указывают знаки  «+» или «-«). Корреляционный анализ не заканчивается только подсчетом  г. Необходимо проверить значимость коэффициента корреляции при заданном уровне. Если г > г кр. (критическое  значение г кр. находят по специальным  таблицам), то полученному результату можно доверять; если г< г кр., то рассчитанному коэффициенту корреляции доверять нельзя.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Литература

 

   1. В.А. Колемаев, О.В.  Староверов, В.Б. Турундаевский «Теория

       вероятностей  и математическая сатистика»/ М., 1991.

   2. «Теория Статистики»  под редакцией Р.А. Шмойловой/  «ФиС», 1998.

   3. «Многомерный статистический  анализ на ЭBM  с использованием

      пакета  Microsoft Excel»/ М., 1997.

   4. А.А. Френкель, Е.В.  Адамова «Корреляционно регрессионный

      анализ  в экономических приложениях»/ М., 1987.

   5. И.Д.Одинцов «Теория  статистики»/ М., 1998.

   6. А.Н. Кленин, К.К.  Шевченко «Математическая статистика  для

      экономистов-статистиков»/ М., 1990.

Лудченко А.А., Лудченко Я.А., Примак Т.А. 
Основы научных исследований: Учеб. пособие / Под ред. А.А. Лудченко. — 2-е изд., стер. — К.: О-во "Знания", КОО, 2001. — 113 с.




Корреляционный анализ данных социальной динамики