Статическое изучение взаимосвязей
МиНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«тюменский государственный нефтегазовый
университет»
Институт Менеджмента и бизнеса
Кафедра Экономики, организации и управления производством
Реферат
По учебной дисциплине «Статистические методы обработки данных»
На тему: Статистическое изучение взаимосвязей
Выполнил: студент: Кокко А.М, УТСм-13-1
Руководитель: Килин П.М., профессор кафедры ЭкУП , д.э.н.
Тюмень
2014
План;
- Понятие корреляционной связи и предпосылки ее использования.
- Статистические методы выявления наличия корреляционной связи между двумя признаками. Корреляционная и групповая таблицы, «поле корреляции».
- Измерение степени тесноты корреляционной связи в случая парной зависимости.
- Уравнение регрессии. Множественная корреляция.
Понятие корреляционной связи и предпосылки ее использования
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания, так или иначе, определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.
Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.
Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции'.
Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий, которая зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих - факторным признаком.
Рассматривая зависимости между признаками, необходимо выделить, прежде всего, две категории зависимости: 1) функциональные и 2) корреляционные.
Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака.
В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. В простейшем случае применения корреляционной зависимости величина результативного признака рассматривается как следствие изменения только одного фактора (например, энерговооруженность труда рассматривается как причина роста производительности труда). Однако выделенный в данном примере в качестве основного признак-фактор не является единственной причиной изменения результативного признака, а наряду с ним на величину результативного признака влияет множество других причин. Как уже указывалось, на формирование уровня производительности труда на предприятии более или менее существенное влияние оказывают факторы, характеризующие степень совершенства применяемой техники и технологии, уровень механизации и автоматизации труда, специализации производства, состав работающих, текучесть кадров.
Кроме того, сам признак-фактор в свою очередь может зависеть от изменения ряда обстоятельств. В сложном взаимодействии находится результативный признак - в более общем виде он выступает как фактор изменения других признаков. Отсюда результаты корреляционного анализа имеют значение в данной связи, а интерпретация этих результатов в более общем виде требует построения системы корреляционных связей.
Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.
При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости однозначно функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции.
Необходимо отметить, что экономической теории принадлежит решающее слово в обосновании связей между теми или иными признаками. При этом теоретический анализ должен показать, какие факторы влияют на исследуемый признак или же влияние каких факторов должно быть проверено. Статистическое выражение связи между явлениями может показать, что изменения одного из сопоставляемых признаков сопровождаются изменениями другого. Следовательно, нужно искать объяснение этим изменениям в их содержательном анализе. С помощью статистических методов изучения зависимостей можно установить, как проявляется теоретически возможная связь в данных конкретных условиях. Статистика не только отвечает на вопрос о реальном существовании намеченной теоретическим анализом связи, но и дает количественную характеристику этой зависимости. Зная характер зависимости одного явления от других, можно объяснить причины и размер изменений в явлении, а также планировать необходимые мероприятия для дальнейшего его изменения.
При исследовании корреляционных зависимостей между признаками, решению подлежит широкий круг вопросов, к которым следует отнести: 1) предварительный анализ свойств моделируемой совокупности единиц; 2) установление факта наличия связи, определение ее направления и формы; 3) измерение степени тесноты связи между признаками; 4) построение регрессионной модели, т.е. нахождение аналитического выражения связи; 5) оценка адекватности модели, ее экономическая интерпретация и практическое использование.
Для того чтобы результаты корреляционного анализа нашли практическое применение и дали желаемый результат, должны выполняться определенные требования в отношении отбора объекта исследования и признаков-факторов. Одним из важнейших условий правильного применения методов корреляционного анализа является требование однородности тех единиц, которые подвергаются изучению методами корреляционного анализа. Например, при корреляционном анализе зависимостей тех или иных технико-экономических показателей работы предприятий от определенных факторов должны быть отобраны предприятия, выпускающие однотипную продукцию, имеющие одинаковый характер технологического процесса и тип используемого оборудования, для предприятий добывающей промышленности определенную роль играет и географическое размещение предприятий.
При выполнении указанных общих требований далее необходима количественная оценка однородности исследуемой совокупности по комплексу признаков. Одним из возможных вариантов такой оценки, является расчет относительных показателей вариации. Традиционно широкое распространение для этих целей получил коэффициент вариации. Несколько реже применяется отношение размаха вариации к среднеквадратическому отклонению. Вывод о неоднородности исследуемой совокупности по тому или иному признаку требует проверки гипотезы о принадлежности «выделяющихся» (аномальных) значений признака исследуемой генеральной совокупности.
Другим важным требованием, обеспечивающим надежность выводов корреляционного анализа, является требование достаточного числа наблюдений. Как уже указывалось, влияние существенных причин может быть затушевано действием случайных факторов, «взаимопогашение» влияния которых на результативный показатель в известной мере происходит при выведении средней результативного показателя для массы случаев.
Определенные требования существуют и в отношении факторов, вводимых в исследование. Все множество факторов, оказывающих влияние на величину результативного показателя, в действительности не может быть введено в рассмотрение, да практически в этом и нет необходимости, так как их роль и значение в формировании величины результативного, показателя могут иметь существенные различия. Поэтому при ограничении числа факторов, включаемых в изучение, наряду с качественным анализом целесообразно использовать и определенные количественные оценки, позволяющие конкретно охарактеризовать влияние факторов на результативный показатель (к оценкам можно отнести парные коэффициенты корреляции, ранговые коэффициенты при экспертной оценке влияния факторов). Включаемые в исследование факторы должны быть независимыми друг от друга, так как наличие тесной связи между ними свидетельствует о том, что они характеризуют одни и те же стороны изучаемого явления и в значительной мере дублируют друг друга.
Все основные положения теории корреляции разрабатывались применительно к предположению о нормальном характере распределения исследуемых признаков. В этой связи целесообразным является изучение формы распределения, дающее возможность в известной мере обосновать правомерность применения методов корреляционного анализа.
Проверку нормальности распределения зависимой переменной можно проводить при каждом фиксированном значении факторного признака или внутри каждого отдельного интервала группирования, на которые разбит диапазон изменения факторного признака, пользуясь различными критериями согласия. Для проверки исходной предпосылки нормальности распределения необходимо в каждой группе иметь достаточно большое количество наблюдений, что в практических исследованиях встречается довольно редко.
Следует отметить, что на практике часто сталкиваются с теми или иными отклонениями от исходных предпосылок. Однако это не означает, что мы должны отказываться от применения методов корреляционно-регрессионного анализа.
И, наконец, при построении корреляционных моделей факторы должны иметь количественное выражение, иначе составить модель корреляционной зависимости не представляется возможным.
Статистические методы выявления наличия корреляционной связи между двумя признаками. Корреляционная и групповая таблицы, «поле корреляции»
Для выявления наличия или отсутствия корреляционной связи используется ряд методов:
1. параллельное сопоставление
рядов значений результативного
и факторного признаков. При этом
значения факторного признака
располагают в возрастающем порядке,
а затем прослеживают направление
изменения результативного. Результативный
признак будет - Y, а факторный - Х;
2. построение групповой и корреляционной таблиц.;
3. дисперсионный анализ.
Результативный признак функцию обозначаем через Y, факторный признак через Х. Например, по 20 партиям деталей была установлена величина среднего времени межоперационных перерывов между двумя смежными технологическими операциями и величина средней занятости рабочего места выполнением одной операции.
№ партии деталей |
Средняя занятость рабочего места, ч |
Среднее время межоперационных перерывов, ч |
№ партии деталей |
Средняя занятость рабочего места, ч |
Среднее время межоперационных перерывов, ч |
1 |
0,22 |
1,46 |
11 |
0,26 |
0,69 |
2 |
0,22 |
1,12 |
12 |
0,30 |
0,80 |
3 |
0,22 |
1,18 |
13 |
0,30 |
0,61 |
4 |
0,24 |
0,82 |
14 |
0,30 |
0,95 |
5 |
0,24 |
1,26 |
15 |
0,30 |
0,73 |
6 |
0,24 |
0,90 |
16 |
0,32 |
0,50 |
7 |
0,24 |
1,02 |
17 |
0,32 |
0,37 |
8 |
0,24 |
1,08 |
18 |
0,32 |
0,47 |
9 |
0,26 |
0,57 |
19 |
0,32 |
0,32 |
10 |
0,26 |
1,37 |
20 |
0,32 |
0,36 |
Параллельное сопоставление позволяет установить, что увеличение средней занятости рабочего места влечет за собой уменьшение среднего времени межоперационных перерывов, хотя в отдельных случаях наличие отмеченной зависимости может и не усматриваться.
Однако наличие большого числа различных значений результативных признаков, соответствующих одному и тому же значению признака - фактора затрудняет восприятие таких рядов, поэтому для установления факта наличия связи пользуются корреляционными или групповыми таблицами.
В корреляционной таблице факторный признак Х располагается в строках, а результат Y в колонках таблицы. Числа расположенные на пересечении строк и столбцов показывают частоту повторений данного сочетания значений Х и Y.
Построим корреляционную таблицу 2, в которой Х - средняя занятость рабочего места (факторный признак); Y - среднее время межоперационных перерывов (результативный признак).
| Среднее время межоперац. перерывов. Средняя Группа Занятость поY по Х |
0,32 -0,55 |
0,55 - 0,78 |
0,78 - 1,01 |
1,01 - 1,24 |
1,24 - 1,47 |
||
Середина интервала |
0,435 |
0,665 |
0,895 |
1,125 |
1,355 | ||
0,22 0,24 0,26 0,30 0,32 |
5 |
2 2 |
2 2 |
2 2 |
1 1 1 |
3 5 3 4 5 |
1, 202 1,079 0,895 0,780 0,435 |
5 |
4 |
4 |
4 |
3 |
20 |
- среднее значение результатов признака;
- частота повторений данного варианта значений факторного признака во всей совокупности;
- частота повторений значений результатов признака во всей совокупности.
Для результатов признака необходимо определить величину интервала по формуле Стреджесса
,
.
Среднее время межоперационных перерывов для партии деталей имеющих среднюю занятость рабочего места 0,223
и т.д.
Корреляционная таблица уже при общем знакомстве дает возможность выдвинуть предложение о наличии или отсутствии связи, а также выявить ее направление.
Если частота в корреляционной таблице расположена по диагонали из левого верхнего угла в правый нижний угол (т.е. большим значениям Х соответствует большее значение Y) можно предположить о наличии прямой корреляционной зависимости, если наоборот то обратной. Т.о. уменьшение средних значений результативного признака с увеличением значения факторного признака еще раз свидетельствует о обратной корреляционной зависимости среднего времени межоперационных перерывов партии деталей от средней занятости рабочего места. Другим приемом обнаружения связи является построение групповой таблицы 3. Все наблюдения разбиваем на группы в зависимости от величины признака - фактора и по каждой группе вычисляем среднее значение результативного признака.
Группы партий деталей по уровню средней занятости |
Сумма значений результативного признака в группе |
Число партий деталей в группе |
Среднее значение результативного признака в группе |
0,22 |
3,76 |
3 |
1,253 |
0,24 |
5,08 |
5 |
1,016 |
0,26 |
2,63 |
3 |
0,877 |
0,30 |
3,09 |
4 |
0,773 |
0,32 |
2,02 |
5 |
0,404 |
Итого |
16,58 |
20 |
0,829 |
Сравнив средние значения результирующего признака по группам можно также сделать вывод, что рост средней занятости рабочего места влечет за собой снижение величины межоперационных перерывов, т.е. можно сказать имеет место обратная корреляционная связь.
Если бы связи между факторными и результативными признакам не было, то все групповые средние были бы приблизительно одинаковы по величине. Оценка существенности расхождения групповых средних лежит в основе использования метода дисперсионного анализа для выявления наличия и оценки связи.
Для предварительного выявления связи и раскрытия ее характера применяют графический метод. Используя данные таблицы 1 построить точечный график, который называют поле корреляции.
Нанеся данные таблицы 3 и соединяя последовательно отрезками прямых соответствующих им точек, получим эмпирическую линию связи.
Если эмпирическая линия приближается к прямой, - предполагают наличие прямолинейной корреляционной связи, если к какой либо кривой, то это может быть связано с наличием криволинейной корреляционной связи.
Измерение степени тесноты корреляционной связи в случае парной зависимости
Показатели степени тесноты связи дают
возможность охарактеризовать зависимость
вариации результативного признака от
вариации признака-фактора. В известной
мере они дополняют и развивают уже отмеченные
приемы обнаружения связи.
Зная показатели тесноты корреляционной связи, мы можем решать следующие группы вопросов:
ответить на вопрос о необходимости изучения данной связи между признаками и целесообразности ее практического применения;
сопоставляя показатели тесноты связи для различных ситуаций, можно судить о степени различий в ее проявлении для конкретных условий;
и, наконец, сопоставляя показатели тесноты связи результативного признака с различными факторами, можно выявить те факторы, которые в данных конкретных условиях являются решающими и главным образом воздействуют на формирование величины результативного признака.
К простейшим показателям степени тесноты
связи относят коэффициент корреляции
знаков, который был предложен немецким
ученым Г.Фехнером (1801-1887). Этот показатель
основан на оценке степени согласованности
направлений отклонений индивидуальных
значений факторного и результативного
признаков от соответствующих средних.
Для его расчета вычисляют средние значения
результативного и факторного признаков,
а затем проставляют знаки отклонений для
всех значений взаимосвязанных пар признаков.
Коэффициент Фехнера может принимать
различные значения в пределах от -1 до
+1, Если знаки всех отклонений совпадут,
то показатель будет равен 1, что свидетельствует
о возможном наличии прямой связи. Если
же знаки всех отклонений будут разными,
тогда коэффициент Фехнера будет равен
-1, что дает основание предположить наличие
обратной связи.
Величина коэффициента Фехнера не зависит
от величины отклонений факторного и результативного
признака от соответствующей средней
величины. Поэтому нельзя говорить о степени
тесноты корреляционной связи, а тем более
об оценке ее существенности на основании
только коэффициента Фехнера. При малом
объеме исходной информации коэффициент
Фехнера практически решает ту же задачу,
которая ставится при построении групповых
и корреляционных таблиц, т.е. отвечает
на вопрос о наличии и направлении корреляционной
связи между признаками. В том случае,
если построена корреляционная или же
групповая таблица, дополнительный расчет
коэффициента Фехнера не имеет практической
ценности.
Более совершенным показателем степени
тесноты связи является линейный коэффициент
корреляции. При расчете этого показателя
учитываются не только знаки отклонений
индивидуальных значений признака от
средней, но и сама величина таких отклонений.
Однако непосредственно сопоставлять
между собой полученные абсолютные величины
нельзя, так как сами признаки могут быть
выражены в разных единицах (как это имеет
место в представленном примере), а при
наличии одних и тех же единиц измерения
средние могут быть различны по величине.
В этой связи сравнению могут подлежать
отклонения, выраженные в относительных
величинах, т.е. в долях среднего квадратического
отклонения (их называют нормированными
отклонениями). Для того чтобы на основе
сопоставления рассчитанных нормированных
отклонений получить обобщающую характеристику
степени тесноты связи между признаками
для всей совокупности, рассчитывают среднее
произведение нормированных отклонений.
Полученная таким образом средняя и будет
являться линейным коэффициентом корреляции.
Расчет коэффициента Фехнера представлен
в таблице.
| Порядковый номер фирмы |
Затраты на рекламу, усл. ден. ед.X. |
Количество туристов, воспользовавшихся услугами фирмы, человекУ |
Знаки отклонений индивидуальных значений признака от средней |
Совпадение (а) или несовпадение (в)знаков | |
для X |
для у | ||||
1 |
2 |
3 |
4 |
5 |
6 |
1 |
8 |
800 |
а | ||
2 |
8 |
850 |
- |
а | |
3 |
8 |
720 |
- |
а | |
4 |
9 |
850 |
а | ||
5 |
9 |
800 |
- |
- |
а |
6 |
9 |
880 |
а | ||
7 |
9 |
950 |
- |
а | |
8 |
9 |
820 |
- |
а | |
9 |
10 |
900 |
+ |
Ь | |
10 |
10 |
1000 |
+ |
+ |
а |
11 |
10 |
920 |
+ |
b | |
12 |
10 |
1060 |
+ |
+ |
а |
13 |
10 |
950 |
+ |
b | |
14 |
11 |
900 |
+ |
Ь | |
15 |
11 |
1200 |
+ |
+ |
а |
15 |
11 |
1150 |
+ |
+ |
а |
17 |
11 |
1000 |
+ |
+ |
а |
18 |
12 |
1200 |
+ |
+ |
а |
19 |
12 |
1100 |
+ |
+ |
а |
20 |
12 |
1000 |
+ |
+ |
а |
Линейный коэффициент корреляции может
принимать любые значения в пределах от
-1 до +1. Чем ближе коэффициент корреляции
по абсолютной величине к 1, тем теснее
связь между признаками. Знак при линейном
коэффициенте корреляции указывает на
направление связи - прямой зависимости
соответствует знак плюс, а обратный зависимости
- знак минус.
Если с увеличением значений факторного
признака х, результативный признак у имеет
тенденцию к увеличению, то величина коэффициента
корреляции будет находиться между О и
1. Если же с увеличением значений х результативный
признак у имеет тенденцию к снижению,
коэффициент корреляции может принимать
значения в интервале от 0 до —1.
Квадрат коэффициента корреляции носит
название коэффициента детерминации. В
тех случаях, когда исходная информация
представлена в виде корреляционной таблицы,
нужно учитывать частоты повторений как
индивидуальных значений факторного и
результативного признаков, так и число
повторений данного сочетания значений
фактора и результата. Здесь еще раз следует
напомнить, что сама по себе величина коэффициента
корреляции не является доказательством
наличия причинно-следственной связи
между исследуемыми признаками, а является
оценкой степени взаимной согласованности
в изменениях признаков. Установлению
причинно-следственной зависимости предшествует
анализ качественной природы явлений.
Но есть и еще одно обстоятельство, объясняющее
формулировку выводов о возможном наличии
связи по величине коэффициента корреляции.
Связано это с тем, что оценка степени
тесноты связи с помощью коэффициента
корреляции производится, как правило,
на основе более или менее ограниченной
информации об изучаемом явлении. Возникает
вопрос, насколько правомерно наше заключение
по выборочным данным в отношении действительного
наличия корреляционной связи в той генеральной
совокупности, из которой была произведена
выборка?
Принципиально возможны случаи, когда
отклонение от нуля полученной величины
выборочного коэффициента корреляции
оказывается целиком обусловленным неизбежными
случайными колебаниями тех выборочных
данных, на основании которых он вычислен.
Особенно осторожно следует подходить
к истолкованию полученных коэффициентов
корреляции при незначительных объемах
выборочной совокупности.
В этой связи и возникает необходимость
оценки существенности линейного коэффициента
корреляции, дающая возможность распространить
выводы по результатам выборки на генеральную
совокупность. В зависимости от объема
выборочной совокупности предлагаются
различные методы оценки существенности
линейного коэффициента корреляции. В
отношении приводимых ниже критериев
существенности можно сделать общее замечание,
касающееся свойств исходной совокупности.
Этим свойством является нормальное распределение
значений признака в генеральной совокупности.
1. При большом объеме выборки, отобранной
из исходной нормально распределенной
совокупности, можно считать распределение
линейного коэффициента корреляции приближенно
нормальным со средней, равной с и дисперсией а. Полученную
величину t сравнивают
с табличным значением f-критерия (число
степеней свободы равно n-2). Если рассчитанная
величина t превосходит
табличное значение критерия t, то практически
невероятно, что найденное значение обусловлено
только случайными совпадениями х и у в
выборке из генеральной совокупности,
для которой действительное значение
коэффициента корреляции равно нулю. Если
же вычисленная величина f меньше, чем
в таблице, то полагают, что коэффициент
корреляции в генеральной совокупности
в действительности равен нулю и соответственно,
эмпирический коэффициент корреляции
существенно не отличается от нуля.
2. Проверку гипотезы об отсутствии связи
можно сделать и без вычислений, пользуясь
таблицей, составленной Р. Фишером. В этой
таблице показывается величина коэффициента
корреляции, которая может считаться существенной
при данном количестве наблюдений. При
пользовании этой таблицей величину коэффициента
корреляции следует искать для числа степеней
свободы, равного n-2. Краткая выдержка
из таблицы значений коэффициентов корреляции
при различных уровнях критерия значимости
приведена в табл.

- Статическое электричество
- Статическое электричество. Защита от статического электричества
- Статическое электричество и защита от него
- Статичні фактори розвитку туризму в Африканському макрорегіоні
- Стато-моторная функция у детей дошкольного возраста
- Стаття за 11 октября 2011 року
- Статус адвоката
- Статические и динамические показатели. Продолжительность жизни
- Статические и динамические эффекты интеграции
- Статические методы определения жевательной эффективности
- Статические упражнения
- Статический анализ уголкового кронштейна
- Статический и динамический балансы
- Статический и динамический подходы к моделированию управленческих форматов баланса активов, обязательств и капитала организации