Статистическое изучение взаимосвязи социально- экономических явлений и процессов
Введение
- Статистическое изучение взаимосвязи социально-
экономических
явлений и процессов
- Характеристика регрессионного анализа
- Оценка взаимосвязи между факторным и
результативным признаком на основе регрессионного
анализа
- Отбор факторных признаков для построения
множественной
регрессионной модели
- Проверка адекватности моделей, построенных
на основе уравнений регрессии
- Применение регрессионного анализа для изучения
объекта исследования
Заключение
Список литературы
Приложения
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.
В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей.
Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
Данная работа посвящена изучению взаимосвязи социально-экономических явлений, регрессионного анализа и его применении.
1 СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ
ВЗАИМОСВЯЗИ СОЦИАЛЬНО-
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики [1].
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой группы называются признаками-факторами (факторными признаками), а признаки, которые являются результатом влияния этих факторов, называются результативными (как на объем выпуска влияет техническая оснащенность производства, тогда объем производства – результативный, а техническая оснащенность – факторный признак).
Различают два вида зависимостей между экономическими явлениями – функциональную и стохастическую. При функциональной связи каждой определенной системе значений факторных признаков соответствуют одно или несколько строго определенных значений результативного признака. Для исследования функциональных связей применяются балансовый и индексный методы.
Стохастическая (вероятностная) связь проявляется только в массовых явлениях, когда заданным значениям зависимой переменной соответствует
некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. В
данной связи каждой определенной системе значений факторных признаков
соответствует некоторое множество значений результативного признака. Изменение факторных признаков приводит не к строго определенному изменению результативного признака, а к изменению только распределения его значений. Это обусловлено тем, что зависимая переменная, кроме выделенной переменной, подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение переменных неизбежно сопровождается некоторыми случайными ошибками. Поскольку значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а только указаны с определенной вероятностью (число бракованных деталей за смену, количество простоев за смену и т.д.).
Стохастическую связь называют корреляционной. Корреляция в широком смысле слова означает связь, соотношение между объективно
существующими явлениями и процессами [3].
Регрессия – это частный случай корреляции. В то время, как в корреляционном анализе оценивается сила стохастической связи, в регрессионном анализе исследуется ее форма, т.е. находится уравнение корреляционной связи (уравнение регрессии).
Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех
факторов на результативный признак. Если связь между факторами несущественна, можно ограничиться индексным анали зом. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным
признаком.
Рис.1.1 Связи в системе трех переменных:
а-обе переменные x и z влияют на y; б- переменная z не влияет на y; ее влияние полностью входит в x; в-переменная z поглощает влияние x и передает его, влияя на y; г- переменная z субследствие из y; д- переменная z не влияет на y;е-переменная x не влияет на y; ж -переменные z и y не связаны между собой,но имеют общую причину x; з-переменная z передает свое влияние на y как непосредственно,так и через x; и- переменная x передает свое влияние на y как непосредственно,так и через z; к- переменная x влияет как на z ,так и на y и конкурирует с y во влиянии на z.
Рассмотрим различные виды регрессии.
По числу переменных различают регрессию:
1) парную – регрессия
между двумя переменными (
2) множественную –
регрессия между зависимой
Относительно формы зависимости различают: линейную регрессию;
нелинейную регрессию.
Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению [2].
По степени тесноты связи различают:
Таблица 1.1
Количественные критерии оценки тесноты связи
Величина коэффициента корреляции |
Характер связи |
До ±0,3 |
Практически отсутствует |
±0,3 - ±0,5 |
слабая |
±0,5 - ±0,7 |
умеренная |
±0,7 - ±1,0 |
сильная |
В зависимости от характера регрессии различают:
1) прямую регрессию. Она
имеет место, если с
2) обратную регрессию.
В этом случае с увеличением
или уменьшением значений
Относительно типа соединений явлений различают:
1) непосредственную регрессию.
В этом случае явления
2) косвенную регрессию. Она имеет место тогда, если факторная и
результативная переменная не состоят непосредственно в причинно-следственных отношениях и факторная переменная через какую-то другую переменную действует на результативную переменную (число пожаров и
урожайность зерновых (метеорологические условия)).
3) ложная или абсурдная
регрессия. Она возникает при
формальном подходе к
Аналогична классификация и корреляции.
Поясним
на графике (рис.1.2,а и б)
Угол
наклона линии регрессии
(а)ryx≠(б)ryx ;
(а)byx=(б)byx .
рис.1.2 Регрессия при разной интенсивности корреляции:
а-тесная ; б-слабая
Относительно своей аналитической формы связи бывают линейными и
нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно [4].
Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.
Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.
Изучение взаимозависимостей в экономике имеет большое значение. Статистика не только отвечает на вопрос о реальном существовании связи между явлениями, но и дает количественную характеристику этой зависимости. Зная характер зависимости одного явления от другого, можно объяснить причины и размеры изменений в явлении, а также планировать необходимые мероприятия для дальнейшего его изменения.
В наиболее общем виде задача статистики в области изучения
взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в
себя методы корреляционного анализа, а другая – регрессионный анализ. В
то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.
2 ХАРАКТЕРИСТИКА РЕГРЕССИОННОГО АНАЛИЗА
2.1 Оценка взаимосвязи между факторным и результативным признаком на основе регрессионного анализа
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями [5]:
Прямой y0=a0+a1x
гиперболы y0=a0+a1
параболы y0=a0+a1+a2x2
и так далее.
Определить тип уравнения можно, исследуя зависимость графически, однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи - гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная регрессия.
Оценка параметров уравнений регрессии (a0, a1, и a2 - в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели (a0 , a1), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
S= Σ (y-yx)2→min
Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет
следующий вид:
где n - объем исследуемой совокупности (число единиц наблюдения).
В уравнениях регрессии параметр a0 показывает усредненное влияние на результативный признак неучтенных в уравнении факторных признаков; коэффициент регрессии a1 показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
На практике исследования часто проводятся по большому числу наблюдений. В этом случае исходные данные удобнее представлять в сводной групповой таблице. При этом анализу подвергаются сгруппированные данные и по факторному (x) и по результативному (y) признакам, то есть уравнения парной регрессии целесообразно строить на основе сгруппированных данных [6].
Если значения x и y заданы в определенных интервалах (a, b), то для каждого интервала сначала необходимо определить середину (x’/y’ = (a+b)/2), а затем уже коррелировать значения x’ и y’ и строить уравнения регрессии между ними.
Система нормальных уравнений для определения коэффициентов уравнения регрессии примет вид:
где n= - число анализируемых предприятий;
fx/fy - число предприятий, согласно распределению, соответственно по
факторному и результативному признакам;
yfy / xfx - значения результативного и факторного признака по конкретной группе предприятий.
2.2 Отбор факторных признаков для построения множественной регрессионной модели
Изучение связи между тремя и более связанными
между собой признаками носит название
множественной (многофакторной) регрессии: y1,2,…,k=f(x1,x2,…,xk)
Построение моделей множественной регрессии включает несколько этапов [7]:
1. Выбор формы связи (уравнения регрессии);
2. Отбор факторных признаков;
3. Обеспечение достаточного объема совокупности.
Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно выбрать целый ряд уравнений, которые в определенной степени будут описывать эти связи. Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.
Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков.
С одной стороны, чем больше факторных признаков включено в уравнение, тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных, экономически и статистически несущественных факторов способствует простоте и качеству ее реализации.
В то же время построение модели регрессии малой размерности может привести к тому, что такая модель будет недостаточно адекватна исследуемым явлениям и процессам.
Проблема отбора факторных признаков для построения моделей
взаимосвязи может быть решена на основе интуитивно-логических или
многомерных статистических методов анализа [8].
Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ).
Сущность метода шаговой
регрессии заключается в
Фактор является незначимым, если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициента регрессии не изменяется (или меняется несущественно), то данный признак существенен и его включение в уравнение регрессии необходимо. В противном случае, фактор нецелесообразно включать в модель регрессии.
При построении модели регрессии возможна проблема мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель (rxij >0,8).
Наличие мультиколлинеарности между признаками приводит к:
- искажению величины параметров модели, которые имеют тенденцию к завышению, чем осложняется процесс определения наиболее существенных факторных признаков;
- изменению смысла экономической интерпретации коэффициентов регрессии.
В качестве причин возникновения мультиколлинеарности между признаками, можно выделить следующие:
- изучаемые факторные признаки являются характеристикой одной и той же стороны явления или процесса. Например: показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;
- факторные признаки являются составляющими элементами друг друга;
- факторные признаки по экономическому смыслу дублируют друг друга.
Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы [9].
Вопрос о том, какой из факторов следует отбросить, решается на основании качественного и логического анализа изучаемого явления.
Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению числа наблюдений, так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей.
Аналитическая форма связи результативного признака от ряда факторных выражается и называется многофакторным (множественным)
уравнением регрессии или моделью связи.
Линейное уравнение множественной регрессии имеет вид: y1,2,…,k=a0+ax1+ax2+…+axk , (2.8)
где y1,2,…,k - теоретические значения результативного признака, полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии; x1,x2,…,xk
x1,x2,…,xk - факторные признаки;
a1,a2,…,ak - параметры модели (коэффициенты регрессии).
Параметры уравнения могут быть определены графическим методом, методом наименьших квадратов и так далее.
2.3 Проверка адекватности моделей, построенных на основе уравнений регрессии
Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относится исследуемое явление. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков.
Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый [10].
Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается.
Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он имеет знак минус, то необходимо проверить расчеты параметров уравнения регрессии. Такое
явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь ввиду, что когда рассматривается совокупное влияние факторов, то в силу наличия взаимосвязей между ними характер их влияния может меняться.
С целью расширения возможностей экономического анализа, используются частные коэффициенты эластичности, определяемые по формуле:
Эxi=a1*