Сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность
Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Оренбургский государственный университет»
Кафедра математических методов и моделей в экономике
Курсовая работа
по дисциплине «Многомерные статистические методы»
Сравнительный анализ муниципальных образований Оренбургской области по набору показателей,
характеризующих социальную напряженность
ОГУ 080601.65.5012.08 ОО
Исполнитель
Оренбург 2012
Содержание
Введение………………………………………………………… 1 Многомерная классификация муниципальных образований Оренбургской области методом кластерного анализа…………......
1.2 Практическая реализация метода кластерного анализа………. 1.2.1 Классификация муниципальных
образований Оренбургской 1.2.2 Классификация муниципальных
образований Оренбургской 1.2.3 Сравнение классификаций………………… 1.2.4 Содержательная интерпретация результатов классификации……….. 2 Снижение
размерности признакового пространства
методом главных компонент……………………………………………………… 2.1 Теоретические аспекты методом главных компонент …………………. 2.2 Практическая реализация метода главных компонент…………………. 3 Многомерная классификация муниципальных
образований по выделенным главным
компонентам ………………………….................... 3.1 Классификация муниципальных образований по выделенным главным компонентам с помощью иерархических кластер - процедур …... 3.2 Классификация муниципальных образований по
выделенным главным компонентам с помощью
итерационных кластер - процедур (методом
-средних)……………………………………………………… 3.3Сравнение классификаций ………………………………………………... 3.4 Содержательная интерпретация р Заключение…………………………………………………… Список использованных источников………………………………………… Приложение А – Исходные данные для анализа…………………………… Приложение В……………………………………………… |
4
4 4 7
7
12 14 15
16 16 18
25
25
29 32 33 35 37 38 40 |
Введение
Актуальность темы исследования. Прежде всего, социальная напряженность является необходимым, хотя и не постоянным элементом существования любого сообщества. Человек переживает это явление как стресс, адаптируется к нему, «осваивает» это состояние, оно становится необходимой частью его общественной культуры. Напряженность в тех или иных формах и аспектах сопутствует людям всю жизнь. Социальная напряженность представляет собой эмоциональное состояние в группе или обществе в целом, вызванное давлением со стороны природной или социальной среды, продолжающееся, как правило, в течение более или менее длительного времени. Напряженность может быть вызвана отнюдь не только стремлением достичь какой-либо цели, но и разного рода ошибками или некомпетентностью лидеров. Кроме того, обычное состояние людей может резко измениться из-за воздействия не подконтрольных человеку сил природы: изменения климата, истощения ресурсов, землетрясения и т.д.
Цель. Провести сравнительный анализ муниципальных образований Оренбургской области по набору показателей, характеризующих социальную напряженность.
Объектом исследования являются муниципальные образования Оренбургской области.
Предметом исследования является состояние социальной напряженности, характеризующееся показателями:
x1 – коэффициент смертности (на 1000 человек);
x2 – коэффициент младенческой смертности (на 1000 человек);
x3 –смертность от инфаркта (на 1000 человек);
x4 –смертность от самоубийств (на 1000 человек);
x5 – смертность от убийств (на 1000 человек).
В соответствии с целью были поставлены и решены следующие задачи:
1) провести многомерную классификацию статистического анализа по набору показателей;
2) с помощью метода главных компонент снизить размерность признакового пространства на уровне информативности не менее 70%;
3) провести повторную классификацию муниципальных образований Оренбургской области по выделенным компонентам.
Использовались методы кластерного анализа, методы главных компонент, табличный и графический методы.
Работа выполнялась с использованием ППП Statistica, Excel.
1 Многомерная классификация муниципальных образований Оренбургской области методом кластерного анализа
1.1 Теоретические основы кластерного анализа
Выделяют два метода кластерного анализа: иерархические и итерационные. В свою очередь иерархические делятся на агломеративные и дивизимные.
Основной принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов, сначала самых близких, а затем все более отдаленных друг от друга.
Основной принцип
Общая постановка кластерного анализа
Необходимо разбить анализируемую совокупность объектов , которая может быть представлена в виде матрицы , либо в виде матрицы на сравнительно небольшое число однородных групп или классов
Под однородностью объектов в рамках кластерного анализа понимают правило для вычисления характеристики характеризующих расстояние объектов , либо степень близости или меру сходства i-го и j-го объекта
Если задана функция , то близкие, с точки зрения этой метрики объекты будут считаться однородными.
При определении правил расчета расстояния или меры сходства должны выполняться следующие требования:
- Требование симметричности
- Требование максимального сходс
тва объекта с самим собой
- Требование монотонного убывани
я меры близости по расстоянию
Если , то
Основные метрики кластерного анализа
- Расстояние между объектами
Обобщенный вид метрики Махаланобиса
- вектор значений признака характеризующих
- некоторая симметрическая
- ковариационная матрица
- Обычное Евклидово расстояние
Данная метрика применяется в трех случаях:
- Если наблюдения извлекаются
из нормального распределенной
генеральной совокупности с
- Компоненты вектора Х однородны по физическому смыслу и одинаково важны для классификации.
- Признаковое пространство
совпадает с геометрическим
3) Взвешенное Евклидово расстояние
- Хеммингово расстояние
Используется для
- Расстояние Минновского
- Расстояние Чебышева
- Квадратическое Евклидово расст
ояние простое
Расстояние между классами объектов
Пусть - это группа объектов образующих i-й класс или кластер
- вектор средних арифметических характеризующих i-й класс
расстояние между классом
- Расстояние измеряемое по принципу «ближнего соседа»
- Расстояние измеряемое по принципу дальнего соседа
- Расстояние измеренное по центрам тяжести групп
- Расстояние измеренное по принципу средней связи
- Расстояние измеренное по принципу медианной связи
- Обобщенное расстояние между классами предложенное Колмагоровым которое в качестве частных случаев включает в себя все рассмотренные выше расстояния основано на понятии степенного среднего и определяется по формуле.
Функционалы качества разбиения
При различных методах кластерного анализа для одной и той же совокупности объектов могут быть получены различные варианты разбиения.
Существование влияния
на результат кластеризации
1) Набор признаков, по которым осуществляется классификация
2) Тип выбранного алгоритма
3)Выбор метрики.
Поэтому возникает необходимость выбора лучшего разбиения. С этой целью вводится функционал качества разбиения. Под наилучшим разбиением понимается разбиение, на котором достигается экстремум выбранного функционала качества.
Характеристики функционала качества:
- Сумма квадратов расстояний до центра классов
- Сумма внутриклассовых расстояний .
В данном случае
наилучшим следует считать то
разбиение, при котором
- Суммарная внутриклассовая дисперсия
1.2 Практическая реализация метода кластерного анализа
1.2.1 Классификация муниципальных образований Оренбургской области с помощью иерархических кластер - процедур.
На основе исходных данных из статистического ежегодника территориального органа Федеральной службы государственной статистки по Оренбургской области за 2008 год (Приложение А, рисунок 1), необходимо провести классификацию муниципальных образований, иерархическими агломеративными методами кластерного анализа, содержащая результаты кластерного анализа и вертикальную дендрограмму (рисунок 1). Так как все показатели единиц измерения признаков одинаковые, то переходим к решению задачи классификации.
Рисунок 1 – Дендрограмма объединения классов методом «полных связей».
Методом «полных связей» при пороговом значении расстояния все города и районы Оренбургской области разбиваются на три класса S1 ={S , S , S }. К первому классу относятся - 8 , ко второму – 29, к третьему – 10.
Таблица 1 – Объединение классов методом полной связи
Номер класса |
Кол-во объектов классе |
Состав кластер |
S |
37 |
Районы: Бузулукский, Бугурусланский, Ясненский, Новоорский, Матвеевский, Асекеевский, Тоцкий, Переволоцкий, Северный, Курманаевский, Светлинский, Кувандыкский, Илекский, Саракташский, Соль-Илецкий, Сакмарский, Тюльганский, Красногвардейский, Октябрьский, Беляевский, Грачевский, Александровский, Оренбургский, Ташлинский, Акбулакский, Первомайский, Адамовский. Города: Орск, Новотроицк, Бузулук, Бугуруслан, Соль-Илецк, Оренбург, Ясный, Кувандык, Сорочинск, Гай. |
S |
8 |
Районы: Шарлыкский, Сорочинский, Пономаревский, Кваркенский, Домбаровский, Гайский. Города: Абдулино, Медногорск. |
S |
2 |
Районы: Новосергиевский, Абдулинский. |
Таблица 2 – Средние значения признаков в кластерах, полученных
методом «полных связей»
Номер кластера |
Среднее значение коэффициента смертности |
Среднее значение Младенческой смертности |
Среднее значение смертности от инфаркта |
Среднее значение Смертности от самоубийств |
Среднее значение Смертности от убийств |
|
14,46 |
6,07 |
39,74 |
47,67 |
17,91 |
|
16,24 |
19,58 |
39,47 |
65,47 |
13,83 |
|
19,9 |
15,6 |
84,5 |
48,25 |
34,6 |
Рисунок 2 – График средних значений признаков в каждом кластере
Анализируя график средних значений в классах, можно сделать следующие выводы:
Первый класс схож со вторым и с третьим показателем только по показателям младенческой смертности ( X2 ), который находится на достаточно низком уровне от значений смертности от инфаркта (Х3) и смертности от самоубийств (Х4). По всем остальным показателям объекты первого класса можно сказать, что среднее значение коэффициента смертности (Х1) ниже среднего значения третьего кластера.
Объект второго класса, куда вошло большинство городов Оренбургской области, характеризуется высоким средним значением смертности от инфаркта (X3) и средним значением смертности от самоубийств (X 4 ) , который выше первого и третьего кластера. В тоже время объекты данного класса характеризуются низким уровнем смертности от убийств (Х5).
Третий класс характеризуется по сравнению с остальными классами наименьшими средними значением всех показателей.
С помощью метода «полных связей» получено достаточно неравномерное распределение объектов по классам, так в первый класс вошло 8 объектов, в то время как во второй класс -29 объектов. Данный недостаток можно устранить методом Уорда.
Объединения классов методом Уорда
Вертикальная дендрограмма объединения классов методом Уорда представлена на рисунке 3.
Рисунок 3 – Дендрограмма объединения классов методом Уорда
На все объекты разделяются на 3 класса, состав которых приведен в таблице 3.
Таблица 3 – Объединение классов методом Уорда
Номер кластера |
Кол-во объектов |
Состав кластер |
|
23 |
Города: Гай, Бузулук, Бугуруслан, Оренбург, Ясный,Соль-Илецк, Сорочинск Районы: Северный, Курманаевский, Светлинский, Кувандыкский, Илекский, Грачевский, Тоцкий, Переволоцкий, Александровский, Октябрьский, Беляевский, Тюлбганский, Красногвардейский, Оренбургский, Ташлинский, Акбулакский |
|
18 |
Города: Абдулино, Медногорск, Кувандык Районы:Шарлыкский, Сорочинский, Пономаревский, Кваркенский, Ясненский, Новоорский, Матвеевский, Алексеевский, Гайский, Соль-Илецкий, Саракташский, Домбаровский, Сакмарский, Переволоцкий, Адамовский |
|
6 |
Города : Орск, Новотроицк Районы: Бузулукский, Бугурусланский, Новосергиевский, Абдулинский |
Таблица 4 – Средние значения признаков в кластерах, полученных
методом Уорда
Номер кластера |
Среднее значение коэффициента смертности |
Среднее значение Младенческой смертности |
Среднее значение смертности от инфаркта |
Среднее значение Смертности от самоубийств |
Среднее значение Смертности от убийств |
|
14,06 |
5,5 |
41,06 |
41,41 |
13,75 |
|
15,77 |
13,26 |
38,89 |
48,28 |
17,51 |
|
18,5 |
11,17 |
57,3 |
44,88 |
32,18 |
Рисунок 4 – График средних значений признаков в каждом кластере
Анализируя график средних значений в классах, можно сделать следующие выводы:
Первый класс социальной напряженности Оренбургской области, преимущественно города и примыкающие к ним районы, характеризуется наибольшим средним значением смертности от инфаркта (Х4) и наименьшим средним значением смертности младенческой смертности (X1).
Объекты второго класса, также как и третьего класса, характеризуются наибольшим средним значением смертности от самоубийств (Х4), но достаточно низким значением младенческой смертности ( Х2). Самое низкое среднее значение зафиксировано для такого показателя, как младенческая смертность (X1).
Третий класс объектов характеризуется наибольшим средним значением такого показателя, как смертность от инфаркта (Х2).
Протокол объединения кластеров методом «полных связей», график изменения между объединенными классами и матрица расстояний представлены в приложении В, рисунок 1,2 и 3.
1.2.2 Классификация муниципальных образований Оренбургской области с помощью итерационных кластер - процедур (методом -средних)
Метод К - средних позволяет получить более устойчивое разбиение, но требует задания некоторых начальных условий.
Далее рассчитываются значения о количестве объектов в кластерах, состав кластеров, а также евклидово расстояние от объектов до центра соответствующего класса показателей в каждом классе.
Классификация муниципальных образований на три класса методом К-
средних представлена в таблице 5.
Таблица 5 – Объединение классов методом к-средних
Номер кластера |
Кол-во объектов |
Состав кластер |
|
13 |
Города: Медногорск, Новотроицк, Орск Районы: Абдулинский, Бугурусланский, Бузулукский, Гайский, Домбаровский, Кваркенский, Новосергиевский, Пономаревский, Саракташский, Сорочинский |
|
24 |
Города: Бугуруслан, Бузулук, Гай, Оренбург, Соль-Илецк, Сорочинск, Ясный Районы: Адамовский, Акбулакский, Александровский, Беляевский, Грачевский, Красногвардейский, Курманаевский, Октябрьский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Соль-Илецкий, Ташлинский, Тоцкий, Тюлбганский, Шарлыкский |
|
10 |
Города : Абдулино, Кувандык Районы : Асекеевский, Илекский, Кувандыкский, Матвеевский, Новоорский, Светлинский, Северный, Ясненский |
Рисунок 5 – Средние значения признаков в классах
Расстояния между классами указано в приложении В, рисунок 4. наименьшее расстояние наблюдается между первым и третим классами.
Рисунок 6 – Расстояния между классами
Рисунок 7 – График средних значений признаков в каждом кластере
Результаты расчетов описательных статистик для каждого кластера представлены в приложении В, рисунок 5.
1.2.3 Сравнение классификаций
С помощью метода «полных связей», метода Уорда и метода К-средних были получены классификации С1,С2 соответственно. Для выбора лучшей классификации можно воспользоваться функционалами качества.
Рассчитаем функционал качества классификации, полученной методом Уорда.
Рисунок 8– Матрицы расстояний
Результаты расчетов суммы квадратов расстояний указаны в приложении В, рисунок 6.
Тогда значение функционала качества для классификации, полученной методом Уорда, рассчитывается следующим образом:
Аналогичным образом рассчитаем значение функционала качества для классификации, полученной методом «полных связей»
Значение функционала качества для классификации, полученной методом К-средних рассчитаем на основе таблиц представленных на рисунках 5,6.
По выбранному функционалу
качества наилучшей является классификация
1.2.4 Содержательная интерпретация результатов классификации
Первый класс социальной напряженности Оренбургской области, преимущественно города : Орск, Новотроицк, Бузулук, Бугуруслан, Соль-Илецк, Оренбург, Ясный, Кувандык, Сорочинск, Гай, а также районы: Бузулукский, Бугурусланский, Ясненский, Новоорский, Матвеевский, Асекеевский, Тоцкий, Переволоцкий, Северный, Курманаевский, Светлинский, Кувандыкский, Илекский, Саракташский, Соль-Илецкий, Сакмарский, Тюлбганский, Красногвардейский, Октябрьский, Беляевский, Грачевский, Александровский, Оренбургский, Ташлинский, Акбулакский, Первомайский, Адамовский характеризуются наибольшим значением среди всех остальных классов таких показателей как «смертность от самоубийств (Х2)», «Смертность от убийств (Х5)» и низким показателем «Младенческой смертности (X2)».
Объекты второго класса, такие как, районы - города: Бугуруслан, Бузулук, Гай, Оренбург, Соль-Илецк, Сорочинск, Ясный; районы: Адамовский, Акбулакский, Александровский, Беляевский, Грачевский, Красногвардейский, Курманаевский, Октябрьский, Оренбургский, Первомайский, Переволоцкий, Сакмарский, Соль-Илецкий, Ташлинский, Тоцкий, Тюльганский, Шарлыкский характеризуются наибольшим средним значением среди отсальных классов такого показателя как «младенческая смертность (Х2)»и самым низким значением показателя «коэффициент смертности ( X1)».
Третий класс объектов города: Абдулино,Кувандык, районы: Асекеевский, Илекский, Кувандыкский, Матвеевский, Новоорский, Светлинский, Северный, Ясненский характеризуется наибольшим средним значением такого показателя, как «младенческая смертность ( Х 2). Что касается среднего значения «смертности от самоубийств ( Х4 )», то для городов и районов третьего класса оно значительно ниже, чем для объектов первого и второго класса.
2 Снижение размерности признакового пространства методом главных компонент
2.1 Теоретические аспекты методом главных компонент
Обработка многомерных статистических данных, включающая точечное и интервальное оценивание параметров, задача классификации, моделирование зависимости (регрессионный анализ), создание признакового пространства и их интерпретация, а также хранение данных, связаны с определенными трудностями, в частности вычислительного характера.
Решение этих задач значительно упрощается, если исходные данные подвергнуты сжатию размерности признакового пространства. Такое сжатие возможно, поскольку в большинстве случаев признаки взаимозависимые (коррелированны) и следует что данные избыточные с точки зрения информации.
Необходимость снижения размерности признакового пространства:
1)Необходимость наглядного представления рассматриваемых признаков.
2) Стремление к упрощенным данным (моделям).
3) Упрощение процедуры хранения информации.
Обоснование возможности снижения размерности признакового пространства:
- Неинформативность некоторых признаков, которые незначительно изменяются при переходе одного объекта к другому;
- В случае если наблюдения значительно варьирует вдоль какой-либо прямой, то это означает что между признаками Х1 и Х2 существует зависимость. Если перейти к новой системе показателей X1’ и X2’ геометрически это возможно путем поворота осей на α. В новой системе координат сталкиваемся с ситуацией, когда один из признаков является малоинформативным, которым можно пренебречь для дальнейшего анализа.
- Дублирование информации в условиях наличия тесных корреляционных связей между несколькими признаками.
Постановка задачи метода главных компонент
Исходим из того что изучаемое наблюдение характеризуется к-признаками х1,х2,…,хк
С целью снижения размерности признакового пространства необходимо перейти к новым признакам z1 , z2,…., zm , m<k (m<<k)