Многомерное шкалирование в экономических исследованиях
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ
БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
«БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Экономический факультет
Кафедра «Математические методы в экономике»
Курсовая работа
по дисциплине «Многомерный статистический анализ»
на тему:
«Многомерное шкалирование в экономических исследованиях»
Выполнила: студентка 1 курса магистратуры гр. 1-ММАЭ
Зюзько Ю.А.
Руководитель: кандидат физ.-мат. наук, ст. преп. Ямилова Л.С.
«___»_________________2012г.
УФА 2012
Содержание
Введение 4
1. Неметрические методы многомерного шкалирования 5
2. Модели поиска индивидуальных различий 16
3. Анализ предпочтений 27
Заключение 41
Список литературы 42
Введение
Методы многомерного шкалирования (МШ) разрабатывались и применяются в практике для исследований сложных явлений и процессов, не поддающихся непосредственному описанию или моделированию- В основу теории многомерного шкалирования положена идея о возможности развертывания наблюдаемых объектов в некотором теоретическом пространстве, адекватно отображающем реальность.
В отличие от других статистических методов поиск координатного пространства в МШ осуществляется не по значениям самих характеризующих объекты признаков, а по данным, представляющим различия, или, наоборот, сходство этих объектов. Основным источником данных здесь являются в одних случаях эксперты, субъективно воспринимающие и оценивающие относительное расположение объектов наблюдения в реальных условиях, в других — результаты прямой регистрации сведений о состоянии и поведении объектов. Тривиально и больше распространено экспертное оценивание.
Цель аналитической работы
с данными — определение
1. Неметрические методы многомерного шкалирования
Методы неметрического МШ применяют для обработки ранговых (порядковых) данных. Решающим условием, обеспечивающим адекватность аналитических выводов, здесь становится соответствие монотонных связей эмпирических и теоретических данных, т.е. если реально существует порядковая зависимость δij< δtl то в определяемом шкальном пространстве соответственно должно быть dij<dtl. Вид монотонности заранее неизвестен и методом проб подбирается функция, наилучшим образом описывающая эмпирические данные: линейная, степенная, показательная или логарифмическая.
Отобрав в качестве меры расстояния евклидову метрику (dе). можно записать равенство, задающее алгоритм поиска шкального пространства по Шепарду (1962 г.):
где — произвольная монотонная функция. Если, например,/~ линейная функция, приведенное равенство можно переписать в виде:
Более общий случай предполагает оценку различий объектов в m-мерном пространстве Минковского (подход Дж. Краскала, 1964 г.), тогда:
Универсальная модель неметрического МШ, построенная на метрике Минковского, легко позволяет перейти к другим моделям:
• с евклидовой метрикой, при т=2;
• с метрикой доминирования, при m→∞. Модель имеет вид:
,
т.е. расстояние между стимулами i и j определяется разностью координат только по одной оси, по которой величина разности максимальна;
с метрикой города (city-block , или l1-норма). Для этого случая предположение о монотонности данных формально записывается следующим образом:
Вне зависимости от выбора базовой модели для описания различий объектов методы неметрического МШ реализуются в последовательности, как это показано на рис. 1.1.
Рис. 1.1 Схема алгоритма неметрического МШ
Остановимся на основных алгоритмических шагах неметрического МШ:
Шаг 1. Получение матрицы различий, содержащей ранговые данные — характеристики непохожести анализируемых объектов.
Существуют различные приемы получения исходных ранговых данных, наиболее распространены в анализе из них следующие:
• метод последовательной рандомизации, его сущность в последовательно проводимом делении совокупности наблюдаемых объектов на группы. При первом делении появляются две группы — пары похожих объектов и пары непохожих объектов. Затем в каждой группе соответственно находят пары с наиболее и менее похожими объектами и т. д. На заключительном этапе получают п (п—1)/2 пар, ранжированных по степени сходства (или наоборот — «непохожести»);
• метод исходной (якорной) точки, из общего числа п объектов на первом шаге отбирают один и его положение в совокупности принимается за исходное относительно других объектов. Степень сходства всех прочих объектов с первым (якорным) оценивается экспертами с присвоением ранга. На следующем шаге якорным становится другой, следующий из совокупности объект. И так для всех объектов. В общем получают п(n—1) ранговых оценок парных сходств, по которым легко строится матрица различий А;
• метод рейтинговой оценки. Экспертам предлагается шкала с некоторым числом делений (обычно 7—9), позволяющих оценивать каждую пару объектов по степени их сходства, например, как это показано на рисунке:
Предположим, что одним
из перечисленных методов
Данные табл. 1.1 подтверждают, что для пяти наблюдаемых объектов будет получено именно 10, то есть п(n—1) ранговых оценок.
Таблица 1.1. Порядковые характеристики различий пяти государств с учетом их экономического и политического положения А
Армения |
Беларусь |
Россия |
Таджикистан |
Литва | |
Армения1 |
— |
10 |
9 |
3 |
7 |
Беларусь |
10 |
— |
1 |
5 |
2 |
Россия |
9 |
1 |
- |
4 |
6 |
Таджикистан |
3 |
5 |
4 |
- |
8 |
Литва |
7 |
2 |
6 |
8 |
- |
Для следующего алгоритмического шага данные о Различиях пяти стран можно оставить в первоначальном виде или преобразовать их в количественные. Другими словами, возможна их оцифровка. В своей книге М. Дэйвисон [32, с. 107] описывает надежный и одновременно простой прием перехода к Матрице с количественными характеристиками различий: вначале на ранговых данных строится матрица корреляций R, оценку различий, т.е. элементы матрицы Д, определяются затем с учетом имеющихся величин парных коэффициентов корреляций rij по формуле:
Шаг 2. Поиск стартовой конфигурации. Эта проблема может быть решена с использованием разнообразных методов и подходов: простой ординации Орлочи, алгоритмов Торгерсона, Краскала и других, даже простым подбором случайных чисел.
В примере по данным табл. 1.1 первые приблизительные оценки координат вычислены методом главных компонент. Получены нестандартизованные характеристики по первым двум координатным осям, объясняющим более 98% общей Дисперсии значений стимульных признаков (табл. 1.2).
Координатные оценки стимулов позволяют дать названии каждой из шкал. По оси X1 на одном конце наибольшую факторную нагрузку имеют Армения и Таджикистан, на другом — Беларусь и Литва; очевидно, что эта ось вытянута в направлении Юг-Север. Аналогичного рода рассуждения приводят к мысли, что ось X2 определяется направлением Восток-Запад,
Таблица 1.2. Стартовая конфигурация для неметрического шкалирования пяти государств, республик бывшего СССР
Стимул |
Первая координатная ось Х1 |
Вторая координатная ось Х2 |
|
Армения Беларусь Россия Таджикистан Литва |
-0,974 0,958 0,701 -0,690 0,772 |
0,217 -0,254 -0,710 -0,697 0,610 |
Шаг 3. Стандартизация оценок координат и расстояний. Стандартизация проводится с целью сохранить пропорции ортонормированного стимульного пространства и избежать вырожденных решений, когда пространство стимулов сжимается до размеров точки и анализ не дает сколько-нибудь значимых результатов. Например, когда несколько стимулов получают одинаковые оценки координат или их координатные оценки близки нулю, т.е. расположены вблизи начала системы координат. Стимулы в таком теоретическом пространстве шкал как бы сливаются и становятся неразличимы для исследователя.
Допускаются различные варианты стандартизации. Выберем хорошо знакомый способ:
Стандартизовав координаты стимулов и рассчитав по ним расстояния между стимулами, получим элементы матрицы стандартизованных оценок расстояний. Величины расстояний в пространстве шкал Х1 X2 будем оценивать по формуле евклидовой метрики:
Стандартизованные оценки, результаты вычислений сведем в табл. 1.3.
Т а б л и ц а 1.3. Нестандартизованные и стандартизованные оценки координат и расстояний для пяти государств
Нестандартизованные оценки | |
координат |
расстояний dij |
|
X1 Х2 Армения -0,974 0,217 Беларусь -0,958 -0,254 Россия 0.701 -0,710 Таджикистан -0,690 -0,697 Литва 0,772 0,610 |
0 1,989 1,914 0,962 1,789 1,989 0 0,523 1,703 0,884 1,914 0,523 0 1,391 1,322 0,962 1,703 1,391 0 1,961 1,789 0,884 1,322 1,961 0 |
Стандартизованные оценки | |
координат |
расстояний dij |
|
X1 Х2 Армения -1,384 0,724 Беларусь -0,988 -0,164 Россия 0,672 -1,026 Таджикистан 0,672 -1,000 Литва 0,760 1,466 |
0 2,532 2,700 1,759 2,269 2,532 0 0,918 2,190 1,646 2,700 0,918 0 1,708 2,507 1,759 2,190 1,708 0 3,051 2,269 1,646 2,507 3,051 0 |
Шаг 4. Неметрический этап. Алгоритмический шаг предназначен для упорядочения оценок расстояний между стимулами.
В теоретическом пространстве шкал Xk монотонность исходных данных может нарушаться (рис. 1.2). Корректировка теоретических величин расстояний di} производится при неизменных оценках координат стимулов и таким образом, чтобы восстановить общую тенденцию к возрастанию в исходных данных о различиях.
рис. 1.2. Отношения ранговых порядков стимулов по исходным и теоретическим данным на первой итерации
Рис. 1.2 построен по данным рассматриваемого примера и наглядно показывает возникшее несоответствие в изменении исходных и теоретических ранговых оценок (табл. 1.4). По оси δij отложены фактические значения характеристик различий, по оси — значения, принимаемые в теоретическом пространстве шкал X1, Х2. Линия L1— прямая монотонной функции равномерно возрастающих оценок δij, линия L2 построена с учетом отклонений эмпирических ранговых оценок от теоретических. Прописными буквами обозначены пары стран.
Графическое изображение несоответствий ранговых оценок j можно получить и несколько иным образом, если по оси у вместо % ранговой теоретической величины различий откладывать количественно определенные значения расстояний между объектами dij. Такой рисунок носит название диаграммы Шепарда.
В данном примере улучшить оценки расстояний достаточно просто: монотонность равномерно возрастающих теоретических данных воспроизводится, если центрировать отклоняющиеся от прямой величины расстояний dij посредством расчета обычных арифметических средних:
В завершение ряда данных целесообразно рассчитать среднюю для трех оставшихся пар стран:
Новые центрированные значения закрепляются за двумя соседними парами стран, в данных которых возникли нарушения монотонности.
Исходные и улучшенные оценки различий стран сведем в табл. 8.5. С переходом от оценок к уточненным оценкам (с+1 — первой итерации) неметрический этап завершается.
Таблица 1.4. Исходные ранговые оценки различий стран и величины расстояний между ними в теоретическом пространстве шкал — первичные и уточненные
Исходный ранговый порядок δij |
Стимул |
Стимул |
Стандартизованные расстояния dij |
Ранговый порядок стимулов в пространстве шкал Х1, X2 |
Улучшенные оценки расстояний |
1 |
Россия |
Беларусь |
0,918 |
1 |
0,918 |
2 |
Литва |
Беларусь |
1,646 |
2 |
1,646 |
3 |
Таджикистан |
Армения |
1,759 |
4 |
1,733 |
4 |
Таджикистан |
Россия |
1,708 |
3 |
1,733 |
5 |
Таджикистан |
Беларусь |
2,190 |
5 |
2,190 |
6 |
Литва |
Россия |
2,507 |
7 |
2,388 |
7 |
Литва |
Армения |
2,269 |
6 |
2,388 |
8 |
Литва |
Таджикистан |
3,051 |
10 |
2,761 |
9 |
Россия |
Армения |
2,700 |
9 |
2,761 |
10 |
Беларусь |
Армения |
2,532 |
8 |
2,761 |
Шаг 5. Метрический этап. На данном этапе имеющимся исходным и уточненным величинам расстояний ( и ) находят уточненные оценки координат. Для расчетов используют формулу Лингоса—Роскама:
Чтобы избежать деления на нуль, если dij =0, отношение произвольно приравнивается единице.
Посмотрим, как применить формулу Лингоса—Роскама при вычислении новых оценок координат для стимула Беларусь (исходные данные, участвующие в расчетах, см. в табл. 8.4 и 8.5):
т.е. новые координаты стимула Республика Беларусь будут: X1 = (1,030;-0,180) в отличие от начальных координат X0 = (0,988; -0,164).
Подобные расчеты проводятся для всех участвующих в анализе объектов, после этого уже по новым оценкам координат () находят расстояния между стимулами в теоретическом пространстве (dc+1) и первая итерация заканчивается, остается только оценить качество ее результатов.
Шаг 6. Оценка соответствий монотонных ранговых эмпирических и теоретических данных. Собственно проверке на монотонность подлежат теоретические данные dc и dc+1, рассматривается степень их улучшения на прошлой итерации. Если улучшение существенно, итерация возобновляется после стандартизации полученных на шаге 5 оценок координат и расстояний, если же улучшение мало, итерации заканчиваются, и приступают к интерпретации итогов анализа.
Оценивание соответствий
теоретических результатов
Стресс-формулы Краскала
Стресс-формулы Юнга
Коэффициент отчуждения Гуттмана
Где
Во всех перечисленных формулах символами d и обозначены величины расстояний: исходные и уточненные, после выполнения определенного шага алгоритма, или завершения итерации, d..- среднее арифметическое всех оцененных расстояний:
Расчет стресс-формул продемонстрируем на данных табл. 8.5. Выбрав S1 и S2 Дж. Краскала, посмотрим, насколько улучшены оценки л?1 по сравнению с оценками d (табл. 1.5). Задачу интерпретации величин, исчисленных по стресс-формулам, облегчают известные заранее стандартные характеристики (табл. 1.6).
Таблица 1.5. Проверка на существенность улучшения теоретических оценок расстояний с использованием стресс-формул Дж. Краскала
Стимул |
Стимул |
Исходная ранговая оценка |
|||||
Россия |
Беларусь |
1 |
0,918 |
0,918 |
0,843 |
0 |
1,464 |
Литва |
Беларусь |
2 |
1,646 |
1,646 |
2,709 |
0 |
0,232 |
Таджикистан |
Армения |
3 |
1,759 |
1,733 |
3,094 |
0,0007 |
0,156 |
Таджикистан |
Россия |
4 |
1,708 |
1,733 |
2,917 |
0,0007 |
0,156 |
Таджикистан |
Беларусь |
5 |
2,190 |
2,190 |
4,796 |
0 |
0,038 |
Литва |
Россия |
6 |
2,507 |
2,388 |
6,285 |
0,0142 |
0,068 |
Литва |
Армения |
7 |
2,269 |
2,388 |
5,148 |
0,0142 |
0,068 |
Литва |
Таджикистан |
8 |
3,051 |
2,761 |
9,309 |
0,0841 |
0,401 |
Россия |
Армения |
9 |
2,700 |
2,761 |
7,290 |
0,0037 |
0,401 |
Беларусь |
Армения |
10 |
2,532 |
2,761 |
6,411 |
0,0524 |
0,401 |
- |
21,280 |
21,279 |
48,802 |
0,1700 |
3,385 | ||
128
| |||||||
Таблица 1.6. Содержательная оценка величин, исчисленных по стресс-формулам S1 a S2 (Дж- Краскала)
Степень соответствия |
Для формулы | |
Низкая Удовлетворительная Хорошая Отличная Превосходная |
0,2 0,1 0,05 0,025 0 |
0,4 0,2 0,1 0,15 0 |
Согласно данным табл. 1.6 значения критериев S1 и S2, рассчитанные в табл. 1.5, дают основание судить о результатах нашего решения как удовлетворительных. В прикладном анализе, думается, исследователем была бы предпринята при этом попытка продолжить итерации и найти более адекватные оценки координат стимулов и расстояний.
Обобщая материал, отметим, что в рамках методов неметрического МШ решаются схожие с метрическим МШ задачи: оценки координат стимулов и расстояний между стимулами, вращения системы координат, интерпретации аналитических результатов. В то же время заметны и отличия. Неметрическое МШ имеет более сложные алгоритмы, включающие: поиск стартовой конфигурации, неметрический этап — для корректировки распределения теоретических оценок расстояний и, наконец, метрический этап — для уточнения оценок координат стимулов. Итеративная реализация алгоритма неметрического МШ строится таким образом, чтобы предупредить появление вырожденных решений и существенные расхождения функциональных монотонных связей эмпирических и теоретических данных. В его алгоритмах проблемными остаются вопросы: подборки вида монотонной функции, отвечающей фактическому распределению характеристик различий стимулов, неизвестной заранее, и, как прежде, задача интерпретируемости итогов анализа.
2. Модели поиска индивидуальных различий
Рассмотренные выше методы метрического и неметрического многомерного шкалирования могут применяться для координатного описания только самих стимулов. Но в исследованиях не менее важно иметь представление и о различиях источников информации. В конечном счете пространственное положение стимулов объясняется не только их «непохожестью», но и расхождениями суждений о них, или различием приемов оценивания, получения данных. Действительно, если данные получают посредством анкетирования или экспертного оценивания, то они нередко существенно различаются в силу особенностей поведения и склонностей субъектов, выступающих в роли экспертов, когда же ведется прямая регистрация сведений о явлениях, процессах, свой отпечаток налагают особенности наблюдаемых объектов, условия, в которых они находятся (климатические, экологические) и т.д.
В сущности задача моделирования индивидуальных различий сводится к реализации алгоритма для нахождения шкал и представления в координатном пространстве как стимулов, так к субъектов, их оценивающих.
Координатами субъектов при этом служат значения весовых коэффициентов ωks, характеризующие уровень значимости координатной оси к для субъекта s.
На рис. 2.1 показано гипотетическое распределение субъектов (экспертов) в двумерном пространстве шкал, определяющих экономичность производства. Расположение субъектов задается значениями весовых коэффициентов ωks.
Рис. 2.1. Расположение трех субъектов в двумерном шкальном пространстве процесса эффективности производства
По данным рис.2.1 можно видеть, что, например, субъект 1 в определении эффективности производства примерно равное значение придает характеристикам ресурсоемкости и трудоемкости производства. Субъект 2 считает, что эффективность в наибольшей мере определяется ресурсоемкостью производства, весовой коэффициент для этого общего признака почти в 2 раза превышает оценку значимости по шкале «трудоемкость производства». Наконец, субъект 3 находит, что определяющим для эффективности производства является именно характеристика результатов использования живого труда.
В моделировании индивидуальных различий существует два основных подхода. Первый подход базируется на предположении о независимости координатных осей и объединяет так называемые модели индивидуального шкалирования — Кэррола, Чанга, Хорана и др. (теоретические работы 1968—1970 гг.). Второй подход допускает, что субъекты различаются не только весами координат, но и силой взаимодействия координатных осей (стимулов). Его модели были разработаны в основном в 1972—1980 гг. Наиболее представительной здесь является трех-модальная модель Такера.
Алгоритмы вычислений для
различных моделей
Шаг 1. Построение матриц различий стимулов ∆s для каждого из субъектов.
Шаг 2, Построение S матриц скалярных произведений ∆*s .
С учетом того, что анализируются матрицы различий субъектов ∆s, формулы для определения матриц скалярных произведений запишутся в следующем виде:
где
Затем, при поиске стартовой конфигурации, S матриц скалярных произведений ∆*s обобщаются в одной, средней матрице
скалярных произведений ∆s , элементы которой — простые средние величины:
Основополагающим является предположение, что полученные в ходе подгонки модели оценки ее параметров хорошо воспроизводят скалярные произведения:
или в матричном виде —
Шаг 3. Поиск одним из возможных методов стартовой конфигурации (определение матрицы X0, где 0 указывает на начальную итерацию).
Шаг 4. Оценка весовых коэффициентов (ωks. Множество значений ωks образует матрицу W с данными по к координатным осям и s субъектам, т.е. для конкретного субъекта s в W — диагональной матрице имеется некоторый элемент ωks, представляющий его суждение о k-м общем признаке (k-й шкале).
Шаг 5. Оценка координат стимулов, построение матрицы X размерности j х к — по числу j стимулов (строк) и к координатных осей (шкал).
Шаг 6. Проверка качества полученного решения методом наименьших квадратов:
где и — скалярные произведения по исходным и теоретическим данным.
Если квадрат разности между фактическими и теоретическими скалярными произведениями наименьший или меньше некоторого заранее известного порогового значения, то полученная конфигурация X0 и матрица оценок весов W считаются наилучшими, и алгоритм завершен. Если же значения критерия F неудовлетворительны, оптимизирующие шаги 4—6 повторяются.
Остановимся подробнее на
важнейших моделях
Взвешенная евклидова модель — модель первого типа рассчитана на получение линейно независимой системы координат (шкал). Конструктивно основывается на использовании взвешенной евклидовой метрики:
где — квадрат величины , представляющей вес (важность, значимость) k-той шкалы для субъекта s.
Значение линейно связывается с координатами стимула i субъекта s:
или в матричном виде: Xs= XWs
Очевидно, что при прочих равных величинах координат стимулов увеличение означает и большее различие между стимулами i и j.
При реализации алгоритма анализа индивидуальных различий решаются задачи оценки координат стимулов, оценки величин и их оптимизации.
Для примера возьмем гипотетические матрицы различий, это могут быть, скажем, результаты оценки двумя субъектами уровня экологачности производства до и после проведения природоохранных мероприятий в трех административных районах (табл. 2.1).
Таблица 2.1. Исходные матрицы различий по результатам экспертного оценивания двумя субъектами и исчисленные по ним матрицы скалярных произведений

- Многомерное шкалирование и его применение в анализе данных
- Многомерные задачи оптимизации
- Многомерные и факторные эксперименты: общий обзор
- Многомерные и факторные эксперименты: общий обзор
- Многомерные массивы
- Многомерные организации
- Многомерный анализ зависимости заболеваемости населения РФ от ряда факторов
- Многократные измерения
- Многокритериальная оптимизация в ИО
- Многокритериальность целей управления
- Многокритериальные методы принятия решений
- Многокритериальный выбор и оценочные системы
- Многолетняя мерзлота
- Многомерная средняя