Многомерное шкалирование в экономических исследованиях

МИНИСТЕРСТВО ОБРАЗОВАНИЯ  И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ  БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ  УНИВЕРСИТЕТ»

Экономический факультет

Кафедра «Математические  методы в экономике»

 

 

 

Курсовая работа

по дисциплине «Многомерный статистический анализ» 

на тему:

«Многомерное шкалирование в экономических исследованиях»

 

 

Выполнила: студентка 1 курса магистратуры гр. 1-ММАЭ

Зюзько Ю.А.

 

Руководитель: кандидат физ.-мат. наук, ст. преп. Ямилова Л.С.

 

«___»_________________2012г.

 

 

 

УФА 2012

 

 

 

Содержание

Введение 4

1. Неметрические методы многомерного шкалирования 5

2. Модели поиска индивидуальных различий 16

3. Анализ предпочтений 27

Заключение 41

Список литературы 42

 

 

Введение

Методы многомерного шкалирования (МШ) разрабатывались и применяются в практике для исследований сложных явлений и процессов, не поддающихся непосредственному описанию или моделированию- В основу теории многомерного шкалирования положена идея о возможности развертывания наблюдаемых объектов в некотором теоретическом пространстве, адекватно отображающем реальность.

В отличие от других статистических методов поиск координатного пространства в МШ осуществляется не по значениям самих характеризующих объекты признаков, а по данным, представляющим различия, или, наоборот, сходство этих объектов. Основным источником данных здесь являются в одних случаях эксперты, субъективно воспринимающие и оценивающие относительное расположение объектов наблюдения в реальных условиях, в других — результаты прямой регистрации сведений о состоянии и поведении объектов. Тривиально и больше распространено экспертное оценивание.

Цель аналитической работы с данными — определение местонахождения объекта в «пространстве восприятия (субъектов)» и создание его образа. Имеется в виду, что непосредственно о самом объекте даже по значениям некоторого набора признаков нельзя судить достаточно надежно или полно. В то же время эксперты или просто наблюдатели еще до проведения аналитических расчетов видят, интуитивно чувствуют различия изучаемых объектов. Неосознанные, нечеткие представления об объектах должны быть конкретизированы и это осуществимо в теоретическом «пространстве восприятия», построенном по субъективным оценкам. В этом представляемом пространстве проявляют себя латентные факторы, становится очевидным действие этих факторов на пространственное расположение объекта, измеримо расстояние между объектами.

 

1. Неметрические методы многомерного шкалирования

Методы неметрического МШ применяют для обработки ранговых (порядковых) данных. Решающим условием, обеспечивающим адекватность аналитических выводов, здесь становится соответствие монотонных связей эмпирических и теоретических данных, т.е. если реально существует порядковая зависимость  δij< δtl то в определяемом шкальном пространстве соответственно должно быть dij<dtl. Вид монотонности заранее неизвестен и методом проб подбирается функция, наилучшим образом описывающая эмпирические данные: линейная, степенная, показательная или логарифмическая.

Отобрав в качестве меры расстояния евклидову метрику (dе). можно записать равенство, задающее алгоритм поиска шкального пространства по Шепарду (1962 г.):

 

где — произвольная монотонная функция. Если, например,/~ линейная функция, приведенное равенство можно переписать в виде:

 

 

Более общий случай предполагает оценку различий объектов в m-мерном пространстве Минковского (подход Дж. Краскала, 1964 г.), тогда:

 

Универсальная модель неметрического МШ, построенная на метрике Минковского, легко позволяет перейти к другим моделям:

•   с евклидовой метрикой, при т=2;

•   с метрикой доминирования, при m→∞. Модель имеет вид:

 

,

 

т.е. расстояние между стимулами i и j определяется разностью координат только по одной оси, по которой величина разности максимальна;

с метрикой города (city-block , или l1-норма). Для этого случая предположение о монотонности данных формально записывается следующим образом:

 

 

 

Вне зависимости от выбора базовой модели для описания различий объектов методы неметрического МШ реализуются в последовательности, как это показано на рис. 1.1.

 

Рис. 1.1 Схема алгоритма неметрического МШ

 

Остановимся на основных алгоритмических  шагах неметрического МШ:

Шаг 1. Получение матрицы различий, содержащей ранговые данные — характеристики непохожести анализируемых объектов.

Существуют различные  приемы получения исходных ранговых данных, наиболее распространены в анализе из них следующие:

•  метод последовательной рандомизации, его сущность в последовательно проводимом делении совокупности наблюдаемых объектов на группы. При первом делении появляются две группы — пары похожих объектов и пары непохожих объектов. Затем в каждой группе соответственно находят пары с наиболее и менее похожими объектами и т. д. На заключительном этапе получают п (п—1)/2 пар, ранжированных по степени сходства (или наоборот — «непохожести»);

•  метод исходной (якорной) точки, из общего числа п объектов на первом шаге отбирают один и его положение в совокупности принимается за исходное относительно других объектов. Степень сходства всех прочих объектов с первым (якорным) оценивается экспертами с присвоением ранга. На следующем шаге якорным становится другой, следующий из совокупности объект. И так для всех объектов. В общем получают п(n—1) ранговых оценок парных сходств, по которым легко строится матрица различий А;

•  метод рейтинговой оценки. Экспертам предлагается шкала с некоторым числом делений (обычно 7—9), позволяющих оценивать каждую пару объектов по степени их сходства, например, как это показано на рисунке:

Предположим, что одним  из перечисленных методов установлены ранговые оценки для пяти государств, бывших республик СССР, с учетом их экономического и политического положения в 1994 г. Результаты экспертного оценивания после их обобщения могли бы быть представлены, например, как показано в табл. 8.21.

Данные табл. 1.1 подтверждают, что для пяти наблюдаемых объектов будет получено именно 10, то есть п(n—1) ранговых оценок.

Таблица 1.1. Порядковые характеристики различий пяти государств с учетом их экономического и политического положения А

 

Армения

Беларусь

Россия

Таджикистан

Литва

Армения1

10

9

3

7

Беларусь

10

1

5

2

Россия

9

1

-

4

6

Таджикистан

3

5

4

-

8

Литва

7

2

6

8

-


Для следующего алгоритмического шага данные о Различиях пяти стран можно оставить в первоначальном виде или преобразовать их в количественные. Другими словами, возможна их оцифровка. В своей книге М. Дэйвисон [32, с. 107] описывает надежный и одновременно простой прием перехода к Матрице с количественными характеристиками различий: вначале на ранговых данных строится матрица корреляций R, оценку различий, т.е. элементы матрицы Д, определяются затем с учетом имеющихся величин парных коэффициентов корреляций rij по формуле:

Шаг 2. Поиск стартовой конфигурации. Эта проблема может быть решена с использованием разнообразных методов и подходов: простой ординации Орлочи, алгоритмов Торгерсона, Краскала и других, даже простым подбором случайных чисел.

В примере по данным табл. 1.1 первые приблизительные оценки координат вычислены методом главных компонент. Получены нестандартизованные характеристики по первым двум координатным осям, объясняющим более 98% общей Дисперсии значений стимульных признаков (табл. 1.2).

Координатные оценки стимулов позволяют дать названии каждой из шкал. По оси X1 на одном конце наибольшую факторную нагрузку имеют Армения и Таджикистан, на другом — Беларусь и Литва; очевидно, что эта ось вытянута в направлении Юг-Север. Аналогичного рода рассуждения приводят к мысли, что ось X2 определяется направлением Восток-Запад,

Таблица 1.2. Стартовая конфигурация для неметрического шкалирования пяти государств, республик бывшего СССР

Стимул

Первая координатная ось Х1

Вторая координатная ось Х2

Армения

Беларусь 

Россия

Таджикистан

Литва

-0,974

0,958

0,701

-0,690

0,772

0,217

-0,254

-0,710

-0,697

0,610


 

Шаг 3. Стандартизация оценок координат и расстояний. Стандартизация проводится с целью сохранить пропорции ортонормированного стимульного пространства и избежать вырожденных решений, когда пространство стимулов сжимается до размеров точки и анализ не дает сколько-нибудь значимых результатов. Например, когда несколько стимулов получают одинаковые оценки координат или их координатные оценки близки нулю, т.е. расположены вблизи начала системы координат. Стимулы в таком теоретическом пространстве шкал как бы сливаются и становятся неразличимы для исследователя.

Допускаются различные варианты стандартизации. Выберем хорошо знакомый способ:

 

Стандартизовав координаты стимулов и рассчитав по ним расстояния между стимулами, получим элементы матрицы стандартизованных оценок расстояний. Величины расстояний в пространстве шкал Х1 X2 будем оценивать по формуле евклидовой метрики:

 

Стандартизованные оценки, результаты вычислений сведем в табл. 1.3.

Т а б л и ц а 1.3. Нестандартизованные и стандартизованные оценки координат и расстояний для пяти государств

 

Нестандартизованные оценки

координат

расстояний dij

                               X1         Х2

Армения          -0,974      0,217

Беларусь           -0,958    -0,254

Россия                0.701    -0,710

Таджикистан    -0,690    -0,697

Литва                 0,772       0,610

 

0          1,989    1,914   0,962    1,789

1,989       0     0,523    1,703    0,884

1,914    0,523      0       1,391    1,322

0,962    1,703    1,391      0       1,961

1,789    0,884    1,322    1,961      0

Стандартизованные оценки

координат

расстояний dij

                               X1         Х2

Армения          -1,384      0,724

Беларусь           -0,988    -0,164

Россия                0,672    -1,026

Таджикистан    0,672    -1,000

Литва                 0,760      1,466

 

0       2,532    2,700    1,759    2,269

2,532      0      0,918    2,190    1,646

2,700   0,918      0       1,708    2,507

1,759    2,190    1,708      0       3,051

2,269    1,646    2,507   3,051       0


 

Шаг 4. Неметрический этап. Алгоритмический шаг предназначен для упорядочения оценок расстояний между стимулами.

В теоретическом пространстве шкал Xk монотонность исходных данных может нарушаться (рис. 1.2). Корректировка теоретических величин расстояний di} производится при неизменных оценках координат стимулов и таким образом, чтобы восстановить общую тенденцию к возрастанию в исходных данных о различиях.

рис. 1.2. Отношения ранговых порядков стимулов по исходным и теоретическим данным на первой итерации

Рис. 1.2 построен по данным рассматриваемого примера и наглядно показывает возникшее несоответствие в изменении исходных и теоретических ранговых оценок (табл. 1.4). По оси δij отложены фактические значения характеристик различий, по оси — значения, принимаемые в теоретическом пространстве шкал X1, Х2. Линия L1— прямая монотонной функции равномерно возрастающих оценок δij, линия L2 построена с учетом  отклонений эмпирических ранговых оценок от теоретических. Прописными буквами обозначены пары стран.

Графическое изображение  несоответствий ранговых оценок j можно получить и несколько иным образом, если по оси у вместо % ранговой теоретической величины различий откладывать количественно определенные значения расстояний между объектами dij. Такой рисунок носит название диаграммы Шепарда.

В данном примере улучшить оценки расстояний достаточно просто: монотонность равномерно возрастающих теоретических данных воспроизводится, если центрировать отклоняющиеся от прямой величины расстояний dij посредством расчета обычных арифметических средних:

 

 

 

В завершение ряда данных целесообразно рассчитать среднюю для трех оставшихся пар стран:

 

 

Новые центрированные значения закрепляются за двумя соседними парами стран, в данных которых возникли нарушения монотонности.

Исходные и улучшенные оценки различий стран сведем в табл. 8.5. С переходом от оценок к уточненным оценкам (с+1 — первой итерации) неметрический этап завершается.

Таблица 1.4. Исходные ранговые оценки различий стран и величины расстояний между ними в теоретическом пространстве шкал — первичные и уточненные

Исходный ранговый порядок

δij

Стимул

Стимул

Стандартизованные расстояния

dij

Ранговый порядок  стимулов в пространстве шкал Х1, X2

Улучшенные оценки расстояний

1

Россия

Беларусь

0,918

1

0,918

2

Литва

Беларусь

1,646

2

1,646

3

Таджикистан

Армения

1,759

4

1,733

4

Таджикистан

Россия

1,708

3

1,733

5

Таджикистан

Беларусь

2,190

5

2,190

6

Литва

Россия

2,507

7

2,388

7

Литва

Армения

2,269

6

2,388

8

Литва

Таджикистан

3,051

10

2,761

9

Россия

Армения

2,700

9

2,761

10

Беларусь

Армения

2,532

8

2,761


 

Шаг 5. Метрический этап. На данном этапе имеющимся исходным и уточненным величинам расстояний ( и ) находят уточненные оценки координат. Для расчетов используют формулу Лингоса—Роскама:

 

Чтобы избежать деления на нуль, если  dij =0, отношение произвольно приравнивается единице.

Посмотрим, как применить  формулу Лингоса—Роскама при вычислении новых оценок координат для стимула Беларусь (исходные данные, участвующие в расчетах, см. в табл. 8.4 и 8.5):

 

 

 

 

т.е. новые координаты стимула  Республика Беларусь будут: X1 = (1,030;-0,180)    в    отличие    от    начальных    координат X0 = (0,988; -0,164).

Подобные расчеты проводятся для всех участвующих в анализе объектов, после этого уже по новым оценкам координат () находят расстояния между стимулами в теоретическом пространстве (dc+1) и первая итерация заканчивается, остается только оценить качество ее результатов.

Шаг 6. Оценка соответствий монотонных ранговых эмпирических и теоретических данных. Собственно проверке на монотонность подлежат теоретические данные dc и dc+1, рассматривается степень их улучшения на прошлой итерации. Если улучшение существенно, итерация возобновляется после стандартизации полученных на шаге 5 оценок координат и расстояний, если же улучшение мало, итерации заканчиваются, и приступают к интерпретации итогов анализа.

Оценивание соответствий теоретических результатов эмпирическим данным осуществляется при помощи специальных стресс-формул или коэффициента отчуждения:

Стресс-формулы Краскала

 

 

 

 

Стресс-формулы Юнга

 

 

 

Коэффициент отчуждения Гуттмана

 

Где

 

Во всех перечисленных  формулах символами d и обозначены величины расстояний: исходные и уточненные, после выполнения определенного шага алгоритма, или завершения итерации, d..- среднее арифметическое всех оцененных расстояний:

 

Расчет стресс-формул продемонстрируем на данных табл. 8.5. Выбрав S1 и S2 Дж. Краскала, посмотрим, насколько улучшены оценки л?1 по сравнению с оценками d (табл. 1.5). Задачу интерпретации величин, исчисленных по стресс-формулам, облегчают известные заранее стандартные характеристики (табл. 1.6).

Таблица 1.5. Проверка на существенность улучшения теоретических оценок расстояний с использованием стресс-формул Дж. Краскала

Стимул

Стимул

Исходная

ранговая оценка

         

Россия

Беларусь

1

0,918

0,918

0,843

0

1,464

Литва

Беларусь

2

1,646

1,646

2,709

0

0,232

Таджикистан

Армения

3

1,759

1,733

3,094

0,0007

0,156

Таджикистан

Россия

4

1,708

1,733

2,917

0,0007

0,156

Таджикистан

Беларусь

5

2,190

2,190

4,796

0

0,038

Литва

Россия

6

2,507

2,388

6,285

0,0142

0,068

Литва

Армения

7

2,269

2,388

5,148

0,0142

0,068

Литва

Таджикистан

8

3,051

2,761

9,309

0,0841

0,401

Россия

Армения

9

2,700

2,761

7,290

0,0037

0,401

Беларусь

Армения

10

2,532

2,761

6,411

0,0524

0,401

 

-

 

21,280

21,279

48,802

0,1700

3,385

128

 

 


Таблица 1.6. Содержательная оценка величин, исчисленных по стресс-формулам S1 a S2 (Дж- Краскала)

Степень

соответствия

Для формулы

   

Низкая

Удовлетворительная

Хорошая

Отличная

Превосходная

0,2

0,1

0,05

0,025

0

0,4

0,2

0,1

0,15

0


Согласно данным табл. 1.6 значения критериев S1 и S2, рассчитанные в табл. 1.5, дают основание судить о результатах нашего решения как удовлетворительных. В прикладном анализе, думается, исследователем была бы предпринята при этом попытка продолжить итерации и найти более адекватные оценки координат стимулов и расстояний.

Обобщая материал, отметим, что в рамках методов неметрического МШ решаются схожие с метрическим МШ задачи: оценки координат стимулов и расстояний между стимулами, вращения системы координат, интерпретации аналитических результатов. В то же время заметны и отличия. Неметрическое МШ имеет более сложные алгоритмы, включающие: поиск стартовой конфигурации, неметрический этап — для корректировки распределения теоретических оценок расстояний и, наконец, метрический этап — для уточнения оценок координат стимулов. Итеративная реализация алгоритма неметрического МШ строится таким образом, чтобы предупредить появление вырожденных решений и существенные расхождения функциональных монотонных связей эмпирических и теоретических данных. В его алгоритмах проблемными остаются вопросы: подборки вида монотонной функции, отвечающей фактическому распределению характеристик различий стимулов, неизвестной заранее, и, как прежде, задача интерпретируемости итогов анализа.

 

2. Модели поиска индивидуальных различий

Рассмотренные выше методы метрического и неметрического многомерного шкалирования могут применяться для координатного описания только самих стимулов. Но в исследованиях не менее важно иметь представление и о различиях источников информации. В конечном счете пространственное положение стимулов объясняется не только их «непохожестью», но и расхождениями суждений о них, или различием приемов оценивания, получения данных. Действительно, если данные получают посредством анкетирования или экспертного оценивания, то они нередко существенно различаются в силу особенностей поведения и склонностей субъектов, выступающих в роли экспертов, когда же ведется прямая регистрация сведений о явлениях, процессах, свой отпечаток налагают особенности наблюдаемых объектов, условия, в которых они находятся (климатические, экологические) и т.д.

В сущности задача моделирования индивидуальных различий сводится к реализации алгоритма для нахождения шкал и представления в координатном пространстве как стимулов, так к субъектов, их оценивающих.

Координатами субъектов  при этом служат значения весовых  коэффициентов ωks, характеризующие уровень значимости координатной оси к для субъекта s.

На рис. 2.1 показано гипотетическое распределение субъектов (экспертов) в двумерном пространстве шкал, определяющих экономичность производства. Расположение субъектов задается значениями весовых коэффициентов ωks.

Рис. 2.1. Расположение трех субъектов в двумерном шкальном пространстве процесса эффективности производства

По данным рис.2.1 можно видеть, что, например, субъект 1 в определении эффективности производства примерно равное значение придает характеристикам ресурсоемкости и трудоемкости производства. Субъект 2 считает, что эффективность в наибольшей мере определяется ресурсоемкостью производства, весовой коэффициент для этого общего признака почти в 2 раза превышает оценку значимости по шкале «трудоемкость производства». Наконец, субъект 3 находит, что определяющим для эффективности производства является именно характеристика результатов использования живого труда.

В моделировании индивидуальных различий существует два основных подхода. Первый подход базируется на предположении о независимости координатных осей и объединяет так называемые модели индивидуального шкалирования — Кэррола, Чанга, Хорана и др. (теоретические работы 1968—1970 гг.). Второй подход допускает, что субъекты различаются не только весами координат, но и силой взаимодействия координатных осей (стимулов). Его модели были разработаны в основном в 1972—1980 гг. Наиболее представительной здесь является трех-модальная модель Такера.

Алгоритмы вычислений для  различных моделей индивидуальных различий включают следующие общие шаги:

Шаг 1. Построение матриц различий стимулов ∆s для каждого из субъектов.

Шаг 2, Построение S матриц скалярных произведений ∆*s .

С учетом того, что анализируются  матрицы различий субъектов ∆s, формулы для определения матриц скалярных произведений запишутся в следующем виде:

 

где

 

 

Затем, при поиске стартовой  конфигурации, S матриц скалярных произведений ∆*s обобщаются в одной, средней матрице

скалярных  произведений   ∆s ,   элементы которой   —   простые средние величины:

 

 

Основополагающим является предположение, что полученные в ходе подгонки модели оценки ее параметров хорошо воспроизводят скалярные произведения:

 

 

или в матричном виде —

Шаг 3. Поиск одним из возможных методов стартовой конфигурации (определение матрицы X0, где 0 указывает на начальную итерацию).

Шаг 4. Оценка весовых коэффициентов (ωks. Множество значений ωks образует матрицу W с данными по к координатным осям и s субъектам, т.е. для конкретного субъекта s в W — диагональной матрице имеется некоторый элемент ωks, представляющий его суждение о k-м общем признаке (k-й шкале).

Шаг 5. Оценка координат стимулов, построение матрицы X размерности j х к — по числу j стимулов (строк) и к координатных осей (шкал).

Шаг 6. Проверка качества полученного решения методом наименьших квадратов:

 

где и — скалярные произведения по исходным и теоретическим данным.

Если квадрат разности между фактическими и теоретическими скалярными произведениями наименьший или меньше некоторого заранее известного порогового значения, то полученная конфигурация X0 и матрица оценок весов W считаются наилучшими, и алгоритм завершен. Если же значения критерия F неудовлетворительны, оптимизирующие шаги 4—6 повторяются.

Остановимся подробнее на важнейших моделях индивидуальных различий.

Взвешенная евклидова  модель — модель первого типа рассчитана на получение линейно независимой системы координат (шкал). Конструктивно основывается на использовании взвешенной евклидовой метрики:

 

где   — квадрат величины , представляющей вес (важность, значимость) k-той шкалы для субъекта s.

Значение  линейно связывается с координатами стимула i субъекта s:

 или в матричном виде: Xs= XWs

Очевидно, что при прочих равных величинах координат стимулов увеличение означает и большее различие между стимулами i и j.

При реализации алгоритма  анализа индивидуальных различий решаются задачи оценки координат стимулов, оценки величин и их оптимизации.

Для примера возьмем гипотетические матрицы различий, это могут быть, скажем, результаты оценки двумя субъектами уровня экологачности производства до и после проведения природоохранных мероприятий в трех административных районах (табл. 2.1).

Таблица 2.1. Исходные матрицы различий по результатам экспертного оценивания двумя субъектами и исчисленные по ним матрицы скалярных произведений

Многомерное шкалирование в экономических исследованиях