Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Системный анализ. 5

Оглавление

Введение 3

1. Теоретическая часть 5

1.1. Общие сведения о методе скользящей средней. 5

1.2. Общие сведения о корреляционном анализе и коэффициенте линейной парной корреляции. 7

1.3. Общие сведения о регрессионном анализе и методе наименьших квадратов. 10

2. Практическая часть 17

2.1. Построение графиков изменения значений показателей по данным варианта. 17

2.2. Обработка динамических рядов методом скользящей средней и построение графиков. 18

2.3. Расчет значения коэффициента линейной парной корреляции по заданным значениям рядов. 20

2.4. Аппроксимация рядов методом наименьших квадратов с применением степенной, линейной, параболической, кубической, логарифмической, показательной и экспоненциальной моделей. 23

2.4.1. Степенная модель. 27

2.4.2. Линейная модель. 29

2.4.3. Параболическая модель. 31

2.4.4. Кубическая модель. 33

2.4.5. Гипербалическая модель. 35

2.4.6. Логарифмическая модель. 37

2.4.7. Показательная модель. 39

2.4.8. Экспоненциальная модель. 41

2.5. Оценка полученных моделей аппроксимации и выбор наилучшей модели. 43

Заключение 46

Список используемой литературы……………………………………………………...47

Введение

Настоящая курсовая работа является завершающим разделом дисциплины «Теория систем и системный анализ» и требует от студента в процессе ее выполнения решения следующих задач: обработка динамических рядов методом скользящей средней, расчет значения коэффициента линейной парной корреляции, аппроксимация рядов методом наименьших квадратов с применением степенной, линейной, параболической, кубической, логарифмической, показательной и экспоненциальной моделей и выявлении лучшей модели.

Практическое выполнение курсовой работы предполагает решение типовых инженерных задач обработки данных с использованием методов матричной алгебры, решения систем линейных алгебраических уравнений численного интегрирования. Навыки, приобретаемые в процессе выполнения курсовой работы, являются основой для использования вычислительных методов прикладной математики и техники программирования в процессе изучения всех последующих дисциплин при выполнении курсовых и дипломных проектов.

Теория систем изучает общие законы функционирования систем, классификации систем и их роль в выборе методов моделирования конкретных объектов. Потребности практики почти одновременно со становлением теории систем привели к возникновению направления, названного исследованием операций. В 60-е гг. XX в. широкое распространение получили термины «системотехника», «системный подход», «системология», применительно к задачам управления – термин «кибернетика», которые в последующем стали объединять термином «системные исследования». Возник ряд родственных направлений – «имитационное моделирование», «ситуационное управление», «структурно-лингвистическое моделирование», «информационный подход» и др.

Наиболее конструктивным из направлений системных исследований в настоящее время считается системный анализ, занимающийся применением методов и моделей теории систем для практических её приложений к задачам управления.

Важная функция системного анализа – работа с целями, организация процесса целеобразования, т.е. исследование факторов, влияющих на цель, формулирование, структуризация или декомпозиция обобщающей цели. При этом разработка методики и выбор методов и приёмов выполнения её этапов базируются на использовании понятий и закономерностей теории систем.

Интерес к системным представлениям проявлялся не только как к удобному обобщающему понятию, но и как к средству постановки задач с большой неопределённостью.

По мере усложнения производственных процессов, развития науки, проникновения в тайны функционирования и развития живых организмов появились задачи, которые не решались с помощью традиционных математических методов и в которых всё большее место стал занимать собственно процесс постановки задачи, возросла роль эвристических методов, усложнился эксперимент, доказывающий адекватность формальной математической модели.

Системные представления стали включаться в той или иной форме в учебный процесс вузов, и в настоящее время междисциплинарные курсы «Теория систем», «Системный анализ», «Системология» и т.п. входят в учебные планы различных специальностей – технических, экономических, гуманитарных.

1. Теоретическая часть

1.1. Общие сведения о методе скользящей средней

Скользящее среднее – один из распространенных методов сглаживания временных рядов. Данный метод широко используется для отображения изменений биржевых котировок, цен, годовых колебаний температур и т. д. Метод так же может быть весьма полезен в цифровой обработке сигналов для устранения высокочастотных составляющих и шумов, то есть он может быть использован в качестве фильтра низких частот.

Пусть имеется оцифрованный сигнал S(n), где n – номер отчета в выборке сигнала. Применив метод скользящего среднего получаем сигнал F(n).

Общая формула для вычисления скользящего среднего:

, (1)

где W – ширина области усреднения, pi – весовые коэффициенты.

Суть метода заключается в замене точки выборки средним значением соседствующих точек в заданной окрестности. В общем случае для усреднения используются весовые коэффициенты, которые могут быть различными по значению.

Частным случаем формулы 1 является простое скользящее среднее, являющееся результатом усреднения значений в окрестности точки S(k). Весовые коэффициенты для простого скользящего среднего pi=1/W. Таким образом, формула 1 принимает вид:

, (2)

Простое скользящее среднее прекрасно подходит для устранения высокочастотных шумовых составляющих из сигнала при его обработке, когда к фильтру не предъявляется высоких требований по фазофо-частотной характеристике, крутизне среза и т.д. Например, при устранении шумов перед декодированием из оцифрованного сигнала информации.

Главным достоинством алгоритма простого скользящего среднего являются простота его реализации и нетребовательность к вычислительным ресурсом по сравнению с цифровыми фильтрами, реализующимися дискретной линейной сверткой.

Если рассмотреть формулу 1, можно заметить, что она является описанием КИХ-фильтра, где весовые коэффициенты pi являются импульсной характеристикой. Трудоемкость вычисления результата КИХ-фильтрации определяется количеством коэффициентов импульсной характеристики (Nh) и количеством семплов(отсчетов) в выборке сигнала (Ns). Тогда для вычисления одного результирующего отсчета потребуется произвести Nh операций умножения и Nh операций сложения. Для вычисления результирующей (отфильтрованной) выборки необходимо произвести Nh·Ns операций умножения и Nh·Ns операций сложения. При реализации систем реального времени такая трудоемкость зачастую бывает неприемлемой. Если рассмотреть формулу 2 то несложно подсчитать, что для вычисления одного результирующего семпла потребуется Nh операций сложения и всего одна операция умножения. Для вычисления результирующей (отфильтрованной) выборки необходимо произвести Nh·Ns операций сложения и Ns операций умножения. Таким образом, реализация алгоритма по формуле 2 дает прирост в производительности на время Nh·ts, где ts – время, затрачиваемое на выполнение одной операции умножения.

Алгоритм вычисления скользящего среднего можно далее оптимизировать по трудоемкости, а следовательно по времени выполнения за счет сокращения операций сложения, если учесть тот факт, что для применения фильтра суммирование по W отчетам можно провести только один раз для нахождения элемента

F(k)= SUM(k)/W, (3)

где

(4)

Тогда последующий элемент может быть вычислен по формуле

F(k+1) = (SUM(k) + S(k+ W/2 + 1) – S(k- W/2)) / W (5)

Пояснение к формуле (5) представленно на рисунке 1.

Рисунок 1 – Оптимизация нахождения сумм

Таким образом, на первой итерации алгоритма необходимо провести Nh операций сложения, а на последующих Ns итерациях - всего по две операции сложения.

1.2. Общие сведения о корреляционном анализе и коэффициенте линейной парной корреляции

Корреляционный анализ – совокупность методов исследования параметров многомерного признака, позволяющая по выборке из генеральной совокупности сделать статистические выводы о мерах статистической зависимости между компонентами исследуемого признака.

В данном учебном пособии рассмотрены основные элементы анализа структуры и тесноты статистической связи между анализируемыми переменными, т.е. задачи корреляционного анализа.

Основное содержание корреляционного анализа составляют методы, которые позволяют ответить на вопросы:

“существует ли связь между исследуемыми переменными?”;
“какова структура связей между параметрами исследуемого многомерного признака?”;
“как измерить тесноту связей?”.

В задачах корреляционного анализа под структурой связей понимается лишь факт наличия или отсутствия связи, а не форма этой зависимости.

Рассмотрим описание общей схемы взаимосвязи параметров при статистическом исследовании зависимостей, приведенной на рисунке.

Общая схема взаимосвязи параметров при статистическом исследовании зависимостей

Здесь S – модель исследуемого реального объекта, реализующая механизм преобразования входных переменных в отклик, х_j,, – входные переменные, описывающие условия функционирования объекта (некоторые из них могут быть подвергнуты регулированию). Эти факторы часто называют независимыми, предикторными или объясняющими.

– случайные, остаточные компоненты, влияние которых на y⁽ⁱ⁾ трудно учесть (измерить). К ним относятся также случайные ошибки в измерении анализируемых параметров. Такие компоненты называют еще латентными или просто “остатками”.

– выходные переменные (отклик), характеризующие результат функционирования объекта. Еще их называют объясняемыми переменными.

Далее будем пользоваться введенными понятиями.

При исследовании статистической связи между компонентами многомерного признака исследователю приходится решать следующие задачи:

выбор подходящего измерителя связи с учетом специфики и природы анализируемых переменных;
точечное или интервальное оценивание измерителя связи по выборочным данным, полученным в результате эксперимента;
проверка гипотезы о значимости (статистически значимом отличии значения корреляционной характеристики от нуля) анализируемого измерителя связи;
анализ структуры связей между компонентами многомерного признака.

Все это задачи корреляционного анализа. В качестве измерителей степени тесноты парных связей между количественными переменными могут использоваться индекс корреляции, коэффициент корреляции (иногда используют термин “коэффициент корреляции Пирсона”), корреляционное отношение, частный коэффициент корреляции, применяемый для исследования частных или “очищенных” связей, освобожденных от опосредованного одновременного влияния на исследуемую парную связь других переменных.

Если статистическая информация о многомерном признаке представлена не в количественной, а в порядковой шкале, то измерение парных связей осуществляется посредством ранговых выборочных измерителей связи – коэффициентов корреляции Кендалла и Спирмэна.

Измерение степени тесноты множественной связи между количественными переменными возможно с помощью множественного коэффициента корреляции (или коэффициента детерминации), а между порядковыми переменными – с помощью коэффициента конкордации.

При таком многообразии измерителей статистической связи важной становится задача выбора адекватного ее измерителя. Применимость того или иного измерителя определяется как формой представления исходной статистической информации (количественные или порядковые признаки), так и формой связи (линейная, нелинейная). От грамотного выбора адекватного измерителя связи зависит достоверность статистических выводов, распространяемых на исследуемую многомерную генеральную совокупность. Предварительный анализ структуры связи между компонентами исследуемого многомерного признака, представленного выборкой из генеральной совокупности, осуществляют с помощью корреляционных полей.

Под корреляционным полем (диаграммой рассеяния) переменных (u, v) понимается графическое представление результатов измерений (u₁, v₁), …, (u_i, v_i ), …, (u_n, v_n), этих переменных в плоскости (u, v). На основании анализа корреляционного поля легко решить вопрос о наличии или отсутствии связи, проследить характер связи (линейная, нелинейная, функциональная или стохастическая) и ее тенденцию (положительная, отрицательная).

1.3. Общие сведения о регрессионном анализе и методе наименьших квадратов

Метод наименьших квадратов — метод нахождения оптимальных параметров линейной регрессии, таких, что сумма квадратов ошибок (регрессионных остатков) минимальна. Метод заключается в минимизации расстояния между двумя векторами — вектором восстановленных значений зависимой переменной и вектором фактических значений зависимой переменной.

Метод наименьших квадратов является одним из наиболее распространенных и наиболее разработанных вследствие своей простоты и эффективности методов оценки параметров линейных эконометрических моделей. Вместе с тем, при его применении следует соблюдать определенную осторожность, поскольку построенные с его использованием модели могут не удовлетворять целому ряду требований к качеству их параметров и, вследствие этого, недостаточно “хорошо” отображать закономерности развития процесса .

Рассмотрим процедуру оценки параметров линейной эконометрической модели с помощью метода наименьших квадратов более подробно. Такая модель в общем виде может быть представлена уравнением (1.2):

y_t= a₀+ a₁ х_1t+...+ a_n х_nt + ε_t .

Исходными данными при оценке параметров a₀, a₁,..., a_n является вектор значений зависимой переменной y = (y₁ , y₂ , ... , y_T )' и матрица значений независимых переменных

в которой первый столбец, состоящий из единиц, соответствует коэффициенту модели .

Название свое метод наименьших квадратов получил, исходя из основного принципа, которому должны удовлетворять полученные на его основе оценки параметров: сумма квадратов ошибки модели должна быть минимальной.

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) х_j (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x_j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием = φ(x₁, ..., х_k), являющимся функцией от аргументов х_j и с постоянной, не зависящей от аргументов дисперсией σ².

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x₁, х₂, ..., х_j, ..., х_k) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у_i, x_i1, х_i2, ..., х_ij, ..., x_ik), где х_ij — значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), у_i — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

(6)

где β_j — параметры регрессионной модели;

ε_j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ².

Отметим, что модель (6) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β₀, β₁,…, β_j, …, β_k и аргументов.

Как следует из (6), коэффициент регрессии B_j показывает, на какую величину в среднем изменится результативный признак у, если переменную х_j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

(7)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у₁, у₂,.... у_n); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ..., k; x_0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε_i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε_i = 0) и неизвестной постоянной σ² (Dε_i = σ²).

На практике рекомендуется, чтобы значение п превышало k не менее чем в три раза.

В модели (7)

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (6). Здесь предполагается, что существует переменная x₀, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β₀, β₁, …, β_k модели (6) или вектора β в (7).

Так как в регрессионном анализе х_j рассматриваются как неслучайные величины, a Mε_i = 0, то согласно (6) уравнение регрессии имеет вид

(8)

для всех i = 1, 2, ..., п, или в матричной форме:

(9)

где — вектор-столбец с элементами ₁..., _i,..., _n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у_i от модельных значений _i, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 1.

Рис. 1. Наблюдаемые и модельные значения результативного признака у

Дифференцируя, с учетом (9) и (8), квадратичную форму Q по β₀, β₁, …, β_k и приравнивая частные производные к нулю, получим систему нормальных уравнений

решая которую получим вектор-столбец оценок b, где b = (b₀, b₁, ..., b_k)^T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии, получается по формуле

(11)

Х^T — транспонированная матрица X;

(Х^TХ)^-1 — матрица, обратная матрице Х^TХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии

(12)

или в матричном виде:

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением

(13)

где

(14)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

(15)

Значимость уравнения регрессии, т.е. гипотеза Н₀: β = 0 (β₀,= β₁ = β_k = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

(16)

По таблице F-распределения для заданных α, v₁ = k + l,v₂ = n – k - l находят F_кр.

Гипотеза H₀ отклоняется с вероятностью α, если F_набл > F_кр. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н₀: β_j = 0, где j = 1, 2, ..., k, используют t-критерий и вычисляют t_набл(b_j) = b_j/ _bj. По таблице t-распределения для заданного α и v = п - k - 1 находят t_кр.

Гипотеза H₀ отвергается с вероятностью α, если t_набл > t_кр. Из этого следует, что соответствующий коэффициент регрессии β_j значим, т.е. β_j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t_набл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками b_j генеральных коэффициентов регрессии β_j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра β_j имеет вид

(17)

где t_α находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k - 1.

Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X⁰ = (1, x , x ,,..., x )^T записывается в виде

(18)

Интервал предсказания _n+1 с доверительной вероятностью у определяется как

(19)

где t_α определяется по таблице t-распределения при α = 1 - γ и числе степеней свободы v = п - k - 1.

По мере удаления вектора начальных условий х⁰ от вектора средних ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 2), где = (1, ).

Рис. 2. Точечная

и интервальная оценки уравнения регрессии

2. Практическая часть

2.1. Построение графиков изменения значений показателей по данным варианта

Сформируем таблицу исходных данных

	Xi	Yi
0	20	28
1	21	21
2	22	41
3	23	27
4	24	35
5	24	46
6	25	56
7	27	52
8	27	59
9	27	63
10	32	72
11	32	76
12	32	88
13	33	87
14	34	82
15	34	100
16	35	95
17	36	108
18	39	106
19	39	113

Построим график по исходным данным

2.2. Обработка динамических рядов методом скользящей средней и построение графиков

Рассчитаем сглаживание в данной таблице по первому показателю

	Xi	Расчет скользящих средних	Сглаженный показатель
0	21	21	21
1	23	(21+23+20):3	21,33333333
2	20	(23+20+24):3	22,33333333
3	24	(20+24+22):3	22
4	22	(24+22+24):3	23,33333333
5	24	(22+24+24):3	24,33333333
6	27	(24+27+25):3	25,33333333
7	25	(27+25+27):3	26,33333333
8	27	(25+27+27):3	26,33333333
9	27	(27+27+32):3	28,66666667
10	32	(27+32+32):3	30,33333333
11	32	(32+32+34):3	32,66666667
12	34	(32+34+33):3	33
13	33	(34+33+32):3	33
14	32	(33+32+35):3	33,33333333
15	35	(32+35+34):3	33,66666667
16	34	(35+34+39):3	36
17	39	(34+39+36):3	36,33333333
18	36	(39+36+39):3	38
19	39	39	39

	Xi	Yi
0	20	28
1	21	21
2	22	41
3	23	27
4	24	35
5	24	46
6	25	56
7	27	52
8	27	59
9	27	63
10	32	72
11	32	76
12	32	88
13	33	87
14	34	82
15	34	100
16	35	95
17	36	108
18	39	106
19	39	113

	Xi	Yi
0	20	28
1	21	21
2	22	41
3	23	27
4	24	35
5	24	46
6	25	56
7	27	52
8	27	59
9	27	63
10	32	72
11	32	76
12	32	88
13	33	87
14	34	82
15	34	100
16	35	95
17	36	108
18	39	106
19	39	113

	Xi	Yi
0	20	28
1	21	21
2	22	41
3	23	27
4	24	35
5	24	46
6	25	56
7	27	52
8	27	59
9	27	63
10	32	72
11	32	76
12	32	88
13	33	87
14	34	82
15	34	100
16	35	95
17	36	108
18	39	106
19	39	113