Основы статистической обработки информации
Основы статистической обработки информации
Контрольная работа № 1
Вариант № 4
Макаренко Снежана Фадеевна
Группа 14311
Шифр IV-М-44
- Показатели вариации.
При изучении явлений и
процессов общественной жизни статистика
встречается с разнообразной
вариацией (изменчивостью) признаков,
характеризующих отдельные
Вариация – это различие в значениях, какого-либо признака у разных единиц данной совокупности в один и тот же момент времени. Величины признаков изменяются под действием различных факторов. И, следовательно, чем разнообразнее условия, влияющие на размер данного признака, тем больше его вариация. Исследование вариации в статистике имеет большое значение, так как помогает изучить сущность явления. Измерение вариации, выяснение ее причины, выявление влияния отдельных факторов дает важную информацию (продолжительность жизни, доходы и расходы населения и т.д.) для принятия научно-обоснованных управленческих решений.
Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака. Она возникает в результате того, что его индивидуальные значения складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае.
Колебания отдельных значений характеризуют показатели вариации.
Термин «вариация» произошел от латинского variation - «изменение, колеблемость, различие».
Различают вариацию признака: случайную и систематическую.
Систематическая вариация помогает оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов.
Вариация определяет различия в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период (момент времени). Причиной вариации бывают разные условия существования разных единиц совокупности. Например, даже близнецы в процессе жизни приобретают различия в росте, весе, а так же в таких признаках, как уровень образования, доход, количество детей и т.д.
Вариация возникает в результате того, что сами значения признака складываются под суммарным влиянием разнообразных условий, которые разным образом сочетаются в каждом отдельном случае. Таким образом, величина любого варианта объективна.
Вариация характерна всем без исключения явлениям природы и общества, кроме законодательно закрепленных нормативных значений отдельных социальных признаков. Исследования вариации в статистике имеют огромное значение, помогают познать сущность изучаемого явления. Нахождение вариации в задачах по статистике, выяснение ее причин, выявление влияния отдельных факторов дают важную информацию для внедрения научно-обоснованных управленческих решений.
Для того, чтобы руководитель организации, управляющий, научный работник могли изучать вариацию и управлять ей, статистикой разработаны специальные методы исследования вариации (система показателей). С их помощью вариация находится, характеризуются ее свойства.
Наличию вариации обязана своим появлением статистика. Большинство статистических закономерностей проявляется через вариацию. Изучая вариацию значений признака в сочетании с его частотными характеристиками, мы обнаруживаем закономерности распределения (например: население по возрасту, студентов по уровню оценок).
Рассматривая вариацию одного признака параллельно с изменением другого, мы обнаруживаем взаимосвязи между этими признаками или их отсутствие (например: зависимость между торговой площадью и товарооборотом).
Вариации в статистике проявляются двояко, либо через изменения значений признака у отдельных единиц совокупности, либо через наличие или отсутствие изучаемого признака у отдельных единиц совокупности.
Изучение вариации в статистике
имеет как самостоятельную
Для измерения вариации применяются различные абсолютные и относительные показатели.
К основным абсолютным показателям вариации относятся:
- размах колебаний;
- среднее линейное отклонение;
- дисперсия;
- среднее квадратическое отклонение.
Простейшим показателем вариации является размах колебаний.
Достоинство этого показателя простота расчета, возможность использования для оценки вариации однородных совокупностей. Недостаток – неприемлемость для неоднородных совокупностей с редкими выбросами крайних значений признака линейного отклонения, дисперсии и средне квадратического отклонения.
Средне линейное отклонение – среднее значение отклонений всех вариантов ряда от средней арифметической (иногда от моды или медианы):
- для не сгруппированных данных;
- для сгруппированных данных.
Аналогичным по смыслу среднему линейному отклонению является показатель дисперсии и рассчитываемый на его основе показатель средне квадратического отклонения.
Дисперсия – рассеивание, данный показатель характеризует рассеивание значений признака относительно его средней величины.
- для несгруппированных данных;
- для сгруппированных данных.
Дисперсия – средне квадратическое отклонение всех вариантов ряда от средней арифметической. Если извлечь квадратный корень из дисперсии, получим средне квадратическое отклонение.
- для несгруппированных данных;
- для сгруппированных данных.
Несмотря на логическое сходство, дисперсия является более чувствительной к вариации и, следовательно, чаще применяется как показатель.
Свойства дисперсии и средне квадратеческого отклонения:
- Если все варианты ряда уменьшить или увеличить на постоянное число, то величина дисперсии и средне квадратического отклонения не изменится.
- Если все варианты ряда умножить или разделить на постоянное число, дисперсия соответственно увеличится или уменьшится в квадрат этого числа раз, а средне квадратическое отклонение в это число раз.
- Если частоты ряда уменьшить или увеличить в постоянное число раз, то дисперсия и средне квадратическое отклонение от этого не изменится.
- Дисперсия равна среднему квадрату вариантов ряда минус квадрат средней арифметической.
- Общая дисперсия равна средней арифметической из частных дисперсий (внутригрупповых дисперсий) плис дисперсии частных средних (межгрупповые дисперсии). Это свойство называется правилом сложения дисперсий, которое широко применяется в выборочном методе, методе измерений взаимосвязей явлений, а так же дисперсионном анализе.
- общая дисперсия;
- частная дисперсия;
- средняя из частных дисперсий;
- численность соответствующей группы;
- межгрупповая дисперсия
Правило сложения дисперсий:
Где s2 – общая дисперсия;
- средняя из внутригрупповых дисперсий;
d2 – дисперсия групповых средних (межгрупповая) дисперсия.
Абсолютные измерители вариации (дисперсия, средне квадратическое отклонение) ограниченно пригодны для сравнительного анализа вариаций различных совокупностей.
Для цели сравнительного анализа
применяют относительные
К основным относительным показателям вариации, называемым показателями относительного рассеяния, относятся:
- коэффициент вариации;
- коэффициент осцилляции;
- относительное линейное отклонение.
Относительные показатели вариации исчисляются в процентах.
Коэффициенты вариации определенные по различным основаниям не одинаковы, поэтому сопоставляя вариации разных совокупностей, нужно использовать коэффициенты вариации, рассчитанные по одной и той же величине.
Коэффициент вариации является так же количественной мерой однородности совокупности.
Коэффициент осцилляции отражает относительную колеблемость крайних значений от его средней величины
= 100%
Относительное линейное отклонение характеризует долю абсолютных отклонений от средней величины
= 100%
Можно подвести итоги.
Под вариацией в статистике понимают такие количественные изменения исследуемого признака в пределах однородной совокупности, которые обусловлены влиянием действия различных факторов. Данное определение вариации, хоть и неявно, требует, во-первых, задания количественной меры вариации, и, во-вторых, выявления действующих на нее факторов.
Возникает вариация в силу того, что отдельные значения признака статистической совокупности формируются под воздействием разнообразных факторов. Значение изучения вариации в том, что по колеблемости признаков можно судить о качественной однородности совокупности. Совокупности могут иметь одинаковые значения средней величины, но отличаться колеблемостью индивидуальных значений.
Большинство статистических закономерностей проявляется через вариацию. Изучая вариацию значений признака в сочетании с его частотными характеристиками, мы обнаруживаем закономерности распределения. Рассматривая вариацию одного признака параллельно с изменением другого, мы обнаруживаем взаимосвязи между этими признаками или их отсутствие.
Вариации в статистике проявляются двояко, либо через изменения значений признака у отдельных единиц совокупности, либо через наличие или отсутствие изучаемого признака у отдельных единиц совокупности.
Изучение вариации в статистике
имеет как самостоятельную
2. Анализ сезонности.
При анализе колеблемости динамических рядов наряду с выделением случайных колебаний, возникает задача изучения периодических колебаний. Как правило, изучение периодических (сезонных) колебаний необходимо с целью исключения их влияния на общую динамику для выявления чистой (случайной) колеблемости.
К сезонным относят все
явления, которые обнаруживают в
своем развитии отчетливо выраженную
закономерность внутригодичных изменений,
т.е. более или менее устойчиво
повторяющиеся из года в год колебания
уровней. Часто эти колебания
могут быть не связаны со сменой
времен года. К сезонным явлениям относят,
например, потребление электроэнергии;
неравномерность
Как бы ни проявлялась сезонность,
она наносит большой ущерб
национальной экономике, связанной
с неравномерным использованием
оборудования и рабочей силы, с
неравномерной загрузкой
Многие временные ряды имеют ярко выраженные сезонные компоненты, повторяющиеся с определенной периодичностью. Эта периодичность имеет место каждый год.
Если в анализируемой
временной последовательности наблюдаются
устойчивые отклонения от тенденции (в
большую или в меньшую сторону)
Это особенно заметно, когда
изучаемые явления имеют
Задачи, которые необходимо решить в ходе исследования сезонности:
- выявить наличие сезонности;
- численно выразить сезонные колебания;
- выделить факторы, вызывающие сезонные колебания;
- оценить последствия сезонных колебаний;
- провести математическое моделирование сезонности.
Для измерения сезонных колебаний статистикой предложены различные методы. Наиболее простые и часто употребляемые из них:
- метод абсолютных разностей;
- метод относительных разностей;
- построение индексов сезонности.
Первые два способа
предполагают нахождение разностей
фактических уровней и уровней,
найденных при выявлении
Применяя способ абсолютных
разностей, оперируют непосредственно
размерами этих разностей, а при
использовании метода относительных
разностей, определяют отношение абсолютных
размеров указанных разностей к
выровненному уровню. При выявлении
основной тенденции используют либо
метод скользящей средней, либо аналитическое
выравнивание. В некоторых случаях
в стационарных рядах можно пользоваться
разностью фактических уровней
и средним месячным уровнем за
год. Использование данных за несколько
лет связано с тем
Для выделения сезонной волны надо определить средний уровень за каждый месяц по 3-5-летним данным и общую среднюю за весь рассматриваемый период.
Общая средняя получается делением суммы уровней за все три-пять лет на 36 или 60 (общее число месяцев). Затем определяется абсолютное отклонение средних месячных показателей от общей средней.
Метод абсолютных разностей заключается в расчете месячных средних и общей средней с последующим их сравнением:
yt — средний месячный уровень показателя за три и более лет,
yc — среднемесячное значение показателя за все годы.
Если сезонность оценивается по данным за 3 года (36 месяцев), если за 5 лет (60 месяцев):
где: yi — значение уровня динамического ряда. Величина и знак значений абсолютных отклонений определяют наличие сезонности.
В качестве показателя, характеризующего сезонную неравномерность, используется показатель относительного отклонения.
Метод относительных разностей является развитием метода абсолютных разностей. Для нахождения относительных разностей абсолютные отклонения делят на общую среднюю и выражают в процентах. По величине и знакам значений относительных отклонений можно судить о величине и силе влияния сезонного фактора.
Вместо относительных разностей за каждый месяц может быть вычислен индекс сезонности, который рассчитывается как отношение среднего уровня соответствующего месяца к общей средней. Индекс сезонности рассчитывается:
yt — средний уровень
показателя соответствующего
yc — среднемесячное (по году) значение показателя за все годы (общая средняя).
Рассчитанные значения индекса сезонности сравниваются со значением 100 %. Если индекс сезонности превышает 100 % — это свидетельствует о влиянии сезонного фактора в сторону увеличения уровней динамического ряда и наоборот. Расчет индекса сезонности по данной формуле не учитывает наличие тренда. Выделение сезонной волны можно выполнить на основе построения аналитической модели проявления сезонных колебаний. Построение аналитической модели выявляет основной закон колеблемости данного временного ряда в связи с переходом от месяца к месяцу и дает лишь среднюю характеристику внутригодичных колебаний.
Определим наличие сезонных колебаний для динамического ряда условного показателя:
Вывод: ярко выраженные сезонные колебания приходятся на июнь-июль, недоучет которых при составлении прогноза, может существенно исказить его.
3. Задача. Для обследования
группы цыплят была создана
выборка способом случайного
повторного отбора. Требуется определить
доверительные пределы
1 |
Вероятность |
0,95 |
|||
2 |
нормированное отклонение |
1,96 |
|||
3 |
поголовье цыплят |
25 |
|||
4 |
поголовье петушков |
14 |
|||
5 |
средняя живая масса цыплят |
116 |
|||
6 |
средняя доля петушков |
0,56 |
|||
7 |
средняя квадратическая отклонение живой массы |
8,85 |
|||
8 |
средняя квадратическаое отклонение доли петушков |
0,5 |
|||
9 |
средняя ошибка выборки живой массы |
1,8 |
|||
10 |
средняя ошибка выборки доли петушков |
0,1 |
|||
11 |
предельная ошибка выборки живой массы |
3,47 |
|||
12 |
предельная ошибка выборки доли петушков |
0,19 |
|||
живая масса цыплят колеблется от |
1,67 |
||||
живая доля петушков колеблется в пределах |
0,09 |
||||
4. Особенности программы STATISTICA. Ее использование для социально-экономического анализа данных.
ВВЕДЕНИЕ
(Все продукты)
В работе программы STATISTICA 10 применяются уникальные достижения 64-битной компьютерной технологии (в случае ее использования), а также параллельные процессы.
Большинство функций программы STATISTICA, используемых при обработке данных и выполнении анализа (Классификации и регрессионные деревья, Выявления связей, Общие линейные модели и т.д.), оптимизированы с помощью многопоточной технологии. Таким образом, стало возможным их параллельное использование на многоядерных процессорах и достижение высочайшего быстродействия для многоразмерных задач в экономике, бизнесе, медицине.
ИНТЕГРАЦИЯ и СОВМЕСТИМОСТЬ
SharePoint
(Все продукты)
Загрузка и выгрузка из STATISTICA 10 теперь использует новые программы обмена и интеграции данных – Microsoft SharePoint.
Документы STATISTICA теперь можно чрезвычайно удобно передавать и получать из SharePoint с помощью пользовательского интерфейса программы. Насколько нам известно, на данный момент STATISTICA 10 – единственное приложение по обработке и разведочному анализу данных, которое использует эту эффективно интегрированную программу.
Office 2010
(Все продукты)
STATISTICA напрямую импортирует
файлы Office 2007 и 2010, сохраняя форматирование.
Эта новая технология
OLAP - Уникальные возможности
(Все продукты)
STATISTICA Query может получать данные не только из внешних систем, таких как поставщик данных Microsoft OLE DB, но и из хранилищ бизнес-информации SAP Business Warehouse.
MDX запросы могут быть составлены с помощью удобного графического интерфейса- конструктора либо путем написания MDX кода вручную.
STATISTICA PI Connector
(Дополнение)
Чрезвычайно упрощена установка и работа STATISTICA PI. Данный продукт был включен в дистрибутив STATISTICA и не требует отдельной установки.
ВИЗУАЛИЗАЦИЯ ДАННЫХ
(Все продукты)
Вводный обзор
Великолепные графические возможности STATISTICA теперь чрезвычайно усовершенствованы. Программа автоматически определяет и использует преимущества высокоэффективного аппаратного ускорения, которое может быть реализовано не только видеокартами стационарных компьютеров «топ»-уровня, но и графическими ускорителями ноутбуков «среднего» уровня.
В результате графики строятся не только быстрей, но и поддерживают более продвинутые настройки изображения. Графические возможности программы STATISTICA были усовершенствованы благодаря новым процедурам расслоения, закрашивания и сглаживания линий, кривых и поверхностей.
Кроме того, все графические документы STATISTICA (как отдельные, так и собранные в рабочую книгу) могут изменяться и настраиваться интерактивно (с помощью инструментов, расположенных в нижней части окна графика).
Новые возможности STATISTICA 10 позволяют не только улучшить внешний вид графика, но и проводить более глубокий визуальный анализ и выявлять скрытые тренды путем постепенного уменьшения насыщенности изображения, а также вращения трехмерных графиков.
Интерактивное масштабирование
Теперь вы можете интерактивно изменять масштаб всех осей графика. Наведите курсор мыши на ось, потяните вправо или влево, масштаб изменится. Интерактивное масштабирование позволяет визуально выявить скрытые тренды с помощью растяжения или сжатия интересующей части графика.
Интерактивная прокрутка
С помощью мыши вы можете интерактивно прокручивать оси графика влево или вправо (наведите курсор мыши на центр оси). Интерактивная прокрутка поможет обнаружить тренды, скрытые в массиве данных.
Прозрачность
STATISTICA 10 поддерживает опцию
«прозрачность» (настраивается с
помощью ползунков,
Целью является достижение оптимального уровня плотности точек, при котором можно выявить закономерности, скрытые большим количеством случайных данных (белым шумом), которые создают эффект “чернильного пятна”.
Также, настройка прозрачности
области графика позволяет
Reference Lines (Соединительные линии)
В программе STATISTICA 10 стало
гораздо проще добавлять
Интерактивная правка текста
Текст теперь можно изменять напрямую в окне графика, не открывая редактор. Сам же редактор текста остался доступным и по-прежнему содержит дополнительные опции для форматирования.
ПОЛЬЗОВАТЕЛЬСКИЙ ИНТЕРФЕЙС, ЭРГОНОМИКА
Вводный обзор
Пользовательский интерфейс STATISTICA 10 был существенно переработан с учетом последних достижений эргономики в следующих областях: 1) уменьшение зрительного напряжения и 2) улучшение эффективности работы человека с компьютером.
STATISTICA 10 предлагает рациональный
пользовательский интерфейс,
Лента
(Все продукты)
Лента полностью обновилась и теперь содержит новые символы [также поддерживается классическое меню для совместного использования с лентой]. Макросы STATISTICA Visual Basic можно теперь добавить в меню ленты.
Улучшения рабочего пространства
(STATISTICA Data Miner/STATISTICA Text Miner)
Рабочее пространство STATISTICA Data Miner теперь содержит большие (и визуально оптимизированные) иконки. Также были настроены другие удобные пользовательские характеристики этого рабочего пространства.
STATISTICA Добавить-Установить на ленте
(Все продукты)
Лентой STATISTICA теперь можно управлять программно. Настроить ленту теперь можно с помощью вызова ППИ (Прикладного программного интерфейса). Это полезно с практической точки зрения при создании STATISTICA Добавить-Установить.
АНАЛИЗ
Design Simulation
(Все продукты, кроме STATISTICA Base)
STATISTICA 10 упрощает процедуру
подгонки и моделирования.
Модель пропорциональных рисков Кокса
(Все продукты, кроме STATISTICA Base)
Обширная и широко масштабируемая реализация Модели пропорциональных рисков Кокса (мощная модель для данных, содержащих времена жизни) добавлена в версию STATISTICA 10. Данный модуль имеет приложения в следующих областях:
Анализ времен жизни пациентов в медицине
Анализ оборота клиентов (утрата доверия клиентов)
Моделирование и оценка времени эксплуатации механических деталей (надежность)
Модуль Модель пропорциональных
рисков Кокса позволяет эффективно
работать с цензурированными данными,
категориальными предикторами и
планами, содержащими взаимодействия
и/или вложенные эффекты. В качестве
техники построения моделей этот
модуль использует метод наилучших
подмножеств и пошаговую