Обработка статистических данных средствами пакета Statgraphics

Введение

  Надо  заметить, что с недавнего времени  начались изменения в экономике  страны, которые обусловили необходимость  применения современных средств  анализа данных в самых различных  областях деятельности. Статистические методы относятся к наиболее востребованным из них. Методы статистического анализа используются также в процессе производства различной продукции, что позволяет проектировать создание оптимальных по ряду критериев, контролировать качество получаемого сырья, выпускаемой продукции, настройки экономических линий.

  Предмет исследования – статистическая обработка данных с помощью ЭВМ.

  Объект  исследования данного  курсового проекта – применение пакета StatGraphics для получения некоторых статистических характеристик.

  Основная  цель данной курсовой работы – решение некоторых экономических задач с помощью статистического пакета StatGraphics.

  Для достижения поставленной цели необходимо решить следующие задачи:

  1. Изучить и систематизировать литературу по статистическим методам обработки информации.

  2. Изучить пакет StatGraphics.

  3. Рассмотреть вычисление описательной статистики, статистическая обработка малых выборок, вывод статистик линейной связи. обработка нелинейной зависимости, приближение и оценка многомерной связи, дискриптивный анализ временных рядов.

  Методами исследования данной работы являются:

  1. Изучение литературы по теме исследования и смежным темам.
  2. Систематизировать полученной информации и е применение для вычисления статистических характеристик в пакете StatGraphics.
  3. Изучение современных информационных технологий, применяемых при проведении статистических исследований.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  1. Элементарные понятия из теории математической статистики.

    1. Понятие математической статистики.

  В современном обществе важную роль в  механизме управления экономикой выполняет статистика. Она осуществляет сбор, научную обработку, обобщение и анализ информации, характеризующее развитие экономики страны, культуры и уровня жизни населения.

  Поэтому в системе экономического образования  особое место отводится изучению статистики – базовой научной дисциплины, формирующей профессиональный уровень современного экономиста.

  В настоящее время, в условиях перехода к рыночным отношениям, перед наукой встает принципиально новая задача – реформирования общеметодических и организационных основ статистики, а также приведение ее в соответствие с международными правилами.

  Развитие  науки и техники требует все  более и более глубокого проникновения  в сущность явлений природы. Однако, сами явления природы предстают перед нами в виде огромного числа разнообразных фактов и наблюдений, которые являются результатом действия множества факторов, часть из которых лежит в основе рассматриваемого явления, а другие являются второстепенными, несущественными и нередко просто затемняют сущность явления. Нужны большие знания и умения для того, чтобы исключить всю второстепенную информацию и выявить основные и существенные сведения, содержащиеся в наблюдениях.

  Термин  «статистика» происходит от латинского слова Status,, что в средние века означало политическое состояние государства.

  Большим шагом в развитии статистической науки послужили применение экономико – математических методов и широкое использование компьютерной техники в анализе социально – экономических явлений.

  Развитие  статистической науки, расширение сферы применения практических статистических исследований, ее активное участие в механизме управления экономикой привели к изменению содержания самого понятия «статистика».

  Методы  математической статистики дают возможность  представить множество результатов наблюдения в компактном, удобном для обозрения виде. Они позволяют выделить существенную информацию из множества наблюдений, представив ее в виде небольшого числа сводных показателей. Если оказывается, что имеющихся данных недостаточно для понимания сути явления и требуется проведение добавочного эксперимента, то методы математической статистики позволяют ответить на вопрос, как такой эксперимент поставить, чтобы в максимальной степени облегчить работу исследователя как по постановке эксперимента, так и по последующей обработке экспериментальных данных.

  Хотя  современные стандартные программные  средства позволяют автоматизировать операции статистической обработки  и анализа данных (система StatGraphics дает даже интерпритацию результатов), для их использования требуется владение элементарными понятиями теории вероятностей и математической статистики. 

  1.2. Виды статистических пакетов.

  Основную  часть имеющихся статистичечких пакетов можно отнести к двум категориям: специализированные пакеты и пакеты общего назначения. Специализированные пакеты обычно содержат методы из одного- двух разделов статистики или методы, используемые в конкретной предметной области (контроль качества промышленной продукции, расчет страховых сумм и т.д.). Чаще всего встречаются пакеты для анализа временных рядов, регрессионного анализа, кластерного анализа. Многомерного шкалирования. Обычно такие пакеты содержат весьма полный набор традиционных методов в своей области, а кроме того, иногда включают и оригинальные методы и алгоритмы, созданные разработчиками пакета. Как правило, пакет и его документация ориентированы на специалистов, хорошо знакомы с соответствующими методами. Применяя такие пакеты целесообразно в тех случаях, когда требуется систематически решать задачи из той области, для которой предназначен специализированный пакет,а возможностей пакетов общего назначения недостаточно.

  Пакеты  общего назначения. Особое место на рынке занимают так называемые статистические пакеты общего назначения. Отсутстивие прямой ориентации на специфическую предметную область, широкий диапозон статистических методов, дружелюбный интерфейс пользователя привлекает в них не только начинающих пользователей, го и специалистов. Универсальность этих пакетов особенно полезна:

  • на начальных этапах обработки, когда речь идет о подборе статистической модели или метода обработки;
  • когда поведение статистических данных выходит за рамки использовавшейся ранее модели;
  • в процессе обучения основам статистик.

  Именно  пакеты общего назначения составляют большинство продавемых на рынке статистических программ. К группе пакетов общего назначения относится и диалоговая система StatGraphics, рассмотренная в этой работе.

  Неполные  пакеты общего назначения. Некоторое хождение на рынке статистических программ (особенно в нашей стране) имеют пакеты, которые можно было бы назвать неполными пакетами общего назначения. Чаще всего они содержат простейшие методы описательной статистики и некоторые методы из двух- трех разделов статики. Например, пакет «Статистик- Консультант», несмотря на громкое название, включает лишь методы описательной статистики, и отдельные процедуры регрессионного и корреляционного анализа. По-видимому, использование подобных пакетов вряд ли может быть целесообразным, так как при практической работе почти наверняка потребуются методы, которые разработчики не смогли включить в пакет.

  Требования  к статистическим пакетам.

  Для того, чтобы статистический пакет  общего назначения был удобным и  эффективным в работе, он должен удовлетворять многочисленным и  весьма жестким требованиям. В частности, необходимо, чтобы он:

  • содержал достаточно полный набор стандартных статистических методов;
  • был достаточно простым для быстрого освоения  и использования;
  • отвечал высоким требованиям к вводу, преобразованиям и организации хранения данных как в самом пакете, так и обмену с широко распространенными базами данных;
  • имел широкий набор средств графического представления данных и результатов обработки: картинка порой отражает суть дела лучше, чем любые статистические показатели;
  • предоставлял удобные возможности для включения в отчеты таблиц исходных данных, графиков, промежуточных и окончательных результатов обработки;
  • имел подробную документацию, хорошо продуманную с учетом интересов как начинающего пользователя, так и специалиста статистка.
 

1.3. Понятие стохастической  природы экономических  данных.

  Экспериментальные данные в экономике и управлении производством обычно определяются многими факторами.

  Так, производительность труда зависит  от квалификации работников, стажа. Возраста, здоровья и настроения, трудовой дисциплины. Стимулирования (материального и морального), качества инструментов, обеспеченности работ материалами и др. Многочисленные определяющие факторы, проявляясь каждый раз в той или иной мере, обуславливают колебания выполнения нормы выработки от нуля до превышения ее в десятки раз.

  Полностью учесть все факторы, обеспечить их стабильность практически не удается, поэтому  определяемое ими явление (выполнение нормы) ведет себя случайно, в точности не предсказуемо и прогнозируемо лишь в вероятностном (статистическом) смысле. Поэтому рекордные выработки не являются повседневными.

  Случайным образом проявляются многие явления  в природе и технике. А. Эйнштейн не относил вероятностные свойства к законам природы и говорил, что «Господь не играет в кости». Эйнштейн не считал удивительным, когда из неполного описания получаются статистические утверждения. Если бы удалось продвинуться к полному описанию, то следующие из него законы и отношения не имели бы ничего общего со статистикой. 

1.3.1.Случайная  величина и ее  численные типы.

  Величина  называется случайной, если при опыте (наблюдений)она принимает определенное, но наперед неизвестное значение, обусловленное случайными причинами, которые заранее не могут быть учтены.

  Различают дискретные и непрерывные случайные величины.

  Дискретной (прерывной) называется случайна величина, которая можеть принимать только конечное и ли счетное число значений (например: количество выигравших лотерейных билетов; ежедневное число больных на предприятии; выработка, выраженная в количестве деталей, и т.п.).

  Непрерывной называется случайная величина, могущая принимать любое значение из некоторого замкнутого или открытого интервала ( например: процент выполнения нормы выработки, цена товара на рынках, доход фирмы и т. п.). 

  1.3.2.Основные  характеристики случайной  величины.

  Полной  характеристикой случайной величины является ее распределение (закон распределения). Распределение, или закон распределения, понимаются как частоты (вероятности) для случайной величины:

  • непрерывной – попадания на интервалы возможных значений;
  • дискретной – принятия возможных значений

  Закон распределения – это правило, которое устанавливает связь  между возможными значениями случайной величины и вероятностями (частотами) их появления. Зная закон распределения случайной величины, можно прогнозировать ее значения.

  Закон распределения, указывая, какие значения и как часто принимает случайная величина, определяет все реально существующее или воображаемое множество значений, называемое генеральной совокупностью. Обобщенными характеристиками генеральной совокупности являются параметры положения, рассеяния, формы распределения и возможной области рассеяния.

  В экономике многие показатели ограничены по своей сути(процентные величины, цены и др.). Только при достаточном по отношению к стандарту удалении центра рассеяния от границ можно пренебречь их влиянием.

  Параметры генеральной совокупности оцениваются по формулам путем статистической обработки данных, отвечающих обычно не всей генеральной совокупности, а некоторой части. Часть генеральной совокупнолсти, взятая для обследования и обработки, называется выборочной совокупностью, или просто выборкой. Число элементов (вариант) в выборке именуется ее объемом.

  Основная  задача статистической обработки выборочной совокупности данных состоит в получении обобщенных характеристик для всей генеральной совокупности, в первую очередь параметров положения, рассеяния и формы.

  Общее и существенное, свойственное выборочной совокупности, скрыто и затушевано колебаниями конкретных проявлений случайной величины. Для того, чтобы узнать это общее, рассматриваются не отдельные, единичные проявления, а вся совокупность. Поэтому ее статистическая обработка состоит в ее усредняющих процедурах, которые подавляют индивидуальные особенности (отклонение от общей закономерности)  и выявляют типичные коллективные свойства экономического объекта или явления в целом.

  Определяемые  при статистической обработке параметры, тем не менее, сохраняют частично подавленные  и случайно пороявляющиеся индивидуальные особенности исходных данных. Иными словами, оценки параметров случайны и, как правило, не совпадают с истинными. Следует различать эти неизвестные истинные параметры генеральной совокупности и их оценки, то есть выборочные параметры, найденные при обработке ограниченной выборке данных.

  1.4. Описательная статистика и ее показатели.

  Описательная  статистика является начальным разделом

  математической  статистики, в которой дается численная и графическая характеристика выборки анализируемых данных.

  Задачи  описательной статистики заключаются  в оценке однородности выборки, закона распределения и его выборочных параметров. 
 

  Параметры положения.

  Параметры положения состоят из характеристики центра распределения: математического  ожидания (среднего арифметического) случайной величины, середины упорядочной совокупности (медианы) и значения, наиболее часто встречающегося в совокупности (моды).

  Выборочное  среднее арифметическое (математическое ожидание) является самым известным и употребляемым параметром положения центра совокупности из случайных вариант x :

   = , где N – объем выборки. Если варианты систематизированы в n интервалов со средними значениями и числом вариант , то среднее арифметическое рассчитывается как среднее взвешенное:

   ,  где N=

  Среднее взвешенное является начальным моментом первого порядка, обычно обозначаем как m. Для непрерывных случайных величин начальный момент первого порядка, математическое ожидание определяются интегралами: .

  Для дискретных случайных величин интегралы  заменяются суммами.

  Медиана случайной величины – это такое ее значение, которое делит совокупность на две равные части: большие и меньшие медианы.

  Мода распределения случайной величины является ее значением, встречающимся наиболее часто.

  Параметры рассеяния.

  Параметры рассеяния показывают разброс случайной величины. Дисперсия определяется как математическое ожидание квадрата отклонения вариант от их математического ожидания, то есть является средним квадратом отклонений случайной величины от ее среднего.

  Дисперсия D – это центральный момент второго порядка и D = . Дисперсия непрерывной случайной величины определяется интегралом:

  D =

.

  Для выборки объемом N оценка дисперсии подсчитывается по формуле:

  D = , где s- число степеней свободы.

  Параметры формы распределения.

  Форма распределения случайной величины характеризуется ассиметрией и эксцессом.

  Ассиметрия (скошенность) обычно обозначается A и определяется как относительная величина центрального момента третьего порядка:

  A =

.

  Эксцесс (крутость или островершинность) E определяется с помощью относительной величины центрального момента четвертого порядка как:

  E =

.

  У нормального закона Е=0, при Е>0 кривая плотности вероятностей приплюснута, ее вершина раздавлена, при Е>0 кривая имеет «острую» вершину. Статистически значимое отклонение Е от 0 доказывает несогласие именно с нормальным законом. 

  1.5. Элементы статистического  анализа одномерной  выборки.

  Параметры эмпирического распределения и его модель, рассматриваемые в описательной статистике, являются предметом анализа и использования для решения прикладных задач экономики.

  Оценка  согласия теоретического и эмпирического  распределения.

  Статистическая  модель эмпирического распределения  должна, как указывалось, прежде всего отвечать сущности ьоделируемого явления. Академик Зельдович Я.Б. и профессор Мышкис А.Д. в курсе прикладной математики по этому поводу  остроумно заметили, что модель тем, чем меньще в ней эмпирического и чем больше в нее вложено теоретического.

  Что касается формальной близости эмпирического  и адекватного ему теоретического распределения (модели), то они не могут  в точности совпадать в силу ограниченности выборки, пораждающей случайные  отклонения частот и параметров. Более того, очень малое расхождение между эмпирическим и теоретическим распределением указывает, как это не парадоксально, на их несогласие, поскольку по закону больших чисел эмпирические частоты сходятся к вероятностям только при неограниченном увеличении объема выборки. Ограниченная по объему выборка должна иметь с моделью расхождение, которое допускает альтернативную интерпретацию:

  • несовпадения эмпирического и теоретического распределений носят случайный характер в рамках допустимых колебаний, не противоречат друг другу, и  гипотезу о согласии с теоретической моделью можно принять;
  • различия эмпирического и теоретического распределений не объясняются случайными колебаниями, статистически значимы, и гипотеза о согласии с теоретической моделью отвергается.

  Правила, по которым устанавливается непротиворечие с теоретической моделью или она отвергается, называются критериями согласия. Обычно оценивается вероятность ошибки при отклонении гипотезы о согласии.

  1.6. Элементы теории  статистически малых  выборок.

  Малые выборки встречаются чаще: в экономической практике, анализируемые в совокупности обычно насчитывают менее 20-30 вариант. К объёму совокупности особенно чувствительна дисперсия. Поскольку вероятность больших отклонений мала, то они при небольшом количестве вариант не попадают в выборку, и дисперсия оказывается систематически заниженной, т. е. смещенной.

  1.6.1 Параметры t-распределения Стьюдента.

  В t-распределении, разработанном Стьюдентом, вместо варианты хi для малых выборок объёмом n (n<30) рассматривается величина

  t=

Формула 1

     

  Здесь - выборочное среднее малой выборки, которая подсчитывается по формуле 1; m – неизвестное математическое ожидание генеральной совокупности; sx – оценка среднеквадратичного отклонения вариант в выборке.

  Иными словами, в t- распределении Стьюдента рассматривается нормированная разность выборочной средней c неизвестным математическим ожиданием генеральной совокупности m. Единица нормирования – среднеквадратичное отклонение среднего.

  Распределение Стьюдента зависит от числа степеней свободы, подсчитываемого как n-1, и при n>20 сходится к нормальному закону. При n<20 – позволяет корректно описать поведение случайных величин по выборочным оценкам математического ожидания и стандартного отклонения.  
 
 
 

  1.6.2. Условие корректного  применения t- распределения.

  Корректная  статистическая обработка малых  выборок и решение задач с  использованием t – распределения Стьюдента предполагает согласие с нормальным законом.

  Непосредственно по малой выборке трудно составить  представление о поинтервальном распределении частостей вариант. Малое количество вариант и потеря больших отклонений ведут к систематическим  и случайным отклонениям выборочных параметров от их значений в генеральной совокупности, что снижает их достоверность как критериев при тестировании типа распределения.

  Распределение подобных сумм случайных слабосвязанных величин в соответствии с центральной  предельной теоремой теории вероятностей сходится к нормальному закону с ростом числа слагаемых. Тип распределения каждого слагаемого в сумме может быть произвольным, но с конечными значениями математического ожидания и дисперсии. 

  1.6.3.Задача о значимости различий  между средними малых выборок.

  Оценка  значимости средних в малых выборках является одной из задач их статистической обработки. Пусть, например, требуется оценить значимость (вероятность) различий ежедневных выручек за рассматривавшийся (1-я выборка) и другой (2-я вборка) периоды, представленные в таблице 1.

  

Таблица 1 

  Достоверность различий ежедневных выручек в обеих  выборках можно оценить как вероятность  отличия от 0 разности между выборочными  средними и . Предполагается, что варианты в обеих выборках имеют одинаковое среднее квадратическое отклонение sx.

  Если  генеральные совокупности  распределены по нормальному закону, то нормированная  разность выборочных средних является случайной величиной, которая подчиняется t – распределению Стьюдента с математическим  ожиданием и n1+n2 – 2 числом степени свободы:

  

Формула 2 

  Средне  квадратичное отклонение s такой случайной величины t по правилу сложения ошибок состоит из рассеяний (дисперсий) выборочных средних и в обеих выборках:

  

Формула 3

                                                                             

    Выборочное средне квадратичное отклонение sx складывается из отклонений вариант в обеих выборках относительно своих средних и делится на общее число степеней свободы.

  Для компьютерной реализации формул удобнее  выразить через выборочные оценки дисперсии  D1 и D2:

  

Формула 4

                            

    Найденное среднее квадратичное отклонение sx позволяет определить:

  • по формуле 3 – средне квадратичное отклонение s разности средних;
  • по формуле 2 – перейти к случайной величине t, отвечающей разности средних и подчиненной t – распределению Стьюдент;
  • вероятность отклонения разности средних от 0, а исходя из  t – распределению Стьюдента.

  Чем больше t, тем больше вероятность отклонения разности средних от 0 и меньше вероятность ошибки принятия гипотезы о значимости различий средних. 

1.7. Понятие приближения стахостической зависимости.

  1.7.1. Понятие стахостической парной зависимости.

  Влияние контролируемого фактора на изучаемое  явление, выраженное в некоторых  количественных показателях, устанавливается дисперсионным анализом. Но если влияние есть и уровни контролируемого фактора допускают численное измерение, то возможно более полное, количественное, изучение этого влияния с построением зависимости показателей явления,  например y(x) от значений контролируемого фактора x.

  Как и в дисперсионном анализе, сложность заключается в учете влияния контролируемого фактора, то есть эмпирической зависимости от него, на фоне множества неучитываемых случайных воздействий.

  Подобные  зависимости относятся к стахостическим. В них каждое допустимое значение аргумента x обуславливает не определенную величину зависимой переменной y(x), а ее стахостическое распределение с параметрами.

Обработка статистических данных средствами пакета Statgraphics