Основные понятия и методы математической статистики

     Основные  понятия и методы математической статистики 

1. Из истории математической  статистики 

     Издавна в каждом государстве соответствующими органами власти собирались сведения о числе жителей по полу, возрасту, занятости в различных сферах труда, наличии различных воинов, вооружения, денежных средств, орудий труда, средств производства и т.д. Все эти и подобные им данные называются статистическими. С развитием государства и международных отношений возникла необходимость анализа статистических данных, их прогнозирование, обработка, оценка достоверности основанных на их анализе выводов и т.п. К решению таких задач стали привлекаться математики. Таким образом, в математике сформировалась новая область — математическая статистика, изучающая общие закономерности статистических данных или явлений и взаимосвязи между ними.

     Математическая  статистика как наука начинается с работ знаменитого немецкого  математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод  наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы.

     В конце XIX в. – начале ХХ в. крупный  вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и Р.А.Фишер (1890-1962). Пирсон разработал критерий «хи-квадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров.

     В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э.Пирсон развили  общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа.

     Математическая  статистика бурно развивается и  в настоящее время. За последние 40 лет можно выделить четыре принципиально  новых направления исследований:

     - разработка и внедрение математических  методов планирования экспериментов;

     - развитие статистики объектов  нечисловой природы как самостоятельного  направления в прикладной математической  статистике;

     - развитие статистических методов,  устойчивых по отношению к  малым отклонениям от используемой  вероятностной модели;

     - широкое развертывание работ по созданию компьютерных пакетов программ, предназначенных для проведения статистического анализа данных. 

2. Основные определения, формулы и теоремы математической статистики 

     Математическая  статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

     Математическая  статистика занимается установлением  закономерностей, которым подчинены  массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными  задачами математической статистики являются:

     - определение способов сбора и  группировки этих статистических  данных;

     - разработка методов анализа полученных  данных в зависимости от целей  исследования, к которым относятся:

     а) оценка неизвестной вероятности  события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

     б) проверка статистических гипотез о  виде неизвестного распределения или  о значениях параметров известного распределения.

     Для решения этих задач необходимо выбрать  из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых  можно сделать прогноз относительно исследуемого признака этих объектов.

     Предмет и методы математической статистики

     В зависимости от математической природы  конкретных результатов наблюдений статистика математическая делится  на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и  временных рядов, статистику объектов нечисловой природы. Выделяют так же описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.

     Методы  оценивания и проверки гипотез опираются  на вероятностные модели происхождения  данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, стандартное отклонение, и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.

     В математической статистике есть общая  теория проверки гипотез и большое  число методов, посвящённых проверке конкретных гипотез. Рассматривают  гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

     Большое значение имеет раздел математической статистики, связанный с проведением  выборочных обследований, со свойствами различных схем организации выборок и построением методов оценивания и проверки гипотез.

     Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.

     Различные методы построения (кластер-анализ), анализа  и использования классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

     В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

     Определим основные понятия (определения), формулы и теоремы математической статистики.

     Генеральная совокупность – все множество имеющихся объектов.

     Выборка – набор объектов, случайно отобранных из генеральной совокупности.

     Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой генеральной совокупности.

     Выборки бывают повторными и бесповторными. Выборка называется повторной, если каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность, и выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором.

     Отбор делят на два вида:

  1. Отбор, не требующий деления генеральной совокупности на части (простой, случайный, повторный);
  2. Отбор, требующий деление генеральной совокупности на части (бесповторный).

         Пусть интересующая нас случайная величина Х принимает в выборке значение х1 n1 раз, х2 – n2 раз, …, хк – nк раз, причем , где n – объем выборки. Тогда наблюдаемые значения случайных величин х1, х2,…, хк  называют вариантами, а n1, n2,…, nкчастотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты . Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:

xi x1 x2 ... xk
ni n1 n2 ... nk
wi w1 w2 ... wk
 

         Если  исследуется некоторый непрерывный  признак, то вариационный ряд может  состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni - сумму частот вариант, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом.

         Для наглядного представления поведения  исследуемой случайной величины в выборке в математической статистике строят различные графики. Ломаная, отрезки которой соединяют точки  с координатами (x1, n1), (x2, n2),…, (xk, nk), где xi откладываются на оси абсцисс, а ni– на оси ординат, называется полигоном частот. Если на оси ординат откладывать не абсолютные (ni), а относительные (wi) частоты, то получим полигон относительных частот (рис.1).

         

         Рис.1

     Выборочной (эмпирической) функцией распределения называют функцию F*(x), определяющую для каждого значения х относительную частоту события X < x.

     

,

     где nх – число вариант, меньших х, n – объем выборки.

     Из  определения эмпирической функции  распределения вытекают следующие свойства:

     1)      0 ≤ F*(x) ≤ 1 – график расположен в верхней полуплоскости и ограничен линиями х = 0 и х = 1.

     2)      F*(x) – неубывающая функция.

     3)      Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк – наибольшая варианта, то  F*(x)  = 1 при х > хк .

     Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni /h (гистограмма частот) или wi /h (гистограмма относительных частот).

     Гистограммой  частот статистического распределения выборки называют ступенчатую фигуру, состоящую из прямоугольников, основания которых равны длине частичного интервала h, а высоты равны ni/h. Площадь гистограммы частот равна объему выборки.

     Гистограммой  относительных частот называется ступенчатая  фигура, состоящая из прямоугольников, основания которых равны длине  частичного интервала h, а высоты равны hi/(n*h). Площадь гистограммы относительных частот равна единице (рис.2).

     

     Рис.2

     Эмпирические функции статистического распределения используются для оценки интегральной функции распределения, так как относительная частота сходится по вероятности K вероятности события – следствие из теоремы Чебышева.

     

     Теорема Бернулли:

     Если  произведение n – независимых испытаний в каждом из которых событие может наступить с вероятностью p и не наступить с вероятностью q = 1-p, то при достаточно большом числе испытаний и E > 0, выполнится условие:

     

Lim P(
) = 1.

     Рассмотрим  определения, необходимые при решении  задач по математической статистике:

     Генеральной дисперсией Dr называется среднее арифметическое квадратов отклонений значений признака X генеральной совокупности от генеральной средней хr.

     Генеральной средней хсред (или а) называется среднее арифметическое значений признака генеральной совокупности.

     Выборочной  средней называется  среднее арифметическое значений признака выборочной совокупности.

     Выборочной  дисперсией DB называется среднее арифметическое квадратов отклонений наблюдаемых  значений признака X от выборочной средней.

     Выборочным  средним   квадратическим   отклонением (стандартным отклонением) называется квадратный корень из выборочной дисперсии.

     Точечной  оценкой называется оценка, которая характеризуется одним число.

     Интервальной  оценкой называется оценка, которая определяется двумя числами, которые являются  концами (границами) интервала. 

3. Примеры задач по математической статистике 

     Задача  1.

     Известны  данные о количестве прочитанных страниц студентами в течение семестра: 2, 3, 5, 15, 40, 40, 15, 2, 3, 5. Составить вариационный ряд статистического распределения частот и построить полигон частот.

     Решение.

     Составим  вариационный ряд частот:

     2, 3, 5, 15, 40 – вариационный ряд.

     Запишем имеющиеся данные в виде таблицы:

xi 2 3 5 15 40
ni 2 2 2 2 2

     Используя таблицу, построим полигон частот:

     

     Задача 2.

     Признак X распределен в генеральной совокупности нормально. Найти доверительный  интервал для σr с надежностью  γ = 0,95, если п = 20, s = 0,40.

     Решение.

     Для γ = 0,95 и п = 20 находим в таблице  приложения  q=0,37<1.

     sq = 0,40 • 0,37 = 0,15.

     Концы доверительного   интервала:

     0,40 – 0,35 = 0,25   и   0,40 + 0,15 = 0,55.

     Ответ. Доверительный интервал (0,25; 0,55) покрывает  σr с надежностью 0,95.

     Задача 3.

     Дано: объем выборки n=20,  X cред =340,  “исправленное” среднее квадратическое отклонение  s= 20. Определить доверительный интервал для среднего квадратического отклонения с той же надежностью.

     При решении задачи исходить из предположения, что данные взяты из нормальной генеральной совокупности. 
 
 

     Решение.

     Для надежности γ = 0,95 и n - 20 находим в таблице приложения   q = 0,37 <1.

     sq = 20 · 0,37 = 7,4.

     Концы доверительного интервала 20 – 7,4 =12,6 и 20 4+ 7,4 = 27,4.

     Ответ: 12,6 < а < 27,4,

     Задача 4.

     По  данным 9 независимых равноточных  измерений физической величины найдены среднее арифметическое результатов отдельных измерений равно 42,319 и “исправленное” среднее квадратическое отклонение s = 5,0. Требуется оценить истинное значение а измеряемой величины с надежностью у = 0,99.

     Решение.

     Истинное  значение измеряемой величины равно  ее математическому ожиданию. Поэтому  задача сводится к оценке математического  ожидания (при неизвестном σ) при  помощи доверительного интервала, покрывающего а с заданной надежностью γ = 0,99.

     Пользуясь таблицей приложения 4 по γ = 0,99 и п = 9, находим tv = 3,36.

     Найдем  точность оценки:

     Для этого нужно вычислить концы доверительного интервала:

     42,319 – 5,60 = 36,719 и  42,319 + 5,60 = 47,919.

     Ответ: с надежностью y = 0,99 истинное значение измеренной величины а заключено в доверительном интервале 36,719 < а < < 47,919.

      Задача 5.

 Коробки с шоколадом упаковываются автоматически. По схеме собственно-случайной бесповторной выборки взято 130 из 2000 упаковок, содержащихся в партии, и получены следующие данные об их весе: 

Вес упаковки

(гр.)

Менее

975

975-1000 1000-1025 1025-1050 Более

1050

Всего
Число упаковок 6 38 44 34 8 130
 

      Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.

1012,5

= 615,3846

Решение. 

      Теоретическое нормальное распределение имеет вид:

      подставляем  а = 1012,5     = 615,3846  24,8069

      Для расчета вероятностей pi попадания случайной величины в интервал [xi ; xi+1] используем функцию Лапласа:

 
 
 
 
 
 
 
 

     в нашем случае получаем:

 
 

Примечание: Такие симметричные вероятности получились из-за того, что по нашим начальным условиям выборочная средняя попала точно в середину среднего интервала выборки.

      Составим  таблицу 
 

i

  Интервал

[xi ; xi+1]

Эмпирические  частоты

ni

Вероятности

pi

Теоретические частоты

npi

 
(ni-npi)2
1 Менее 975 6 0,0597 7,761 3,101 0,3996
2 975-1000 38 0,2431 31,603 40,922 1,2949
3 1000-1025 44 0,3829 49,777 33,374 0,6705
4 1025-1050 34 0,2431 31,603 5,746 0,1818
5 Более 1050 8 0,0597 7,761 0,057 0,0073
  130 0,9885 128,5  

      Итого, значение статистики .

      Определим количество степеней свободы по формуле: .

      m – число интервалов (m = 5).

      r – число параметров закона распределения (в нормальном распределении r = 2).

      То  есть k = 2. Соответствующее критическое значение статистики .

      Поскольку , гипотеза о нормальном распределении с параметрами N(1012,5; 615,3846) согласуется с опытными данными.

      Ниже  показана гистограмма эмпирического  распределения и соответствующая  нормальная кривая.

     

 

4. Применение математической статистики 

     Сфера применения математической статистики распространилась во многие, особенно экспериментальные, науки. Так появились экономическая статистика, медицинская статистика, биологическая статистика, статистическая физика и т.д. С появлением быстродействующих ЭВМ возможность применения математической статистики в различных сферах деятельности человека постоянно возрастает. Расширяется ее приложение и к области физической культуры и спорта. В связи с этим основные понятия, положения и некоторые методы математической статистики рассматриваются в курсе “Спортивная метрология”.

     Статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции).

               В конкретных областях применений  используются как статистические  методы широкого применения, так  и специфические. Например, в разделе  производственного менеджмента,  посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику. С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

     Связь математической статистики с теорией  вероятностей имеет в разных случаях  различный характер. Теория вероятностей изучает не любые массовые явления, а явления случайные и именно «вероятностно случайные», т. е. такие, для которых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определенную роль и при статистическом изучении массовых явлений любой природы, которые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и теорию ошибок. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приемы их исследования. 
 
 
 
 
 
 
 
 
 
 

5. Список литературы 

     
  1. Гмурман В. Е. «Теория вероятности и математическая статистика».

     2. Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику: Учебник. М.: Издательство ЛКИ, 2010. —600 с.

     3. Козлов М. В., Прохоров А. В. Введение в математическую статистику.— М.: Изд-во МГУ, 1987. —264 с.

     4. Математическая статистика А.А.Боровков. Общая теория статистики.  Финансы и статистика, М. - 1996г.

     5. Общая теория статистики. Под ред. А.А. Спирина, О.Э. Башиной. М., Финансы, М. -1995г.

     6. Севастьянов Б. А. Курс теории вероятностей и математической статистики.— М.: Наука. Главная редакция физико-математической литературы, 1982. — 256 с..

     7. Теория статистики с основами теории вероятностей: Учеб. пособие для вуэов/И.И. Елисеева, B.C. Князевский, Л.И. Ниворожкина, З.A. Морозова; Под ред. И.И. Елисеевой. - М.: ЮНИТИ-ДАНА, 2001. - 446 с.

     8. При написании работы были использованы материалы с сайта http://gouspo.ru/?page_id=13.

     9. http://www.tstu.ru/education/elib/pdf/2005/plotnik.pdf.

Основные понятия и методы математической статистики