Основные понятия и методы математической статистики
Основные
понятия и методы
математической статистики
1.
Из истории математической
статистики
Издавна в каждом государстве соответствующими органами власти собирались сведения о числе жителей по полу, возрасту, занятости в различных сферах труда, наличии различных воинов, вооружения, денежных средств, орудий труда, средств производства и т.д. Все эти и подобные им данные называются статистическими. С развитием государства и международных отношений возникла необходимость анализа статистических данных, их прогнозирование, обработка, оценка достоверности основанных на их анализе выводов и т.п. К решению таких задач стали привлекаться математики. Таким образом, в математике сформировалась новая область — математическая статистика, изучающая общие закономерности статистических данных или явлений и взаимосвязи между ними.
Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы.
В конце XIX в. – начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и Р.А.Фишер (1890-1962). Пирсон разработал критерий «хи-квадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров.
В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э.Пирсон развили общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа.
Математическая
статистика бурно развивается и
в настоящее время. За последние
40 лет можно выделить четыре принципиально
новых направления
-
разработка и внедрение
-
развитие статистики объектов
нечисловой природы как
-
развитие статистических
-
широкое развертывание работ по созданию
компьютерных пакетов программ, предназначенных
для проведения статистического анализа
данных.
2.
Основные определения,
формулы и теоремы математической
статистики
Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:
-
определение способов сбора и
группировки этих
-
разработка методов анализа
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;
б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.
Для
решения этих задач необходимо выбрать
из большой совокупности однородных
объектов ограниченное количество объектов,
по результатам изучения которых
можно сделать прогноз
Предмет и методы математической статистики
В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Выделяют так же описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.
Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, стандартное отклонение, и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.
В математической статистике есть общая теория проверки гипотез и большое число методов, посвящённых проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.
Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением методов оценивания и проверки гипотез.
Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.
Различные методы построения (кластер-анализ), анализа и использования классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.
В
настоящее время компьютеры играют
большую роль в математической статистике.
Они используются как для расчётов,
так и для имитационного
Определим основные понятия (определения), формулы и теоремы математической статистики.
Генеральная совокупность – все множество имеющихся объектов.
Выборка – набор объектов, случайно отобранных из генеральной совокупности.
Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой генеральной совокупности.
Выборки бывают повторными и бесповторными. Выборка называется повторной, если каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность, и выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором.
Отбор делят на два вида:
- Отбор, не требующий деления генеральной совокупности на части (простой, случайный, повторный);
- Отбор, требующий деление генеральной совокупности на части (бесповторный).
Пусть интересующая нас случайная величина Х принимает в выборке значение х1 n1 раз, х2 – n2 раз, …, хк – nк раз, причем , где n – объем выборки. Тогда наблюдаемые значения случайных величин х1, х2,…, хк называют вариантами, а n1, n2,…, nк – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты . Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:
| xi | x1 | x2 | ... | xk |
| ni | n1 | n2 | ... | nk |
| wi | w1 | w2 | ... | wk |
Если
исследуется некоторый
Для
наглядного представления поведения
исследуемой случайной величины
в выборке в математической статистике
строят различные графики. Ломаная,
отрезки которой соединяют
Рис.1
Выборочной (эмпирической) функцией распределения называют функцию F*(x), определяющую для каждого значения х относительную частоту события X < x.
где nх – число вариант, меньших х, n – объем выборки.
Из определения эмпирической функции распределения вытекают следующие свойства:
1) 0 ≤ F*(x) ≤ 1 – график расположен в верхней полуплоскости и ограничен линиями х = 0 и х = 1.
2) F*(x) – неубывающая функция.
3) Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк – наибольшая варианта, то F*(x) = 1 при х > хк .
Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni /h (гистограмма частот) или wi /h (гистограмма относительных частот).
Гистограммой частот статистического распределения выборки называют ступенчатую фигуру, состоящую из прямоугольников, основания которых равны длине частичного интервала h, а высоты равны ni/h. Площадь гистограммы частот равна объему выборки.
Гистограммой относительных частот называется ступенчатая фигура, состоящая из прямоугольников, основания которых равны длине частичного интервала h, а высоты равны hi/(n*h). Площадь гистограммы относительных частот равна единице (рис.2).
Рис.2
Эмпирические функции статистического распределения используются для оценки интегральной функции распределения, так как относительная частота сходится по вероятности K вероятности события – следствие из теоремы Чебышева.
Теорема Бернулли:
Если произведение n – независимых испытаний в каждом из которых событие может наступить с вероятностью p и не наступить с вероятностью q = 1-p, то при достаточно большом числе испытаний и E > 0, выполнится условие:
Рассмотрим определения, необходимые при решении задач по математической статистике:
Генеральной дисперсией Dr называется среднее арифметическое квадратов отклонений значений признака X генеральной совокупности от генеральной средней хr.
Генеральной средней хсред (или а) называется среднее арифметическое значений признака генеральной совокупности.
Выборочной средней называется среднее арифметическое значений признака выборочной совокупности.
Выборочной дисперсией DB называется среднее арифметическое квадратов отклонений наблюдаемых значений признака X от выборочной средней.
Выборочным средним квадратическим отклонением (стандартным отклонением) называется квадратный корень из выборочной дисперсии.
Точечной оценкой называется оценка, которая характеризуется одним число.
Интервальной
оценкой называется оценка, которая
определяется двумя числами, которые являются
концами (границами) интервала.
3.
Примеры задач по математической
статистике
Задача 1.
Известны данные о количестве прочитанных страниц студентами в течение семестра: 2, 3, 5, 15, 40, 40, 15, 2, 3, 5. Составить вариационный ряд статистического распределения частот и построить полигон частот.
Решение.
Составим вариационный ряд частот:
2, 3, 5, 15, 40 – вариационный ряд.
Запишем имеющиеся данные в виде таблицы:
| xi | 2 | 3 | 5 | 15 | 40 |
| ni | 2 | 2 | 2 | 2 | 2 |
Используя таблицу, построим полигон частот:
Задача 2.
Признак
X распределен в генеральной
Решение.
Для γ = 0,95 и п = 20 находим в таблице приложения q=0,37<1.
sq = 0,40 • 0,37 = 0,15.
Концы доверительного интервала:
0,40 – 0,35 = 0,25 и 0,40 + 0,15 = 0,55.
Ответ. Доверительный интервал (0,25; 0,55) покрывает σr с надежностью 0,95.
Задача 3.
Дано: объем выборки n=20, X cред =340, “исправленное” среднее квадратическое отклонение s= 20. Определить доверительный интервал для среднего квадратического отклонения с той же надежностью.
При
решении задачи исходить из предположения,
что данные взяты из нормальной генеральной
совокупности.
Решение.
Для надежности γ = 0,95 и n - 20 находим в таблице приложения q = 0,37 <1.
sq = 20 · 0,37 = 7,4.
Концы доверительного интервала 20 – 7,4 =12,6 и 20 4+ 7,4 = 27,4.
Ответ: 12,6 < а < 27,4,
Задача 4.
По данным 9 независимых равноточных измерений физической величины найдены среднее арифметическое результатов отдельных измерений равно 42,319 и “исправленное” среднее квадратическое отклонение s = 5,0. Требуется оценить истинное значение а измеряемой величины с надежностью у = 0,99.
Решение.
Истинное значение измеряемой величины равно ее математическому ожиданию. Поэтому задача сводится к оценке математического ожидания (при неизвестном σ) при помощи доверительного интервала, покрывающего а с заданной надежностью γ = 0,99.
Пользуясь таблицей приложения 4 по γ = 0,99 и п = 9, находим tv = 3,36.
Найдем точность оценки:
Для этого нужно вычислить концы доверительного интервала:
42,319 – 5,60 = 36,719 и 42,319 + 5,60 = 47,919.
Ответ: с надежностью y = 0,99 истинное значение измеренной величины а заключено в доверительном интервале 36,719 < а < < 47,919.
Задача 5.
Коробки
с шоколадом упаковываются автоматически.
По схеме собственно-случайной бесповторной
выборки взято 130 из 2000 упаковок, содержащихся
в партии, и получены следующие данные
об их весе:
| Вес упаковки
(гр.) |
Менее
975 |
975-1000 | 1000-1025 | 1025-1050 | Более
1050 |
Всего |
| Число упаковок | 6 | 38 | 44 | 34 | 8 | 130 |
Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.
1012,5
= 615,3846
Решение.
Теоретическое нормальное распределение имеет вид:
подставляем а = 1012,5 = 615,3846 24,8069
Для расчета вероятностей pi попадания случайной величины в интервал [xi ; xi+1] используем функцию Лапласа:
в нашем случае получаем:
Примечание: Такие симметричные вероятности получились из-за того, что по нашим начальным условиям выборочная средняя попала точно в середину среднего интервала выборки.
Составим
таблицу
| i | Интервал[xi ; xi+1] |
Эмпирические
частоты
ni |
Вероятности
pi |
Теоретические
частоты
npi |
(ni-npi)2 |
|
| 1 | Менее 975 | 6 | 0,0597 | 7,761 | 3,101 | 0,3996 |
| 2 | 975-1000 | 38 | 0,2431 | 31,603 | 40,922 | 1,2949 |
| 3 | 1000-1025 | 44 | 0,3829 | 49,777 | 33,374 | 0,6705 |
| 4 | 1025-1050 | 34 | 0,2431 | 31,603 | 5,746 | 0,1818 |
| 5 | Более 1050 | 8 | 0,0597 | 7,761 | 0,057 | 0,0073 |
| 130 | 0,9885 | 128,5 |
Итого, значение статистики .
Определим количество степеней свободы по формуле: .
m – число интервалов (m = 5).
r – число параметров закона распределения (в нормальном распределении r = 2).
То есть k = 2. Соответствующее критическое значение статистики .
Поскольку , гипотеза о нормальном распределении с параметрами N(1012,5; 615,3846) согласуется с опытными данными.
Ниже
показана гистограмма эмпирического
распределения и
4.
Применение математической
статистики
Сфера применения математической статистики распространилась во многие, особенно экспериментальные, науки. Так появились экономическая статистика, медицинская статистика, биологическая статистика, статистическая физика и т.д. С появлением быстродействующих ЭВМ возможность применения математической статистики в различных сферах деятельности человека постоянно возрастает. Расширяется ее приложение и к области физической культуры и спорта. В связи с этим основные понятия, положения и некоторые методы математической статистики рассматриваются в курсе “Спортивная метрология”.
Статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции).
В конкретных областях
Связь
математической статистики с теорией
вероятностей имеет в разных случаях
различный характер. Теория вероятностей
изучает не любые массовые явления, а явления
случайные и именно «вероятностно случайные»,
т. е. такие, для которых имеет смысл говорить
о соответствующих им распределениях
вероятностей. Тем не менее теория вероятностей
играет определенную роль и при статистическом
изучении массовых явлений любой природы,
которые могут не относиться к категории
вероятностно случайных. Это осуществляется
через основанные на теории вероятностей
теорию выборочного метода и теорию ошибок.
В этих случаях вероятностным закономерностям
подчинены не сами изучаемые явления,
а приемы их исследования.
5.
Список литературы
- Гмурман В.
Е. «Теория вероятности и
математическая статистика».
2. Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику: Учебник. М.: Издательство ЛКИ, 2010. —600 с.
3. Козлов М. В., Прохоров А. В. Введение в математическую статистику.— М.: Изд-во МГУ, 1987. —264 с.
4. Математическая статистика А.А.Боровков. Общая теория статистики. Финансы и статистика, М. - 1996г.
5. Общая теория статистики. Под ред. А.А. Спирина, О.Э. Башиной. М., Финансы, М. -1995г.
6. Севастьянов Б. А. Курс теории вероятностей и математической статистики.— М.: Наука. Главная редакция физико-математической литературы, 1982. — 256 с..
7. Теория статистики с основами теории вероятностей: Учеб. пособие для вуэов/И.И. Елисеева, B.C. Князевский, Л.И. Ниворожкина, З.A. Морозова; Под ред. И.И. Елисеевой. - М.: ЮНИТИ-ДАНА, 2001. - 446 с.
8. При написании работы были использованы материалы с сайта http://gouspo.ru/?page_id=13.
9. http://www.tstu.ru/education/