Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Статистические оценки параметров распределения

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН

Западно-Казахстанский аграрно-технический университет имени Жангир хана

Реферат

на тему: «Статистические оценки параметров распределения»

Выполнил: студент группы

БЭК-12(2)

Тулинова О.В

Проверила: ст.преподаватель

Савельева А.Н

Уральск-2013

Содержание

Статистические оценки параметров распределения. Виды статистических оценок. Статистические оценки параметров распределения. Эмпирические моменты. Асимметрия и эксцесс эмпирического распределения.

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение; если же есть основания считать, что признак имеет, например, распределение Пуассона, то необходимо оценить параметр l, которым это распределение определяется.

Обычно в распоряжении исследователя имеются лишь данные выборки, например значения количественного признака x₁, х₂, . . ., х_п, полученные в результате п наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая х_1, х₂, ..., х_п как независимые случайные величины X₁, Х₂ ,…Х_n, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения — это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра. Например, как будет показано далее, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака)

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Несмещенные, эффективные и состоятельные оценки. Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Ниже указаны эти требования.

Пусть Q* —статистическая оценка неизвестного параметра Q теоретического распределения. Допустим, что по выборке объема n найдена оценка Q₁. Повторим опыт, т. е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным найдем оценку Q₂. Повторяя опыт многократно, получим числа Q₁^*, Q₂^*, ..., Q_k^*, которые, вообще говоря, различны между собой. Таким образом, оценку Q* можно рассматривать как случайную величину, а числа Q₁^*, Q₂^*, ..., Q_k^*, —как ее возможные значения.

Представим себе, что оценка Q* дает приближенное значение Q с избытком; тогда каждое найденное по данным выборок число Q_i^* (i= 1, 2, ..k) больше истинного значения Q. Ясно, что в этом случае и математическое ожидание (среднее значение) случайной величины Q* больше, чем Q, т. е. М (Q*) > Q. Очевидно, что если Q* дает оценку с недостатком, то М (Q*) < Q.

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки Q* было равно оцениваемому параметру. Хотя соблюдение этого требования не устранит ошибок (одни значения Q* больше, а другие меньше Q), однако ошибки разных знаков будут встречаться одинаково часто. Иными словами, соблюдение требований М (Q*) = Q гарантирует от получения систематических ошибок.

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.

M (Q*) = Q.

Смененной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Однако было бы ошибочным считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения Q* могут быть сильно рассеяны вокруг своего среднего значения, т е. дисперсия D (Q*) может быть значительной. В этом случае найденная по данным одной выборки оценка, например Q₁, может оказаться весьма удаленной от среднего значения , а значит, и от самого оцениваемого параметра Q; приняв Q₁ в качестве приближенного значения Q, мы допустили бы большую ошибку. Если же потребовать, чтобы дисперсия Q* была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при n—»¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п—»¥о стремится к нулю, то такая оценка оказывается и состоятельной.

Генеральная средняя. Пусть изучается дискретная генеральная совокупность относительно количественного признака X.

Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.

Если все значения x₁, x₂ ..., х_N признака генеральной совокупности объема N различны, то

Если же значения x₁, x₂ ..., х_k признака имеют соответственно частоты N₁,N₂….N_k, причем N₁+N₂….+N_k=N, то

т. е. генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Выборочная средняя. Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема п.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения x₁, x₂, ..., х_п признака выборки объема n различны, то

Если же значения признака x_1, x₂, . .., x_k имеют cooтветственно частоты n₁, n₂..., n_k, причем n₁+n₂.. ... + n_k = n, то

т. е. выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Заметим, что в теоретических рассуждениях выборочные значения x₁, х₂, ..., хn признака X, полученные в итоге независимых наблюдений, также рассматривают как случайные величины Х₁, Х₂, . . ., Х_n, имеющие то же распределение и, следовательно, те же числовые характеристики, которые имеют X.

Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних. Пусть из генеральной совокупности (в результате независимых наблюдений над количественным признаком X) извлечена повторная выборка объема n со значениями признака x_1, х₂, . .., х_п. Не уменьшая общности рассуждений, будем считать эти значения признака различными. Пусть генеральная средняя х_Г неизвестна и требуется оценить ее по данным выборки. В качестве оценки генеральной средней принимают выборочную

Убедимся, что — несмещенная оценка, т. е. покажем, что математическое ожидание этой оценки равно . Будем рассматривать как случайную величину и x_1, х₂, . .., х_п как независимые, одинаково распределенные случайные величины Х₁, Х₂, . . ., Х_n. Поскольку эти величины одинаково распределены, то они имеют одинаковые числовые характеристики, в частности одинаковое математическое ожидание, которое обозначим через а. Так как математическое ожидание среднего арифметического одинаково распределенных случайных величин равно математическому ожиданию каждой из величин , то

Приняв во внимание, что каждая из величин Х₁, Х₂, . . ., Х_n имеет то же распределение, что и генеральная совокупность (которую мы также рассматриваем как случайную величину), заключаем, что и числовые характеристики этих величин и генеральной совокупности одинаковы. В частности, математическое ожидание а каждой из величин равно математическому ожиданию признака X генеральной совокупности, т. е.

Заменив в формуле (*) математическое ожидание а на , окончательно получим

Тем самым доказано, что выборочная средняя есть несмещенная оценка генеральной средней.

Легко показать, что выборочная средняя является и состоятельной оценкой генеральной средней. Действительно, допуская, что случайные величины Х₁, Х₂, . . ., Х_nимеют ограниченные дисперсии, мы вправе применить к этим величинам теорему Чебышева (частный случай), в силу которой при увеличении n среднее арифметическое рассматриваемых величин, т. е. , стремится по вероятности к математическому ожиданию а каждой из величин, или, что то же, к генеральной средней (так как = а).

Итак, при увеличении объема выборки n выборочная средняя стремится по вероятности к генеральной средней, а это и означает, что выборочная средняя есть состоятельная оценка генеральной средней. Из сказанного следует также, что если по нескольким выборкам достаточно большого объема из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближенно равны между собой. В этом и состоит свойство устойчивости выборочных средних.

Заметим, что если дисперсии двух одинаково распределенных совокупностей равны между собой, то близость выборочных средних к генеральным не зависит от отношения объема выборки к объему генеральной совокупности. Она зависит от объема выборки: чем объем выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности отобран 1 % объектов, а из другой совокупности отобрано 4% объектов, причем объем первой выборки оказался большим, чем второй, то первая выборочная средняя будет меньше отличаться от соответствующей генеральной средней, чем вторая.

Групповая и общая средние. Допустим, что все значения количественного признака X совокупности, безразлично-генеральной или выборочной, разбиты на несколько групп. Рассматривая каждую группу как самостоятельную совокупность, можно найти ее среднюю арифметическую.

Групповой средней называют среднее арифметическое значений признака, принадлежащих группе.

Теперь целесообразно ввести специальный термин для средней всей совокупности.

Общей средней называют среднее арифметическое значений признака, принадлежащих всей совокупности.

Зная групповые средние и объемы групп, можно найти общую среднюю: общая средняя равна средней арифметической групповых средних, взвешенной по объемам групп.

Отклонение от общей средней и его свойство. Рассмотрим совокупность, безразлично — генеральную или выборочную, значений количественного признака X объема n:

При этом . Далее для удобства записи знак суммы заменен знаком .

Найдем общую среднюю

Отсюда .

Заметим, что поскольку - постоянная величина, то

Отклонением называют разность x_i - между значением признака и общей средней.

Теорема. Сумма произведений отклонений на соответствующие частоты равна нулю:

Следствие. Среднее значение отклонения равно нулю.

Генеральная дисперсия. Для того чтобы охарактеризовать рассеяние значений количественного признака X генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию.

Генеральной дисперсией D_г называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения x_1, х₂, . .., х_N признака генеральной совокупности объема N различны, то

Если же значения признака x_1, х₂, . .., хk имеют соответственно частоты N₁, N₂…Nk, причем N₁ + N₂+ ...+N_k = N, то

т. е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.

Генеральным, средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

Выборочная дисперсия. Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят сводную характеристику— выборочную дисперсию.

Выборочной дисперсией D_B называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х_1,х₂, ..х_n признака выборки объема n различны, то

Если же значения признака x_l, х₂, ..., х_n имеют ответственно частоты п₁, n₂, .п_k, причем п₁ + п₂ + п_k = n. то

т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Формула для вычисления дисперсии.

Вычисление дисперсии, безразлично—выборочной или генеральной, можно упростить, используя следующую теорему.

Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:

Выборка. Вариационный ряд. Эмпирические законы распределения.

Пусть проводятся n независимых испытаний над случайной величиной X при неизменном комплексе условий, от которых зависят конкретные реализации этой величины. В результате испытаний получены n измерений величины X: Xn = {x₁, х₂, ..., х_n}. Совокупность Xn таких измерений называют выборкой случайной величины X, сами измерения называют элементами выборки, а число измерений n - объёмом выборки. Элементы выборки можно считать независимыми одинаково распределёнными случайными величинами, поскольку они являются результатом проведения последовательности независимых испытаний с одной и той же случайной величиной X.

Предположим, что в выборке Xn представлены все возможные значения случайной величины X с частотами, пропорциональными истинным (неизвестным) вероятностям этих значений. Тогда выборку называют генеральной совокупностью. Генеральная совокупность полностью представляет закон распределения вероятностей случайной величины. Если X - дискретная случайная величина с конечным числом возможных значений, то, в принципе, можно получить генеральную совокупность при неограниченном увеличении числа измерений. По теореме Бернулли относительные частоты появления тех или иных возможных значений будут стремиться по вероятности к истинным вероятностям этих значений. Если X - непрерывная случайная величина, то ситуация усложняется, поскольку возможные значения случайной величины в совокупности представляют непрерывное множество. Из сказанного следует, что, во-первых, для любого конечного n нельзя утверждать, что Xn является генеральной совокупностью, во-вторых, чем больше n, тем ближе, в определённом смысле, Xn к генеральной совокупности.

Та выборка Xn, которая достаточно хорошо сохраняет пропорции генеральной совокупности, называется представительной (или репрезентативной). Это определение представительности выборки не позволяет делать конкретные выводы, так как не указана общая мера соответствия между представительной выборкой и генеральной совокупностью. Вопрос о представительности выборки нужно решать в конкретных частных задачах, опираясь на конкретные критерии соответствия.

Выборка Xn, элементы которой расположены в порядке возрастания, называется простым вариационным рядом. Разность R между наибольшим и наименьшим значениями измерений называют широтой распределения или размахом варьирования. Если одинаковые по значению элементы объединить в группы, то получается сгруппированный вариационный ряд, который представляется в виде таблицы:

В таблице _хi (i = 1, 2, ..., r) - различающиеся значения элементов; n_i - число элементов, имеющих значение х_i; r - число различных значений в выборке, причём n₁ + n₂ + ... + +n_r = n.

По вариационному ряду строится эмпирическая функция распределения вероятностей исследуемой случайной величины. Эмпирическая функция распределения вероятностей F*(x) определяется как отношение числа a(х) элементов выборки, меньших, чем x, к общему числу элементов n: F*(x) = a(х)/ n. Эта функция будет иметь ступенчатый график. Если все элементы выборки различны, то величина ступенек будет равна 1/ n. С ростом объёма выборки n величина ступенек уменьшается и стремится к нулю при n Для непрерывной величины при эмпирическая функция F*(x) будет неограниченно приближаться к некоторой непрерывной функции F(x). Эту сходимость следует понимать как сходимость по вероятности. Если выборка имеет повторяющиеся по величине элементы, что характерно для дискретных величин, то удобнее пользоваться сгруппированным вариационным рядом. В случае дискретной величины ступенчатый характер функции F*(x) с возрастанием n сохраняется. С ростом n могут появляться дополнительные ступеньки до тех пор, пока не будут зарегистрированы все возможные значения дискретной случайной величины (если число их конечно).

При большом объёме выборки и большом числе различных по величине элементов выборки пользоваться простым и сгруппированным вариационными рядами неудобно. В таком случае пользуются интервальным вариационным рядом, который строится следующим образом. Вся широта распределения разбивается на r частичных интервалов и подсчитывается число элементов n_i, попавших в i-й интервал (i = 1, 2, ..., r). Для каждого интервала указываются его правая a_i-1 и левая a_i границы и его середина x_i. Вся эта информация представляется в виде таблицы произвольной формы. Приведём один из вариантов такой таблицы:

Для наглядного представления о форме плотности распределения случайной величины X используются понятия полигона и гистограммы распределения, которые строятся по интервальному вариационному ряду. Для построения полигона нужно из середины каждого частичного интервала восстановить перпендикуляр длиной р_i* = n_i/n и соединить отрезками прямых вершины этих перпендикуляров. Вершины крайних перпендикуляров соединяются с концами крайних частичных интервалов. Относительные частоты р_i* представлены в таблице последней строкой. Чтобы построить гистограмму, нужно на каждом частичном интервале построить прямоугольник высотой p_i* (рис. 1).

Рис. 1. Полигон и гистограмма эмпирического распределения

Относительные частоты p_i* есть не что иное, как эмпирические вероятности попадания случайной величины в соответствующие интервалы (здесь и далее символ * означает, что величина определена по экспериментальным данным). Если по оси OY откладывать не p_i, а отношения p_i*/Di, где Di - длины частичных интервалов, то полигон и гистограмма будут различными формами представления эмпирической плотности распределения вероятностей.

Любая группировка исходных данных, подобная той, которая применяется при построении интервального вариационного ряда, приводит к частичной потере информации. Интервальный вариационный ряд не содержит точных значений элементов выборки, так как все элементы, попавшие в i-й интервал (i = 1, 2, ..., r), фактически приравниваются к значению , находящемуся в середине интервала. Современная вычислительная техника позволяет проводить обработку данных, исходя непосредственно из простого вариационного ряда при любом объёме выборки. Использовать интервальный вариационный ряд рационально тогда, когда этого требует сам метод обработки экспериментальных данных.

Эмпирические числовые характеристики. Числовые характеристики случайных величин, найденные на основе экспериментальных данных, называются точечными оценками этих характеристик или эмпирическими характеристиками. Чтобы понять структуру формул, определяющих эмпирические моменты случайной величины, рассмотрим простой вариационный ряд Xn = {x₁x₂, ..., x_n}. Можно формально считать, что рассматривается дискретная случайная величина, имеющая n возможных значений с вероятностями 1/n. Математическое ожидание этой случайной величины и дисперсия определяются по общему правилу:

Данные формулы соответствуют простому вариационному ряду. Для сгруппированного вариационного ряда число слагаемых в уменьшится до r, где r - число различных по величине элементов выборки, за счёт группирования одинаковых слагаемых. Для интервального вариационного ряда формулы будут иметь такую же структуру, однако вместо непосредственных измерений, в ней фигурируют середины частичных интервалов x_i. Учитывая эти особенности, можно записать общие формулы для вычисления начальных n *_k и центральных m*_k эмпирических моментов случайной величины:

В этих формулах первая строка соответствует простому вариационному ряду, вторая - сгруппированному, третья - интервальному вариационному ряду. Формулы связи между центральными и начальными моментами не изменяется, т.е.

Эмпирическое математическое ожидание случайной величины совпадает с первым начальным моментом n₁^*, а её эмпирическая дисперсия совпадает со вторым центральным моментом m₂*. Формулы, определяющие основные характеристики случайной величины, также сохраняют свою структуру. В них достаточно заменить теоретические моменты n_k и m_k на эмпирические n_k* и m_k*. Таким образом, эмпирические характеристики асимметрия (скошенность) и эксцесс определяются по обычным формулам:

Где - эмпирическое среднее квадратическое отклонение величины Х.

При вычислении эмпирических характеристик можно делать некоторые предварительные преобразования выборки, которые приводят к упрощению вычислений. При этом опираются на соответствующие свойства математического ожидания, дисперсии и т.п. Например, математическое ожидание можно вычислять по формуле:

Постоянная величина C выбирается так, чтобы суммирование оказалось наиболее простым. Преобразование типа X - C означает сдвиг всей выборки по числовой оси на величину C. Дисперсия не изменяется, т.е. D*{X} = D*{X - C}. Можно вводить масштабный коэффициент, т.е. рассматривать величину aX вместо величины X, где a - масштабирующий множитель. При вычислениях следует учитывать, что M{aX} = aM{X}, а D{aX} = a² D{X}. Такие преобразования часто приводят к упрощению вычислений. Если вычисления проводятся на ЭВМ, то эти преобразования не целесообразны.

Точечные оценки параметров. Свойства эмпирических характеристик.

Требуется оценить некоторый параметр Q, связанный со случайной величиной X, используя выборку Xn = {x₁,х₂, ..., х_n}. Пусть в качестве такой оценки выбрана однозначная функция от элементов выборки Q* = Q*(x₁, х₂, ..., х_n). Для конкретных значений элементов выборки эта оценка представляет собой одно число. Такие оценки называются точечными оценками параметров, так как на числовой оси они изображаются одной точкой. Задача состоит в том, чтобы найти такую оценку Q*, которая была бы в определённом смысле наиболее близкой к оцениваемому параметру Q.

Как функция элементов выборки, оценка Q* является случайной величиной. Определим её математическое ожидание. Оно, очевидно, будет зависеть от истинных числовых характеристик изучаемой величины X и от объёма выборки n. Пусть получено равенство:

М{Q*} = Q + j(Q, n),

где j(Q, n) - некоторая функция истинного значения параметра Q. Желательно, чтобы функция j(Q, n) равнялась нулю. Это бы означало, что математическое ожидание оценки параметра равно истинному значению этого параметра. Оценка Q*, обладающая таким свойством, называется несмещённой оценкой параметра Q. Если j(Q, n) ¹ 0, то Q* называется смещённой оценкой параметра Q, а сама функция j(Q, n) называется смещением.

Если при n®¥ оценка параметра сходится по вероятности к истинному значению параметра, то оценка Q* называется состоятельной оценкой параметра Q. Для дальнейшего изучения свойств оценки Q* можно определить её дисперсию, которая также окажется функцией от истинных числовых характеристик изучаемой случайной величины X и от объёма выборки n, т.е. D{Q*} = D(Q, n). Если оценка состоятельная, то D(Q, n) стремится к нулю при n®¥ Различные оценки одного и того же параметра будут иметь разные дисперсии. Та из них, которая имеет наименьшую дисперсию, называется эффективной оценкой данного параметра.

Приведем краткий анализ эмпирических числовых характеристик. Найдем математическое ожидание и дисперсию оценки m_x случайной величины Х:

Здесь учтено, что элементы выборки x_i, являясь независимыми реализациями случайной величины X, имеют те же самые характеристики, что и сама величина X. Таким образом,

Из этого следует, что m_X^* является несмещённой и состоятельной оценкой истинного математического ожидания m_x случайной величины X (D{m_X*}®0 при n®¥.

Аналогичный анализ для эмпирической дисперсии D_X^* показывает, что

Таким образом, эмпирическая дисперсия является смещённой оценкой дисперсии. Смещение равно (-Dx/ n) и стремится к нулю при n®¥. Однако при малом объёме выборки это смещение оказывается существенным. Для его устранения вводится поправочный коэффициент, при умножении которого на D_X^* получается другая оценка дисперсии, не имеющая смещения. Эта оценка обозначается обычно через S² (читается: «S - квадрат»):

Очевидно, что M{S²} = Dx.

Вычисление дисперсии величины S² не представляет принципиальных трудностей, но оказывается достаточно громоздким. Вычисления показывают, что эта дисперсия пропорциональна величине 1/n и, следовательно, стремится к нулю при n®¥. Таким образом, величина S² является несмещённой и состоятельной оценкой истинной дисперсии Dx. Её рекомендуется использовать вместо оценки Dx*, особенно при малых значениях n.

Свойством несмещённости обладают только первые два эмпирических момента. Моменты более высоких порядков ни при каких весовых коэффициентах суммирования таким свойством не обладают, т. е. они всегда имеют неустранимое смещение.

Рассмотрим кратко методы нахождения оценок. Один из методов предполагает задание структуры оценки с точностью до неизвестных параметров, которые определяются из условия минимума дисперсии оценки. Примером применения этого метода является определение оценки математического ожидания случайной величины в случае неравноточных измерений. Пусть по выборке Xn = {x₁, x₂, ..., x_n} требуется оценить параметры mx и Dx, причём измерения x_i были произведены с разной точностью, т.е.

Статистические оценки параметров распределения 📙 Реферат → 🆔 264889