Вариационные ряды и их характеристика
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧЕРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
СЕВЕРО-КАВКАЗСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ
КАФЕДРА МАТЕМАТИЧЕСКОГО АНАЛИЗА
КУРСОВАЯ РАБОТА
НА ТЕМУ:
«Вариационные ряды и их характеристика»
студент 4 курса ИЕН
группы А
Скиба Андрей Сергеевич
математического анализа
Сижук Т. П.
Ставрополь 2013
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Цель курсового проекта – изучить вариационные ряды и их приложения, а так же некоторые статистические методы: анализ вариационных рядов.
Исследование вариации в статистике имеет важное значение, так как величина вариации признака в статистической совокупности характеризует ее однородность.
В статистической практике для изучения и измерения вариации используются различные показатели (меры) вариации в зависимости от поставленных перед исследователем задач. При изучении вопроса о вариации нужно четко представлять себе условия, порождающие вариацию признаков. Следует также усвоить, что изучение вариации признаков общественных явлений находится в прямой связи с группировками, в частности с рядами распределения. Очень важно научиться свободно исчислять все показатели вариации. К ним относятся размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсия), среднее квадратичное отклонение и коэффициент вариации.
1. ВАРИАЦИОННЫЕ РЯДЫ
Единицы изучаемой совокупности обладают интересующим нас признаком в разной мере. Для каждой единицы совокупности данный признак принимает различные значения, т.е. имеет некоторую вариацию.
Вариацией признака называется наличие различий в численных значениях признаков у отдельных единиц совокупности.
Вариационный ряд - последовательность x(1), x(2), x(3), ..., x(k), ..., x(n), полученная в результате расположения в порядке неубывания исходной последовательности независимых одинаково распределённых случайных величин x1, x2, x3, ..., xn.
Вариационный ряд обычно используется в математической статистике как основа непараметрических методов (сам вариационный ряд и его члены представляют собой так называемые порядковые статистики).
Вариационный ряд служит для построения функции эмпирического распределения
где µn(x) - число членов вариационного ряда, меньших x, которая является оценкой функции распределения F(x) случайных величин x1, x2, x3, ..., xn.
Промежуток xнабл = [x(1) - x(n)] = [xmin_набл - x
Крайние члены вариационного ряда
xmin_набл = x(1) = min{xk} для k=1...n
и
xmax_набл = x(n) = max{xk} для k=1...n
называются экстремальными значениями.
Величина x(k) называется k-й порядковой статистикой.
Использование вариационного ряда для определения выборочной медианы основано на определении его центрального члена:
Meнабл = x(m), где m=(n+1)/2 при нечетном n,
Meнабл = (x(m)+x(m+1))/2, где m=n/2 при четном n.
По функции распределения F(x) исходных случайных величин x1, x2, x3, ..., xn вычисляются распределения любого члена вариационного ряда и совместные распределения его членов.
Чтобы выявить характер распределения единиц совокупности по варьирующим признакам, определить закономерности в этом распределении, строят ряды распределения единиц совокупностей по какому-либо варьирующему признаку.
Ряды распределения, построенные по количественному признаку, называются вариационными.
Форма статистических распределений может быть разнообразной, она зависит от характера изменения признака. В одних случаях значения признака концентрируются возле некоторого центра распределения очень тесно, в других случаях наблюдается значительное рассеивание, хотя средние величины могут быть одинаковыми. В связи с этим необходимо определить характер рассеивания признака.
С этой целью решают следующие задачи. Во-первых, определяют меру вариации, т.е. количественно измеряют степень колеблемости признака. Это позволяет сравнить различные совокупности между собой по степени рассеивания и отслеживать уровень вариации признака одной и той же совокупности в различные периоды.
Во-вторых, для изучения изменчивости признаков выясняют причины, вызывающие вариацию, что предполагает исследование закономерностей вариации в статистических совокупностях.
1.1.
ПОСТРОЕНИЕ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ
ВАРИАЦИОННЫХ РЯДОВ
По своей конструкции вариационный ряд состоит из двух столбцов (граф). В первом столбце приводятся индивидуальные значения признака – варианты – xi. Во втором столбце содержатся:
- абсолютные числа, показывающие сколько раз в исходной совокупности встречается данное значение признака (данный вариант). Их называют частотами – fi .Сумма всех частот должна быть равна общей численности единиц в исходной совокупности;
- относительные числа, показывающие долю или удельный вес каждой группы в общей численности единиц исходной совокупности, их называют частостями – W: fi (Wi). Сумма всех частостей должна быть равна 1 в долях или 100% в удельных весах.
Вариационные ряды по способу построения бывают двух видов: дискретные и интервальные.
Дискретный ряд распределения можно рассматривать как такое преобразование ранжированного (упорядоченного) ряда, при котором перечисляются отдельные значения признака, и указывается их частота.
Общая схема ряда распределения такова: в совокупности, состоящей из N единиц, некоторая переменная величина xi (т.е. какой-либо варьирующий признак) принимает различные значения, а каждое из этих значений имеет частоту fi. Исходя из этого, дискретный ряд распределения можно представить следующим образом (см. Таблица,1).
Однако приведенная схема вариационного ряда применима лишь для тех случаев, когда варьирующий признак может принимать небольшое количество значений, т.е. когда число вариантов невелико. Если же вариантов много, невозможно образовать группы для каждого из них. Число групп не должно превышать 12-15 (при достаточно большом числе наблюдений, например, свыше 500), в противном случае вариационный ряд становится слишком громоздким.
Таблица,1
Вариант, xi |
Частота, fi |
|
x1 x2 . . . . xn .
|
f1 f2 . . . fn |
|
Итого |
Если число вариантов велико или признак имеет непрерывную вариацию, то объединение отдельных наблюдений в группы возможно лишь на базе интервала, т.е. такой группы, которая имеет определенные приделы значений варьирующего признака. Эти пределы обозначаются двумя числами, они указывают верхнюю и нижнюю границы, т.е. значение, с которого начинается данная группа, и значение, на котором она заканчивается. При использовании интервалов образуются интервальные ряды распределения. Строя интервальный вариационный ряд, определяют прежде всего число групп, на которую следует разбить всю совокупность. Чем больше групп, тем уже будет интервал и тем точнее описание распределения. Однако слишком большое число групп затрудняет понимание характера вариации. Вопрос о числе групп следует решать в каждом случае особо в зависимости от изучаемого объекта, объема совокупности. Чаще всего строят вариационные ряды из 7-10 групп.
Для определения числа групп, на которые делят совокупность, используют формулу Стерджесса:
k= 1 + 3,322*lgN, где N - общее число единиц совокупности.
По формуле Стерджесса можно определить и длину интервала i.
, где xmax - xmin - размах вариации.
Применение формулы Стерджесса не всегда дает хорошие результаты.
Интервалы могут быть закрытые и открытые. Закрытые интервалы ограничены с обеих сторон, т.е. имеют границу как нижнюю («от»), так и верхнюю («до»). Открытые интервалы имеют какую-либо одну границу: либо верхнюю, либо нижнюю. Наличие открытых интервалов хотя и нежелательно, но тем не менее почти неизбежно, так как ради компактности ряда все крайние случае необходимо сводить в одну группу. Однако, признавая неизбежность образования открытых интервалов, следует подчеркнуть, что они не должны включать в себя значительную часть общего числа наблюдений, иначе описание всего распределение будет недостаточно точным.
Для анализа структуры совокупности
и расчета обобщающих характеристик
необходимо дополнять исходную таблицу
несколькими дополнительными
Середину интервала для интервального ряда, в котором верхние и нижние границы соседних интервалов совпадают, находят как полусумму нижнего и верхнего значений интервала. Что касается открытых интервалов, то длина первого интервала приравнивается условно к длине второго, а центральным вариантом последнего интервала обычно служит сумма его нижнего значения и половины предпоследнего интервала.
Любое распределение можно охарактеризовать с помощью накопленных частот. Накопленная частота показывает число единиц совокупности, у которых значение варианта не больше данного. Накопленная частота для данного варианта или для верхней границы данного интервала получается суммированием (накапливанием) частот всех предшествующих интервалов, включая данный.
Графически вариационный ряд можно изобразить, как и любой ряд значений аргумента и функции, используя прямоугольную систему координат и строя точки с координатами (х1, f1), (x2, f2), … (xn, fn). Если затем последовательно соединить полученные точки отрезками прямой, а из первой и последней точки опустить перпендикуляры на ось х, получим замкнутую фигуру в виде многоугольника, которая называется полигоном и графически представляет распределение совокупности по признаку х. Полигон чаще используется для дискретных вариационных рядов.
Интервальный вариационный ряд изображают в виде гистограммы. Для ряда с равными интервалами на оси х откладывают отрезки, равные длине интервала. На этих отрезках, как на основаниях, строят прямоугольники, высота которых пропорциональна частоте или частости. Площадь всей гистограммы численно равна сумме частот, или численности единиц в совокупности (если на оси ординат отложить частоты).
Любой вариационный ряд можно представить графически в виде прямой накопленных частот. При этом на оси х откладывают варианты или верхние границы интервалов, а на оси у – соответствующие накопленные частоты. Полученные точки соединяют для непрерывного признака плавной кривой, которая называется кумулятивной кривой. Можно построить кумулятивное распределение «не меньше чем», а можно «больше чем». В первом случае график кумулятивного распределения называется кумулятой, во втором – огивой.
1.2. ОСНОВНЫЕ ПОКАЗАТЕЛИ СРЕДНЕГО УРОВНЯ ВАРИАЦИОННОГО РЯДА
При изучении особенностей
статистического распределения
прежде всего следует найти его
центральное значение, т.е. средний
уровень. Для характеристики центра
распределения применяются
В статистике применяются различные виды (формы) средних величин. Самый распространенный вид средних - средняя арифметическая: простая или взвешенная.
Средняя арифметическая простая:
, где n - численность совокупности.
Применяется, когда объем совокупности представляет сумму всех индивидуальных значений варьирующего признака.
Для интервального вариационного ряда расчет средней арифметической должен быть выполнен по формуле средней арифметической взвешенной. Взвешивание – это лишь технический прием, посредством которого суммирование одинаковых значений заменяется умножением этих значений на их частоты.
Средняя арифметическая взвешенная:
В отдельных случаях веса могут быть представлены не абсолютными, а относительными величинами (в процентах или долях единицы). При этом упрощаются расчеты, так как составляет единицу или 100%. При замене частот на частости средняя величина характеристики не изменится, а формула примет следующий вид:
Средняя арифметическая обладает рядом свойств:
- Средняя арифметическая постоянной величины а равна этой же постоянной величине: .
- Сумма отклонений значений вариантов от средней равна нулю:
(если частоты равны единице);
(если частоты различны).
- Если из всех вариантов хi вычесть постоянную величину х0 и на основе разностей вычислить среднюю , то она будет меньше средней исходного ряда на эту постоянную величину. Поэтому, чтобы получить среднюю из исходных вариантов, необходимо к средней прибавить ту же постоянную величину х0: .
- Если все варианты хi разделить на постоянную величину i и из частных ( ) вычислить среднюю, то она будет меньше средней исходного ряда в h раз. Для того чтобы получить среднюю из исходных вариантов, нужно среднюю умножить на эту же постоянную величину i: .
- Если у всех вариантов хi частоты fi равны друг другу, то средняя арифметическая взвешенная равна средней арифметической простой.
Поскольку средняя арифметическая
вычисляется как отношение
Важнейшей характеристикой центра распределения, кроме средней арифметической, является мода. Мода – это значение признака, которое чаще всего встречается в вариационном ряду. Во многих случаях эта величина наиболее характерна для ряда распределения и вокруг нее концентрируется большая часть вариантов. При изменении распределения в его концах мода не меняется, т.е. она обладает определенной устойчивостью к вариации признака. Поэтому моду наиболее удобно применять при изучении рядов с неопределенными границами.
Для дискретного ряда мода находится непосредственно по определению. Для интервального ряда с равными интервалами:
где xМо - нижняя граница модального интервала;
iМо - величина модального интервала;
fМо - частота модального интервала;
fМо-1 - частота интервала, предшествующего модальному;
fМо+1 - частота интервала, следующего за модальным.
Графически моду определяют по гистограмме распределения. Для этого выбирают самый высокий прямоугольник, который и является модальным, далее верхнюю правую вершину модального прямоугольника соединяют с верхней правой вершиной предшествующего прямоугольника, а верхнюю левую вершину модального прямоугольника с верхней левой вершиной последующего прямоугольника. Абсцисса точки пересечения этих отрезков и будет модой распределения.
В статистическом анализе часто применяют структурные, или порядковые, средние, например медиану. В отличие от средней арифметической, на которую оказывают влияние все значения хi, структурные средние совершенно не зависят от крайних значений признака. Медианой называют такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы. Для дискретного ряда медиана находится непосредственно по определению на основе накопленных частот. В случае интервального вариационного ряда медиану определяют по следующей формуле:
где xМе - нижняя граница медианного интервала;
i - величина интервала;
S-1 - накопленная частота интервала, которая предшествует медианному;
fМе - частота медианного интервала.
Из определения медианы следует, что она не зависит от тех значений признака, которые расположены по обе стороны от нее. В связи с этим медиана является лучшей характеристикой центральной тенденции в тех случаях, когда концы распределений расплывчаты (например, границы крайних интервалов открыты) или в ряду распределения имеются чрезмерно большие или малые значения.
В интервальном ряду медиану можно определить графически. Медиана рассчитывается по кумуляте. Для этого из точки на шкале накопленных частот, соответствующей , проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения и является медианой.
1.3. ПОКАЗАТЕЛИ
ВАРИАЦИИ И СПОСОБЫ ИХ РАСЧЕТА
В практическом анализе оценка рассеяния значений признака может оказаться не менее важной, чем определение средней. Самая грубая оценка рассеяния, легко определяемая по данным вариационного ряда, может быть дана с помощью размаха вариации:
R = xmax - xmin,
где xmax и xmin – наибольшее и наименьшее значение варьирующего признака.
Этот показатель представляет интерес в тех случаях, когда важно знать, какова амплитуда колебаний значений признака, например, каковы колебания цены на данный товар в течение недели или разным регионам в данный отрезок времени.
Однако этот показатель не дает представления о характере вариационного ряда, расположении вариантов вокруг средней и может сильно меняться, если добавить или исключить крайние варианты (когда эти значения аномальны для данной совокупности).
Для оценки колеблемости значений признака относительно средней используются характеристики рассеяния. Они различаются выбранной формой средней и способами оценки отклонений от нее отдельных вариантов. К таким показателям относятся: среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
Среднее линейное отклонение есть средняя арифметическая из абсолютных значений отклонений отдельных вариантов от их средней величины:
- формула среднего линейного отклонения для несгруппированных данных:
- формула среднего линейного отклонения для сгруппированных данных:
где хi – значение признака или середина интервала в интервальном ряду;
fi – частота признака.
Среднее линейное отклонение выражено в тех же единицах измерения, что и варианты или их средняя. Оно дает абсолютную меру вариации.
Чтобы избежать равенства нулю суммы отклонений от средней, используют либо абсолютные значения отклонений, либо их четные степени, например квадраты. В последнем случае мера вариации называется дисперсией и обозначается D или :
- для несгруппированных данных:
- для сгруппированных данных:
Однако вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, измеряя их в квадратных единицах. Поэтому на основе дисперсии вводятся еще две характеристики: среднее квадратическое отклонение и коэффициент вариации.
Среднее квадратическое отклонение измеряется в тех же единицах, что и варьирующий признак, и исчисляется путем извлечения квадратного корня из дисперсии:
- для несгруппированных данных:
- для сгруппированных данных:
Среднее квадратическое
отклонение, как и среднее линейное
отклонение, показывает, на сколько
в среднем откланяются
Для оценки меры
вариации и ее значимости польз
либо ( ).
Так как коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков.
2. АНАЛИЗ ВАРИАЦИОННЫХ РЯДОВ
Первичные статистические
данные часто представлены неупорядоченной
последовательностью чисел, характеризующих
ту или иную сторону процесса. В
этой совокупности чисел бывает трудно
разобраться и первичная
- Построить интервальный ряд распределения.
- Дать графическое изображение в виде гистограммы и кумуляты.
- Определить показатели центра распределения.
- Определить показатели вариации.
После этого можно начать обработку статистических данных.
Построим интервальный ряд распределения на основе статистических данных указанных в таблице 2 в приложении.
Размах вариации стажа равен:
R = xmax - xmin = 19-1 = 18 лет
Для определения оптимального числа групп и длину интервала используем формулы Стерджесса :
n = 1 + 3,322*lgN = 1+3,322*lg30 = 5,88 6 (количество интервалов);
= года (длина интервала).
Таким образом, с помощью полученных данных разобьем стаж рабочих на интервалы и занесем в таблицу (табл.3). Посчитаем число рабочих в каждом интервале (граф.1).
Группировка работников промышленного предприятия по стажу:
Таблица 3
Стаж рабочих, х |
Число рабочих, f |
Кумулятивная частота, s |
Середин. интервал, хi |
хi*fi |
|
|
|
|
A |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
1 - 4 |
5 |
5 |
2,5 |
12,5 |
5,8 |
29 |
168,2 |
4 - 7 |
9 |
14 |
5,5 |
49,5 |
2,8 |
25,2 |
70,56 |
7 - 10 |
6 |
20 |
8,5 |
51 |
0,2 |
1,2 |
0,24 |
10 - 13 |
6 |
26 |
11,5 |
69 |
3,2 |
19,2 |
61,44 |
13 - 16 |
1 |
27 |
14,5 |
14,5 |
6,2 |
6,2 |
38,44 |
16 - 19 |
3 |
30 |
17,5 |
52,5 |
9,2 |
27,6 |
253,92 |
Итого: |
30 |
- |
- |
249 |
27,4 |
108,4 |
592,8 |
Для графического изображения вариационного ряда в виде гистограммы и кумуляты необходимо дополнить таблицу 3 несколькими графами (2, 3), в которых покажем такие элементы вариационного ряда, как кумулятивная частота и середина интервала.

- Вариационные ряды и их характеристика
- Вариационные ряды распределения и использование методов вариационного анализа для анализа данных в таможенной статистике
- Вариация и её показатели в сфере туризма
- Варикапи
- Варикозное расширение вен нижних конечностей
- Варіанти рекреаційного районування України
- Варіанти типологічної класифікації країн світу
- Варианты учета затрат на производство и калькулирование себестоимости работ и услуг
- Варианты финансирования инновационных программ
- Вариативность мышления
- Вариативность решения задач по математике как средство развития логического мышления
- Вариаторы и их устройство
- Вариации использования бобовых в кулинарии
- Вариации факторов производства и оптимум товаропроизводителя