Программные средства, автоматизирующие статистическую обработку данных
Оглавление
Введение
В современных условиях наблюдается постоянный рост интенсивности информационных потоков и объемов обрабатываемой информации. Это требует непрерывного обновления знаний о состоянии предметной области и перспектив развития. [1]
Без адекватных технологий анализа информации (данных) человек оказывается беспомощным в жестокой информационной среде. Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений.
Для будущего учителя очень важно уметь анализировать результаты своей педагогической деятельности, а также грамотно планировать, проводить психолого-педагогические эксперименты и обрабатывать их результаты.
Для педагога-исследователя
Одним из обязательных этапов любого исследования является статистический анализ данных. Продолжительное время анализ данных был уделом специалистов, так как это требовало серьезной предварительной подготовки. С появлением и совершенствованием современных программ обработки данных статистическая обработка поднялась на новый уровень. Теперь исследователь может и не иметь математической подготовки. Достаточно оперировать статистическими понятиями и, самое главное, правильно выбрать метод анализа. Все осуществимо благодаря компьютеру и новейшим программам. [3]
В связи с вышеизложенным, мы считаем, что тема нашей работы актуальна.
Математическая статистика как метод научного исследования
Математическая статистика – наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала. [4]
Как метод научного исследования, математическая статистика сложилась достаточно давно. Сам термин статистика происходит от латинского слова «status» - состояние. В XVIII веке, когда статистика только начала оформляться в научную дисциплину, этот термин связывался с системой описания фактов, характеризующих состояние государства. В настоящее время статистика включает в себя следующие три раздела: [5]
- сбор статистических сведений каких-либо массовых совокупностей ;
- статистическое исследование полученных данных, выяснение закономерностей, которые могут быть установлены на основе данных массового наблюдения;
- разработка приемов статистического наблюдения и анализа статистических данных.
Последний раздел и составляет содержание математической статистики. Совокупность значений какого-то признака объекта называется генеральной совокупностью, а основной задачей математической статистики является выяснение вероятностных свойств генеральной совокупности (распределение, числовые характеристики и т.д.). Полное исследование генеральной совокупности практически невозможно, поэтому обычно рассматривают только некоторые ее объекты, т.е. делают выборку, с помощью которой по вероятностным свойствам оценивают генеральную совокупность. [5]
Гуманитарные и естественные науки в процессе исследования широко применяют методы статистики для сбора, обработки и анализа данных. Для разработки предмета статистики применяются специальные приемы и методы, совокупность которых образует методологию статистики. [6]
Статистическая методология – это система приемов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений. [6]
Общей основой статистического метода познания является диалектический метод, согласно которому общественные явления и процессы рассматриваются в развитии взаимной связи и причинной обусловленности.
Статистика опирается на такие диалектические категории, как количество и качество, причинность и закономерность, индивидуальное и общее.
В процессе исследования статистика может использовать и другие общенаучные методы:
- Аналогия — перенесение свойств одного объекта на другой.
- Гипотезы — научно обоснованные предположения о возможных причинных связях между явлениями.
Статистические методы используются комплексно. Применение конкретных методов предопределяется поставленными задачами и зависит от характера исходной информации. [6]
Методы статистического исследования
Статистическое исследование – это научно организованный по единой программе сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве с регистрацией их наиболее существенных признаков в учётной документации. [10]
Статистическое исследование состоит из трёх стадий:
- сбор первичной статистической информации (наблюдение);
- сводка и группировка;
- обработка статистических показателей.
Наблюдение как начальный этап исследования связано со сбором исходных данных об изучаемом вопросе. Оно свойственно многим наукам. С помощью массового научно обоснованного наблюдения получают первичную информацию об отдельных фактах изучаемого явления. При этом применяют метод массового статистического наблюдения, обеспечивающий полноту и репрезентативность полученной информации.
Статистическое наблюдение является первой стадией статистического исследования, представляющей собой научно организованный сбор данных об изучаемых явлениях и процессах общественной жизни. В результате статистического наблюдения должна быть получена объективная, сопоставимая, полная информация, позволяющая в последующих этапах исследования обеспечить научно-обоснованные выводы о характере и закономерностях развития изучаемого явления.
Статистическая сводка – комплекс последовательных операций по первичной обработке данных с целью выявления типичных черт и закономерностей, присущих изучаемому явлению.
Статистическая сводка является следующим
после статистического
Различают сводку простую и сложную. При простой сводке производится подсчёт общих итогов по изучаемой совокупности. При сложной сводке производится группировка единиц наблюдения, подсчёт итогов по каждой группе и по всей совокупности, и представление результатов группировки в виде статистических таблиц.
Сводка называется децентрализованной, если единое руководство работой осуществляется из центра, а непосредственная работа проводится на местах (обычно используется при обработке статистической отчётности). Если же сбор и обработка данных проводится в одном месте, то сводка называется централизованной. Такая сводка обычно используется для обработки материалов единовременных статистических обследований.
Проведению статистической сводки и группировки предшествует разработка программы статистического наблюдения, состоящая из нескольких этапов: выбор группировочного признака, разработка системы статистических показателей.
Статистическая сводка должна проводиться по определённой программе и плану:
- выбор группировочного признака;
- определение порядка формирования групп;
- разработка системы статистических показателей для характеристики отдельных групп и совокупности в целом;
- разработка макетов статистических таблиц для представления результатов сводки.
Чаще всего простые итоговые сводки дают слишком общие представления об изучаемом явлении. Поэтому статистический материал подвергается группировке.
Группировка – это метод, при
котором вся исследуемая
Выбор группировочного признака зависит от цели данной группировки и предварительного анализа явления. В зависимости от степени сложности массового явления и задач анализа группировки могут производиться по одному или нескольким признакам:
- Группировка называется простой, если она производится только по одному признаку;
- Группировка называется сложной или комбинированной, если она производится по двум или более признакам.
С помощью группировки можно выявить влияние отдельных единиц на средние итоговые показатели. Группировка является основой для последующей сводки и анализа данных.
В зависимости от задач исследования различают типологические, структурные и аналитические группировки. [6]
Типологическая группировка – представляет собой разделение исследуемой совокупности на однородные группы;
Структурная группировка – группировка, в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому-то варьирующему признаку. Анализ статистических данных структурных группировок, взятых за ряд периодов, показывает изменение структуру изучаемых явлений, то есть структурные сдвиги. Структурные группировки используют с целью исследования состава и структуры совокупности данных, а также с целью изучения тех изменений в этой совокупности, которые имеют место в соответствии с выбранным имеющимся признаком.
Аналитическая группировка позволяет
выявить взаимосвязи между
Сводка и группировка
В процессе обработки статистических
показателей осуществляется анализ
результатов для получения
Отличительными чертами
В целом статистическое исследование должно:
- иметь общественно-полезную цель и всеобщую значимость;
- относится к предмету статистики в конкретных условиях его места и времени;
- Выражать статистический вид учета (а не бухгалтерский и не оперативный);
- Проводиться по заранее разработанной программе с ее научно обоснованным методологическим и другим обеспечением;
- Осуществлять сбор массовых данных (фактов), в которых отражается вся совокупность причинно-следственных и других факторов, разносторонне характеризующих явление;
- Регистрироваться в виде учетных документов установленного образца;
- Гарантировать отсутствие ошибок наблюдения или же сводить их к возможному минимуму;
- Предусматривать определенные критерии качества и способы контроля собранных данных, обеспечивая их достоверность, полноту и содержательность;
- Ориентироваться на экономически эффективную технологию сбора и обработки данных;
- Быть надежной информационной базой для всех последующих этапов статистического исследования и всех пользователей статистической информацией.
Исследования, не удовлетворяющие этим требованиям, статистическими не являются. Не являются статистическими исследования, например, наблюдения и исследования: матери за играющим ребенком (личный вопрос); зрителей за театральной постановкой (нет учетной документации по зрелищу); научного работника за физико-химическими опытами с их измерениями, расчетами и документальной регистрацией (не массово-общественные данные); врача за больными с ведением медицинских карточек (оперативный учет); бухгалтера за движением денежных средств на банковском счете предприятия (бухгалтерский учет); журналистов за общественной и личной жизнедеятельностью государственных лиц или иных знаменитостей (не предмет статистики). [10]
Математическая статистика в психологии и педагогике
Специфика статистической обработки
результатов психолого-
Психолого-педагогические исследования можно разбить на три группы. Первая - это номинальные переменные (пол, возраст и другие анкетные данные и т.д.). Арифметические операции над такими величинами лишены смысла, так что результаты описательной статистики (выборочные средние, дисперсия) к таким величинам не применимы. Классический способ их анализа - разбиение на классы относительно тех или иных номинальных признаков и проверка значимых различий по классам. Вторая группа данных имеет количественную шкалу измерения, но эта шкала является порядковой (ординальной). При анализе ординальных переменных используются как разбиение на подвыборки, так и ранговые технологии (например, нахождение ранговой корреляции). Третья группа - количественные переменные, отражающие степень выраженности замеряемого показателя, - это успеваемость, тесты Амтхауэра, Кеттелла и другие оценочные тесты. При работе с выборками этой группы применимы все стандартные виды анализа, и при достаточно большом объеме выборки их распределение обычно близко к нормальному.
Одной из главных целей исследования является анализ изменений, происходящих в процессе обучения, оценка значимости и направленности этих изменений и выявление основных факторов, влияющих на процесс. При этом возможны два подхода. Можно рассматривать длительность обучения и вычислять его корреляцию с интересующими нас индивидуальными характеристиками испытуемого. Однако проводимые исследования показывают, что в процессе профессионализации изменяются зачастую не сами показатели, а структура взаимосвязей между ними. Поэтому более предпочтительным методом является разбиение данных на группы (подвыборки), их самостоятельный, а затем сравнительный анализ и проверка значимости различий в группах.
С помощью математической статистики выявляется обоснованность заключений педагогических исследований. Целью экспериментального исследования является, как правило, проверка эффективности того или иного педагогического подхода к решению поставленной в исследовании задачи. Педагогический эксперимент традиционно проводится в три этапа.
На первом (констатирующем) этапе проводится анализ педагогических условий, сложившихся в современной практике на обозначенной проблеме, и диагностическое исследование участников. Выделяются контрольные и экспериментальные группы примерно равной численности и уровня подготовленности. Результаты констатирующего этапа должны свидетельствовать о нерешенности (искомой осознанности, недостаточном осмыслении) проблемы.
На втором (формирующем) этапе эксперимента реализуются обозначенные педагогические условия. В рамках реализации педагогических, учебно-методических условий студентам экспериментальной группы предлагаются программы по формированию умений и навыков умения работы с информацией, организации учебного процесса и самостоятельной работы, их контроля.
На третьем (контрольном) этапе проводится повторное диагностическое исследование качества обучения в контрольной и экспериментальной группах. Полученные результаты сопоставляются с данными констатирующего этапа эксперимента, делаются выводы. Особое внимание уделяется обоснованности выводов при использовании того или иного критерия достоверности на заданном уровне значимости.
Рассмотрим классификацию
Таблица 1. Классификация психологических и педагогических задач и методов их решения
Задачи |
Условия |
Методы |
1. Выявление различий в уровне исследуемого признака |
а) 2 выборки испытуемых |
критерий Розенбаума; критерий Манна - Уитни; критерий t Стьюдента |
б) 3 и более выборок испытуемых |
критерий тенденций Джонкира; критерий Крускала - Уоллиса | |
2. Оценка сдвига значений исследуемого признака |
а) 2 замера на одной и той же выборке испытуемых |
критерий Вилкоксона; критерий знаков; критерий Фишера |
б) 3 и более замеров на одной и той же выборке испытуемых |
критерий Фридмана; критерий тенденций Пейджа | |
3. Выявление различий в распределении признака |
а) при сопоставлении эмпирического распределения с теоретическим |
Биноминальный критерий |
критерий Пирсона; критерий Колмогорова - Смирнова | ||
б) при сопоставлении двух эмпирических признаков |
критерий Фишера | |
4. Выявление степени согласованности изменений |
а) двух признаков б) двух иерархий или профилей |
коэффициент ранговой корреляции Спирмена или Кендалла; критерий линейной корреляции Пирсона |
5. Анализ изменений
признака под влиянием |
а) под влиянием одного фактора |
критерий тенденций Пейджа; однофакторный дисперсный анализ; критерий Барлетта; G - критерий Кохрена |
б) под влиянием нескольких факторов одновременно |
- факторный дисперсный анализ |
Алгоритм применения критерия Q Розенбаума для оценки между двумя выборками по уровню признака
- Проверить, выполняются ли ограничения: n1, , .
- Упорядочить значения отдельно в каждой выборке по степени возрастания признака. Считать выборкой 1 ту, значения в которой предположительно больше.
- Определить максимальное значение в выборке 2.
- Подсчитать количество S1 значений в выборке 1, которые больше максимальных значений в выборке 2.
- Определить минимальное значение в выборке 1.
- Подсчитать количество S2 значений в выборке 2, которые меньше минимального значения выборки 1.
- Подсчитать эмпирическое значение .
- По таблице приложения 3 определить критические значения Qкр для данных n1 и n2. Если , то H0 отвергается.
Пример 1. Можно ли считать эффективными результаты педагогического эксперимента по изменению показателей психологической защищённости старших подростков до и после эксперимента:
Показатели психологической защищённости |
Младшие подр. (сред. значен.) |
Старшие подр. (сред. значен.) |
Педагоги (сред. значен.) | |||
до |
после |
до |
после |
до |
после | |
От публичного унижения учеников учителей |
2,4 2,4 |
2,6
2,8 |
3,1
2,9 |
3,9 3,8 |
2,6 2,7 |
3,5 3,7 |
От оскорблений учеников учителей |
2,1 2,7 |
2,2
2,8 |
2,8
3,0 |
3,8
3,1 |
2,4
2,7 |
3,0
3,7 |
От высмеиваний учеников учителей |
2,2 2,7 |
2,4
2,9 |
2,6
3,0 |
3,8
4,0 |
2,6
2,8 |
2,6
2,8 |
От угроз учеников учителей |
2,5 2,7 |
2,8
3,1 |
3,2
3,2 |
4,2
3,2 |
2,8
2,9 |
3,7
3,9 |
От обзываний учеников учителей |
2,2
2,5 |
2,3 2,9 |
2,4
3,0 |
3,7
3,8 |
2,5
2,9 |
3,5
3,9 |
От того, что заставят делать против желания ученики учителя |
2,7 2,1 |
3,0
2,5 |
3,2
2,1 |
4,1
2,5 |
2,7
2,4 |
4,0
3,6 |
От игнорирования учеников учителей |
2,4 2,6 |
2,8
2,7 |
2,6
2,5 |
3,6
3,8 |
2,6
2,6 |
2,6
2,6 |
От неуважит. отношения учеников учителей |
2,2
2,4 |
2,6
2,8 |
2,6
2,8 |
3,6
2,9 |
2,4
2,6 |
3,6
3,7 |
От недоброжелательного отношения учеников учителей |
2,2
2,4 |
2,4
2,7 |
2,6
2,6 |
3,7
2,8 |
2,3
2,5 |
3,6
2,7 |
Решение.
- n1=n2=18.
- Выборкой 1 считаем средние значения защищенности после эксперимента.
- Максимальное значение в выборке до эксперимента равно 3,2.
- S1=12.
- Минимальное значение в выборке 1 равно 2,5.
- S2=2.
- .
- По приложению 3 при n1=n2=18 и p=0,01 находим Qкр=9.
Поскольку Qэмп=14 > Qкр=9, то H0 отклоняется и можно считать эффективными результаты эксперимента.
Алгоритм применения критерия U Манна - Уитни для оценки различий между двумя малыми выборками по уровню признака
- Перенести все данные испытуемых на индивидуальные карточки, пометив карточки 1-й выборки одним цветом, а 2-й - другим.
- Разложить все карточки в единый ряд по степени возрастания признака и проранжировать в таком порядке.
- Вновь разложить карточки по цвету на две группы.
- Подсчитать сумму рангов отдельно по группам и проверить, совпадает ли общая сумма рангов с расчетной.
- Определить большую из двух ранговых сумм .
- Вычислить значение U: , где ni - количество испытуемых в i- выборке (i=1, 2), nx - количество испытуемых в группе с большей суммой рангов.
- Определить критическое значение Uкр (по табл прил 1). Если Uэмп > Uкр, то H0 принимается.
Пример 1. Индивидуальные значения невербального интеллекта в выборках студентов специальности история и иностранный язык (n1=12) и история и психология (n2=11) приведены в таблице. Подсчитаем ранговые суммы по выборкам студентов исторического факультета.
Студенты спец. история и ин. язык (n1=12) |
Студенты спец. история и психология (n2=11) | |||
Показатель верб. интеллекта |
Ранг |
Показатель верб. интеллекта |
Ранг | |
127 116 115 115 111 107 107 107 106 104 95 90 |
23 19 17,5 17,5 12,5 8,5 8,5 8,5 6 3,5 2 1 |
123 122 117 114 113 112 111 108 107 105 104 |
22 21 20 16 15 14 12,5 11 8,5 5 3,5 | |
Суммы |
127,5 |
148,5 | ||
средние |
Общая сумма рангов: 127,5 + 148,5 = 351 =
Tx = 148,5
По таблице находим Uкр для n1=12 и n2=11
Uэмп=49,5 > Uкр=38 (p=0,05)
Ответ: гипотеза H0 = {студенты группы история и психология не превосходят студентов группы история и иностранный язык по уровню невербального интеллекта} принимается.
Алгоритм применения критерия Т Вилкоксона для сопоставления двух показателей испытуемых
- Составить список испытуемых.
- Вычислить разность между индивидуальными значениями во 2-м и 1-м замерах («после» – «до»). Определить, что будет считаться «типичным» сдвигом, и сформулировать гипотезу.
- Найти абсолютные величины разностей.
- Проранжировать абсолютные величины разностей, начиная с меньшего значения.
- Отметить ранги, соответствующие сдвигам в «нетипичном» направлении, подсчитать сумму этих рангов .
- Определить критические значения Tкр для данного n (по таблице прил 2). Если , то сдвиг в «типичную» сторону по интенсивности достоверно преобладает.
- Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке испытуемых.
Пример 2. 12 участников тренинга партнерского общения дважды («до» и «после») оценивали у себя уровень владения аргументацией. Получены данные по 10-балльной шкале.
№ |
1-е измерение адо |
2-е измерение апосле |
Разность апосле – адо |
│ апосле – адо│ |
Ранг абс. разности |
1 2 3 4 5 6 7 8 9 10 11 12 |
5 4 5 5 4 3 2 3 5 5 3 4 |
7 5 6 4 5 6 5 5 3 6 3 5 |
2 1 1 -1 1 3 3 2 -2 1 0 1 |
2 1 1 1 1 3 3 2 2 1 0 1 |
9 4,5 4,5 4,5 4,5 11,5 11,5 9 9 4,5 1 4,5 |
Сумма |
78 |
Tэмп = 4,5+9 = 13,5
n=12
T попадает в зону неопределенности, следовательно, H0 отвергается.
Алгоритм применения критерия тенденций L Пейджа для сопоставления трёх и более показателей испытуемых
- Проранжировать индивидуальные значения каждого испытуемого, полученные ими в 1-м, 2-м, 3-м и т.д. замерах.
- Просуммировать ранги по условиям, в которых осуществлялись замеры. Проверить совпадение общей суммы рангов с расчетной.
- Расположить все условия в порядке возрастания их ранговых сумм в таблицах.
- Определить эмпирическое значение Lэмп по формуле , где Tj – сумма рангов по данному условию; j – порядковый номер, приписанный в упорядоченной последовательности условий.
- По таблице приложения 4 определить критические значения Lкр для данного количества испытуемых n и данного количества условий c.
- Если , то тенденция принимается.
Пример 3. Установлено, что испытуемые по-разному относятся к наказаниям, которые совершают по отношению к их детям разные люди. Определить тенденцию согласия о допустимости телесных наказаний по результатам оценки степени согласия в психогенном эксперименте, в котором получены следующие результаты:
Испытуемые |
Условие 1: «Я сам наказываю» / ранг |
Условие 2: «Бабушка наказывает» / ранг |
Условие 3: «Учительница наказывает» / ранг |
1 2 3 4 5 6 7 8 9 10 11 12 |
4 / 1 5 / 1 1 / 2 3 / 1,5 4 / 2 6 / 1 5 / 1 6 / 1,5 3 / 1,5 2 / 2 7 / 1 5 / 1,5 |
2 / 2 4 / 2,5 1 / 2 3 / 1,5 5 / 1 5 / 2 3 / 2 6 / 1,5 3 / 1,5 2 / 2 5 / 2 5 / 1,5 |
1 / 3 4 / 2,5 1 / 2 2 / 3 1 / 3 3 / 3 4 / 3 4 / 3 1 / 3 2 / 2 4 / 3 3 / 3 |
Сумма рангов |
I 17 |
II 21,5 |
III 33,5 |
Решение. Проранжируем индивидуальные ранги каждого испытуемого по 3 условиям и запишем их в правые три колонки таблицы, а суммы рангов запишем в нижней строке. Проверим, что общая сумма рангов совпадает с расчетной
Определим эмпирическое значение критерия:
.
Найдем в приложении критическое значение Lкр для n=12 испытуемых, количества условий c=3 и уровня значимости Поскольку Lэмп=160,5<156=Lкр, то высказанная тенденция отклоняется.
Алгоритм применения критерия λ Колмогорова-Смирнова для сопоставления эмпирического и теоретического (другого эмпирического) распределений
- Записать в таблицу наименование разрядов и полученные эмпирические частоты в два столбца.
- Подсчитать эмпирические относительные частоты и занести их в 3 и 4-й столбцы.
- Подсчитать накопленные эмпирические относительные частоты: ,
Полученные суммы записать в 5-й и 6-й столбцы.
- Записать в 7-й столбец абсолютные величины разностей .
- Определить .
- Подсчитать значения критерия λ по формуле .
- По таблице приложения 5 определить, какому уровню статистической значимости p соответствует λэмп.
Если (=0,05) или (=0,01), то различия между распределениями существенны на соответствующем уровне значимости.
Пример 4. В проективной методике Х. Хекхаузена испытуемому последовательно предъявляются 6 картин. Всякий раз он сначала рассматривает картину в течение 20 секунд, а затем в течение 5 минут пишет по ней рассказ. При обследовании 113 студентов были получены эмпирические распределения словесных формулировок, отражающих мотивы «надежда на успех» и «боязнь неудачи», которые приведены в таблице.
- Программные средства ГИС
- Программные средства делового человека
- Программные средства защиты информации
- Программные средства медиапланирования
- Программные средства на базе Android
- Программные средства реализации деловой и коммерческой графики
- Программный комплекс PMWIN
- Программные вирусы, их классификация и средства борьбы с ними
- Программные документы организации "Народная воля" как исторический источник
- Программные закладки в бизнес-приложениях
- Программные комплексы для автоматизации туристического офиса
- Программные комплексы, используемые для анализа исходной геолого-промысловой информации
- Программные оболочки
- Программные платформы современных смартфонов