Квантитативная лингвистика
Квантитативная лингвистика
Содержание:
Введение
- Проблематика квантитативной лингвистики с теоретической и
прикладной точек зрения …………….…. 4 - Некоторые языковые лингвистические
законы ………………………………………………….….. 5
1.2. Стилистика ………………………………………….....7
2. Основные области приложения
структурно-вероятностной
2.1. Авторизация атрибуция текста ……………........... 10
2.2. Авторизация текста: пример экспертизы ………. 11
Заключение
Список использованной литературы
Введение
Квантитати́вная
лингви́стика (англ. quantitati
Самые ранние
концепции КЛ относятся к древнегреческой
и древнеиндийской культурам. Один
из исторических источников включает
приложения комбинаторики к лингвистическим
реалиям, другой основывается на элементарных
статистических исследованиях, которые
можно найти под заголовками колометрия и стихо
В КЛ под
законом понимается класс гипотез,
выведенных из теоретических допущений,
математически
- Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
Название «квантитативная
Применение количественных методов
при описании функционирования языка
мало чем отличается от использования
аналогичного инструментария в естественных
и гуманитарных науках. Привлечение
методов измерения и подсчета
языковых реализаций позволяет, однако,
существенно модифицировать представление
о языковой системе и возможностях
ее функционирования. В этом отношении
квантитативная лингвистика оказывается
важнейшим фактором, влияющим на лингвистическую
теорию. Например, в сфере грамматики
теоретическая лингвистика, как
правило, ограничивается констатацией
существования в русском языке
системы падежей. Со структурной
точки зрения этого, быть может, и
достаточно. Между тем за рамками
обсуждения остается весьма существенная
информация о том, как часто используются
различные падежи, какова динамка
использования различных
Другой пример. С системной точки
зрения в русском, английском и латинском
языках имеется форма именительного
падежа единственного числа личных
местоимений. Однако в английском языке
при глаголе эта форма
Близкие проблемы возникают и в
сфере лексики. Обычные толковые
словари не помещают в составе
словарной статьи информации о частоте
использования той или иной лексемы.
Это связано с очень большим
объемом работы, который надо проделать,
чтобы для каждого слова
С теоретической точки зрения использование
статистических методов в языкознании
позволяет дополнить
Из приведенного примера видно,
что задача построения структурно вероятностной
модели функционирования языка относится
к теоретическим проблемам
- Некоторые лингвистические законы
Существует целый ряд языковых законов, среди которых:
- Закон диверсификации: Если лингвистические категории (такие, например, как части речи или грамматические окончания) появляются в различных формах, то можно сказать, что частоты их появления в текстах контролируются определенными законами.
- Распределение длин (или, в более общем виде, многокомпонентности). Исследование частот различных языковых единиц с точки зрения их длин в текстах и словарях регулярно приводит к выявлению целого ряда распределений, в зависимости от изучаемой единицы. На данный момент были изучены следующие единицы:
- Закон распределения длин морфов;
- Закон распределения длин ритмических единиц;
- Закон распределения длин предложений;
- Закон распределения длин слогов;
- Закон распределения длин слов;
Другие языковые единицы, которые также подчиняются этому закону, — это, например, буквы (символы) различной сложности, длины так называемых hrebs и речевых актов. Это же справедливо и для распределений звуков (фонов) различной длительности (долготы).
- Закон Мартина: Этот закон касается лексических цепочек, которые образуются при поиске дефиниций (определений) слов в словаре, затем дефиниций только что найденных дефиниций и т. д. В конце концов все эти дефиниции образуют иерархию всё более и более общих значений, при этом дефиниций становится тем меньше, чем более общее значение получается. Среди уровней данной иерархии существует целый ряд подчиняющихся закону отношений.
- Закон Менцерата (также, в особенности в лингвистике, известный как закон Менцерата-Альтмана): Данный закон гласит, что размеры составляющих конструкции уменьшаются с увеличением самой изучаемой конструкции. Чем длиннее, например, предложение (измеренное количеством входящих в его состав придаточных предложений), тем короче входящие в его состав придаточные предложения (измеренные количеством слов), или: чем длиннее слово (в слогах или морфах), тем короче слоги или слова в звуках.
- Законы частотно-рангового распределения: Практически любая языковая единица подчиняется этим закономерностям. Приведем лишь несколько примеров:
- Слова в тексте организованы в соответствии с частотой их появления в тексте, и каждому из них присвоен номер ранга и соответствующая частота. Со времен Джорджа Кингсли Ципфа (широкоизвестный закон Ципфа), предлагалось большое количество математических моделей, описывающих отношения между рангом и частотой.
- Можно наблюдать похожее распределение между рангом и частотой звуков, фонем и букв.
- Словесные ассоциации: Ранг и частота ассоциаций реагируют на (словесный) стимул.
- Закон изменения языка: Процессы роста в языке (как, например, рост словаря), распространение иностранных и заимствованных слов, изменения в флективной системе и т. д. подчиняются закону, известному в КЛ как закон Пиотровского, и соответствуют моделям роста в других научных дисциплинах. Закон Пиотровского — это частный случай так называемой логистической модели (ср. с логистическим уравнением). Было показано, что он затрагивает и процессы усвоение языка (ср. закон усвоения языка).
- Закон текстового блока: Лингвистические единицы (напр., слова, буквы, синтаксические функции и конструкции) демонстрируют определенное распределение частоты в одинаково больших блоках текстов.
Закон Ципфа: Частота слова обратно пропорциональна их рангу в списках частотности.
- Стилистика
Изучение поэтического и непоэтического стилей может основываться на статистических методах; более того, возможно проводить соответствующие исследования на основе особых форм (параметров), которые языковые законы принимают в текстах различных стилей. В таких случаях КЛ проводит исследование в стилистике: одна из итоговых целей — доказать настолько объективно, насколько это возможно, по крайней мере в одной области действий существование стилистического феномена, ссылаясь на действие языкового закона. Одно из главных предположений КЛ состоит в том, что некоторые законы (например, закон распределения длин слов) требуют различных моделей, по крайне мере различных значений параметров закона (распределений или функций), в зависимости от типа текста, к которому принадлежит этот текст. Если изучаются поэтические тексты, то методы КЛ образуют поддисциплину, которая называется «Квантитативное изучение литературы»
Основные области приложения структурно-вероятностной модел
и языка
Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контентанализа, используемая для выявления структуры и состояния общественного сознания. При помощи контентанализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д..
Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций. Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Дешифровка кодированного
2.1Авторизация атрибуция текста.
Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В. В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит:
а) субъективно-коммерческие;
б) субъективно-конъюнктурные;
в) субъективно-эстетические;
г) субъективно-психологические;
д) субъективно-идеологические факторы.
Есть и объективные факторы:
а) документально-рукописные (археологические);
б) исторические (биографии, свидетельства современников);
в) историко-идеологические и сопоставительно-
г) историко-стилистические;
д) художественно-стилистические;
е) лингвостилистические. Однако чисто
филологическое направление авторизации
не позволяет построить
2.2Перспектива объективизации
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996].
2.2Авторизация текста: пример экспертизы
Одна из наиболее распространенных
областей использования знаний о
статистических закономерностях языковых
явлений — экспертиза авторства
текста. Типологически можно
A. Множественная
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются
образцы текстов авторов X,Y,Z.
Приводимая ниже экспертиза12) вписывается в рамки случая В. Речь шла о спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».
Тексты были представлены в печатной и машиночитаемой форме (файлы в формате DOS TEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и фафических вьщелений в файлах. При компьютерной обработке символы разметки не учитывались.
Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» — В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.
В процессе проведения экспертизы необходимо было подготовить ответ на следующие вопросы:
- Есть ли специфические языковые особенности, отличающие произведения В. Непомнящего «Шакалы», «Трудное решение» от произведений Э. Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец», а также от спорной группы произведений — «Следователь президента», «Смоленская площадь»?
- Есть ли специфические языковые особенности, характерные одновременно для произведений Э.Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» и спорной группы произведений «Следователь президента», «Смоленская площадь», но не присущие произведениям В. Непомнящего «Шакалы» и «Трудное решение»?
- Можно ли считать, что выявленные языковые особенности являются существенной чертой авторских стилей названных писателей и могут использоваться при установлении авторства художественного текста?
В исследовании по экспертизе использовалась методика количественного анализа квазисинонимичных лексем. Сущность методики заключается в выявлении авторских предпочтений в выборе из группы квазисинонимов — близких по значению слов или устойчивых словосочетаний (фразеологизмов). В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов. Так, частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия»: разве значительно чаще встречается в «Мастере и Маргарите», а неужели — наоборот. Значение частицы разве предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В противоположность разве частица неужели скорее указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, удивляется, почему оно имеет место. Учитывая значение этих частиц, указанные факты распределения разве и неужели можно интерпретировать как лингвистический коррелят авторской позиции в изображении событий и действий героев: нечто вроде пассивного «изумления», «удивления» автора в «Белой гвардии» и при активном восприятии реальности в «Мастере и Маргарите».
Такие «всплески» распределения частот
служебных и модальных слов характеризуют
не только отдельные тексты художественной
прозы, но и оказываются
В художественных текстах Достоевского мы встречаемся с совершенно иной ситуацией: на одно употребление по меньшей мере приходится 342,5 употреблений по крайней мере (по крайней мере — 685 вхождений по 35 художественным текстам, по меньшей мере — 2 вхождения по 35 художественным текстам). Всего употреблений по меньшей мере три, но одно из них приходится на контекст, более подходящий для по крайней мере
В противоположность по меньшей мере, по крайней мере с несомненностью относится к словам Достоевского. Конкордансы на это словосочетание занимают более двухсот страниц текста.
Можно было бы подумать, что в русском языке времен Достоевского распределение между по крайней мере и по меньшей мере было именно таким: частота по крайней мере существенно превосходила частоту по меньшей мере. Однако это не так. Предварительный анализ корпуса текстов Гоголя (около трех мегабайт) показывает, что различие в частотности этих единиц не так велико, как у Достоевского: на 1 употребление по меньшей мере — 83 употребления по крайней мере. Весьма вероятно, что в сфере публицистики того времени различие в частоте употребления по меньшей мере и по крайней мере было еще меньшим и приближалось к современной норме. Здесь тоже можно видеть коррелят авторского видения мира, авторского стиля.
По полученным файлам произведений Э. Плющихина, В. Непомнящего и спорных произведений (для каждого текста в отдельности и потрем группам — «спорная группа», «группа произведений Плющихина», «группа произведений Непомнящего») были составлены словники с указанием абсолютной и относительной частоты употребления (общее количество словоупотреблений по произведениям и по группам см. в приложении к экспертизе). Для компьютерной обработки использовалась программа DIALEX и база данных ACCESS 7 в среде Windows.
Из сферы анализа были исключены
слова с предметным значением, частота
употребления которых определяется
конкретной проблемной областью. Были
проанализированы группы квазисинонимов
для следующих слоев
- наречия,
- частицы,
- вводные слова и выражения,
- фразеологические выражения (идиомы),
- глаголы речи,
- союзы и союзные слова.
Рассмотрим последовательно
Таблица 1
Спорные произведения |
Произведения Плющихина |
Произведения Непомнящего | ||||
Абсолют. частота |
Относит. частота |
Абсолют. частота |
Относит. частота |
Абсолют. частота |
Относит. частота | |
Едва Немного |
6+716)=13 2+1=3 |
0,007 % 0,002 % |
12+3+12=27 1+2+2=5 |
0,006% 0,002 % |
11+18=29 25+25=50 |
0,018% 0,031 % |

- Квантование и кодтрование аналогвых сигналов
- Квантовая астрономия
- Квантовая криптография
- Квантовая криптография
- Квантовая механика
- Квантовая механика
- Квантовая механика
- Квалифицированные инвесторы
- Квалифицированные и особо квалифицированные признаки умышленного причинения тяжкого вреда здоровью
- Квалифицирующие признаки заражения ВИЧ-инфекцией
- Квалифицирующие признаки мошенничества
- Кваліфікаційні комісії нотаріату. Посвідчення довіреностей
- Кваліфікація дорожньо-транспортних пригод
- Кваліфікація злочинів Класифікація об єктів злочинів