Информационные технологии документационного обеспечения управленческой деятельности
Информационные технологии документационного обеспечения управленческой деятельности.
1. Виды документальных информационных систем
Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.
Однако
создание фактографических информационных
систем требует предварительной структуризации
данных, например, на основе таблиц. Она
зачастую требует больших накладных расходов.
Вместе с тем накапливаются большие объемы
неструктурированной информации: в организационно-
Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.
Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.
Основной
задачей документальных информационных
систем является хранение и предоставление
пользователю документов, содержание
которых соответствуют его информационным
потребностям.
Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.
Поисковый характер документальных информационных систем (определил еще одно их название — информационно-поисковые системы (ИПС).
Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смыслового содержания документов пертинентность относится скорее к качественным понятиям.
В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:
» системы на основе индексирования;
» семантически-навигационные системы.
Семантика (от греч. semantikos — обозначающий) — значения единиц языка.
В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.
В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.
На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.
Соответствие найденных документов запросу пользователя называется релевантностью.
Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса .
Основными элементами ИПЯ являются алфавит, лексика и грамматика.
Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.
Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.
Грамматика ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.
Можно указать следующие требования, которым должен удовлетворять ИПЯ:
* располагать
лексико-грамматическими
* не содержать
полисемии, синонимии и
* отображать
только объективные
* быть удобным
для алгоритмического
Построение выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.
Выбор
слов определяется их смыслом, обусловленным
парадигматическими отношениями между
предметами и явлениями, которые они определяют.
Парадигматические отношения — это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Перечислим некоторые парадигматические отношения :
* «вид—род», например, «шкаф—мебель». В данном случае понятие «шкаф» является видовым по отношению к понятию «мебель». Родовое понятие всегда включает в себя видовое;
* «часть—целое», например «лезвие—нож»;
* «причина—следствие», например, «лампа—свет»;
* «функциональное сходство», например, «лопата—экскаватор».
Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.
Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу.
Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути.
Синонимия — это совпадение слов по значению и несовпадение по написанию.
Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.
Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.
Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ.
По способу организации понятий различают следующие ИПЯ:
* предкоординируемые (классификационные) ИПЯ;
* посткоординируемые (дескрипторные) ИПЯ.
Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка .
Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка — ключевых слов и дескрипторов.
Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.
Ключевые слова — это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.
К классификационным языкам относят :
- информационно-поисковый язык иерархического типа;
- информационно-поисковый язык фасетного типа;
- алфавитно-предметную классификацию.
Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска .
Полнота
информационного поиска R
определяется отношением числа найденных
релевантных документов A
к общему числу релевантных документов
С, имеющихся в системе:
R=A/C
Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя :
P=A/L
Наличие среди
отобранных на запрос
K = (L-A)/ L
2.
Классификационные
информационно-поисковые
языки
Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.
Классификация — это группировка объектов по признакам.
Первоначальные
подходы к классификации
Особенностью
систем перечислительной классификации
является возможность индексирования
документов любым количеством рубрик,
отражающих содержание документа. Для
осуществления поиска необходимых документов
по классификатору определяются коды
интересующих пользователя рубрик и далее
отбираются из хранилища те документы,
которые проиндексированы соответствующими
кодами. Отсутствие систематизированных
связей и отношений между предметными
рубриками является основным недостатком
перечислительной классификации.
При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов.
Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании
более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.
Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.
Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет — по семантическому принципу, отражающему специфику предметной области.
Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу .
Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.
3. Дескрипторные информационно-поисковые языки
В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.
Основными элементами ДИПЯ являются :
- словарь лексических единиц;
- правила применения
ИПЯ (грамматика), определяющие процедуру
перевода текстов документов и запросов
с естественного
языка на ИПЯ; - правила построения ИПЯ.
Словари лексических единиц делятся на две группы:
*основные лексические словари, составляющие лексику ИПЯ;
- морфологические
словари, обеспечивающие морфологический
анализ и нормализацию слов.
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.
Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание .
Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.
Наиболее важными парадигматическими отношениями ИПТ являются:
* соподчинение;
- род-вид;
- часть—целое;
- причина—следствие;
- функциональное сходство.
Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.
Словарная часть — алфавитный список дескрипторов с их словарными статьями.
Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.
Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
Отличием
информационно-поисковых
Главная
идея информационно-поисковых
Форма
представления тезауруса
реферат:
с: резюме;
в: свертывание информации;
н: реферат авторский:
реферат графический;
реферат информативный;
реферат «телеграфного стиля»;
реферат указательный;
реферирование;
а: аннотация
В качестве буквенных обозначений здесь выступают следующие:
с — термины-синонимы;
в — термины, подчиняющие заглавный термин;
н — термины, подчиненные заглавному;
а — термины, ассоциированные с заглавным термином.
Различают
базовые и рабочие тезаурусы.
Базовые тезаурусы включают основной
набор лексики предметной области. Рабочие
тезаурусы строятся на основе базовых
тезаурусов и дополняются в процессе индексирования
документов новыми терминами.
4. Системы индексирования
Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ
Рассмотрим классификацию систем индексирования.
1. По степени
автоматизации процесса
• ручного индексирования;
• автоматического индексирования;
• автоматизированного индексирования.
2. По степени контролируемости различают системы:
- без словаря;
- с жестким словарем;
- со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
- с последовательным просмотром текста (отбираются все полнозначные слова);
- с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
- со статистическими
процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
- без лексикографического контроля;
- с полным контролем;
• с промежуточным
контролем.
Лексикографический контроль предусматривает
:
- устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
- нормализацию
слов на основе морфологических нормативных
словарей.
5. По
характеру морфологического
- с использованием морфологических словарей;
- с использованием основных лексических словарей;
- с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.
Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.
Второй
подход к автоматическому
5. Полнотекстовые информационно-поисковые системы
Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.
Полнотекстовые ИС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:
- хранилище документов;
- глобальный словарь системы;
- инвертированный индекс документов;
* интерфейс ввода документов в систему;
* механизм индексирования;
*интерфейс запросов пользователя
* механизм поиска документов;
* механизм извлечения найденных документов.
Хранилище документов может
Глобальный словарь системы может быть статическим и динамическим.
Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.
Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

- Информационные технологии документационного обеспечения управленческой деятельности
- Информационные технологиии
- Информационные технологии и информационная система
- Информационные технологии и их применение в анализе
- Информационные технологии и их роль в обществе
- Информационные технологии и их роль в политическом управлении
- Информационные технологии и их роль в современном мире
- Информационные технологии в юридической деятельности
- Информационные технологии в юридической деятельности
- Информационные технологии в юридической деятельности
- Информационные технологии в юридической деятельности
- Информационные технологии в юридической деятельности
- Информационные технологии в юриспруденции
- Информационные технологии в юриспруденции