Информационные технологии документационного обеспечения управленческой деятельности

Информационные  технологии документационного  обеспечения управленческой деятельности.

1. Виды документальных информационных систем

  Первоначальным  направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.

  Однако  создание фактографических информационных систем требует предварительной структуризации данных, например, на основе таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано.

 Теоретические исследования вопросов автоматизации  обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.

 Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.

 Основной  задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям. 

  Документальная  информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.

  Поисковый характер документальных информационных систем (определил еще одно их название — информационно-поисковые системы (ИПС).

  Соответствие  найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смыслового содержания документов пертинентность относится скорее к качественным понятиям.

  В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:

» системы на основе индексирования;

» семантически-навигационные  системы.

 Семантика (от греч. semantikos — обозначающий) — значения единиц языка.

 В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

 В системах на основе индексирования исходные документы  помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

 На  основе определенных критериев ДИС  осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

 Соответствие  найденных документов запросу пользователя называется релевантностью.

 Информационно-поисковый  язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса .

  Основными элементами ИПЯ являются алфавит, лексика  и грамматика.

 Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.

 Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.

 Грамматика  ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.

 Можно указать следующие требования, которым  должен удовлетворять ИПЯ:

    * располагать  лексико-грамматическими средствами  для точного отображения темы документа и запроса;

* не содержать  полисемии, синонимии и омонимии;

    * отображать  только объективные характеристики  предметов и отношений между ними;

* быть удобным  для алгоритмического сопоставления  ПОД и ПОЗ.

  Построение  выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

 Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют. 

Парадигматические отношения — это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Перечислим некоторые парадигматические отношения :

    * «вид—род»,  например, «шкаф—мебель». В данном  случае понятие «шкаф» является видовым по отношению к понятию «мебель». Родовое понятие всегда включает в себя видовое;

* «часть—целое»,  например «лезвие—нож»;

* «причина—следствие»,  например, «лампа—свет»;

* «функциональное  сходство», например, «лопата—экскаватор».

 Естественный  язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.

 Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу.

 Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути.

 Синонимия — это совпадение слов по значению и несовпадение по написанию.

 Вторая  проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

 Синтагматические  отношения отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

 Многообразие  используемых в ИПЯ парадигматических  и синтагматических отношений определяет семантическую силу ИПЯ.

По способу  организации понятий различают  следующие ИПЯ:

* предкоординируемые (классификационные) ИПЯ;

* посткоординируемые (дескрипторные) ИПЯ.

 Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка .

  Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка — ключевых слов и дескрипторов.

 Координатное  индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.

 Ключевые  словаэто наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.

К классификационным  языкам относят :

  • информационно-поисковый язык иерархического типа;
  • информационно-поисковый язык фасетного типа;
  • алфавитно-предметную классификацию.

 Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска .

  Полнота информационного поиска R определяется отношением числа найденных релевантных документов A к общему числу релевантных документов С, имеющихся в системе: 

  R=A/C 

 Точность  информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя :

 P=A/L 

 Наличие среди  отобранных на запрос пользователя  нерелевантных документов называется  информационным шумом  системы.  Коэффициент информационного шума  К определяется отношением нерелевантных  документов (L-A), выданных в ответе пользователю, к общему числу документов L, выданных на запрос пользователя : 

K = (L-A)/ L 
 

2. Классификационные  информационно-поисковые  языки 

 Информационно-поисковые  каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.

Классификация — это группировка объектов по признакам.

 Первоначальные  подходы к классификации тематики документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

 Особенностью  систем перечислительной классификации  является возможность индексирования документов любым количеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации. 

  При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов.

  Содержание  документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании

более общих рубрик, к которым относятся  выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

 Перечислительный  и иерархический подходы к  классификации используются в алфавитно-предметных каталогах библиотек. Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

 Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет — по семантическому принципу, отражающему специфику предметной области.

 Фасеты  выступают в роли элементов, из которых  можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу .

 Основное  достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

3. Дескрипторные информационно-поисковые языки

 В основе построения дескрипторных ИПЯ лежит  принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются :

  • словарь лексических единиц;
  • правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного 
    языка на ИПЯ;
  • правила построения ИПЯ.
 

Словари лексических  единиц делятся на две группы:

    *основные лексические словари, составляющие лексику ИПЯ;

  • морфологические словари, обеспечивающие морфологический 
    анализ и нормализацию слов.

 В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

 Дескриптор  — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание .

 Разработка  дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

  Тезаурус  (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

 Наиболее  важными парадигматическими отношениями  ИПТ являются:

* соподчинение;

  • род-вид;
  • часть—целое;
  • причина—следствие;
  • функциональное сходство.
 

  Обобщенная  структура ИПТ включает как минимум  три составляющих: словарную часть, семантическую карту, руководство по использованию.

 Словарная часть — алфавитный список дескрипторов с их словарными статьями.

 Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

 Руководство по использованию ИПТ содержит правила  перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

 Отличием  информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

 Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности  индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТ ПОД представлен набором дескрипторов. Однако в процессе индексирования документов учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа ПОД и повышает эффективность поиска документов.

 Форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:

реферат:

с: резюме;

     в: свертывание информации;

     н: реферат авторский:

      реферат графический;

      реферат информативный;

      реферат «телеграфного стиля»;

      реферат указательный;

    реферирование;

     а: аннотация

В качестве буквенных  обозначений здесь выступают  следующие:

    с — термины-синонимы;

    в — термины, подчиняющие заглавный термин;

    н — термины, подчиненные заглавному;

    а — термины, ассоциированные с заглавным термином.

 Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами. 

4. Системы индексирования

  Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ

Рассмотрим классификацию  систем индексирования.

    1. По степени  автоматизации процесса индексирования  выделяют системы:

    • ручного индексирования;

    • автоматического индексирования;

    • автоматизированного индексирования.

2. По степени контролируемости различают системы:

  • без словаря;
  • с жестким словарем;
  • со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

  • с последовательным просмотром текста (отбираются все полнозначные слова);
  • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
  • со статистическими процедурами выбора слов (отбираются 
    только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

  • без лексикографического контроля;
  • с полным контролем;

  • с промежуточным контролем. 
Лексикографический контроль предусматривает :

  • устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
  • нормализацию слов на основе морфологических нормативных 
    словарей.

5.    По  характеру морфологического анализа  слов различают системы:

  • с использованием морфологических словарей;
  • с использованием основных лексических словарей;
  • с использованием морфологического анализа с усечением слов.

Возможны системы  индексирования без морфологического анализа.

 Процесс свободного индексирования состоит  в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

 Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком  индексировании слова берутся только из текста.

  Поначалу  индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

  Существуют  два подхода к автоматическому  индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.

  Прямой  тип индекса строится по схеме  «документ—термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

  Инвертированный тип индекса строится по обратной схеме — «термин—документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

 

Второй  подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

5. Полнотекстовые информационно-поисковые системы

  Процессы  компьютеризации деятельности предприятий  привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.

  Информационно-поисковые  каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.

   Полнотекстовые ИС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

  • хранилище документов;
  • глобальный словарь системы;
  • инвертированный индекс документов;

* интерфейс ввода  документов в систему;

* механизм индексирования;

*интерфейс запросов  пользователя

* механизм поиска  документов;

* механизм извлечения найденных документов.

     Хранилище документов может быть  организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.

 Глобальный  словарь системы может быть статическим  и динамическим.

 Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

 Динамические  словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

 Элементы  глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.