Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ КУЛЬТУРЫ И ИСКУССТВ

Кафедра информационных ресурсов 
 
 
 
 
 
 
 
 

                                                                     Диплом: 

«Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля» 
 
 
 
 
 
 
 
 
 

                  Выполнила:

                студентка 5 курса ФИДК (537 гр.)

                  Евстигнеева А. Г. 

                  Научный руководитель:

                  профессор

                     Яцевич  Н. А. 
                   
                   
                   

Допущен к защите________________________

зав. кафедрой инф. ресурсов. профессор

Нешитой В. В.

число_________месяц_________год_________ 
 
 
 
 

Минск 2010 

Содержание:

Приложение №1………………………………………………………………………………………. - 71 - 
Введение

 Лингвистическое обеспечение - это комплекс средств, используемых в библиотеке для формирования, обработки, хранения и поиска информации, а также средств и методов их создания, ведения, использования и контроля. Лингвистическое обеспечение (ЛО) требуется на всех направлениях деятельности библиотеки. Состав и структура лингвистического обеспечения зависят от того, в какой области библиотечной деятельности оно используется. Можно выделить несколько функций, возложенных на лингвистическое обеспечение и отсюда несколько видов ЛО:

  1. лингвистическое обеспечение подготовки баз данных (обработка, ввод информации, формирование баз данных);
  2. лингвистическое обеспечение подготовки информационных изданий;
  3. лингвистическое обеспечение процессов распределения потоков информации между ее потребителями.

 Лингвистическое обеспечение включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. информационно-поисковые языкои являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. информационно-поисковые языки по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность. [44, C. 13]

 В начале 50-х годов в США начали создаваться информационно-поисковые языки, получившие название дескрипторных (от англ. слова to describe - описывать). В основе дескрипторных информационно-поисковых языков лежит алфавитный перечень слов или словосочетаний.

 Одной из первых информационно-поисковой системой, в которой использовался такой информационно-поисковый язык, была система "Унитерм", разработанная в 1952 г. известным американским логиком и документалистом Мортимером Таубе. В этой системе реализован предложенный им принцип координатного индексирования. В системе "Унитерм" в качестве индексов, описывающих содержание документов и запросов и координируемых при поиске, использовались ключевые слова, выбранные из их текстов, названные унитермами. (Слово "унитерм" означает в переводе с английского "единичный термин"). Выбранные из текста унитермы располагались в алфавитном порядке в специальной картотеке. [1, С. 5]

 Сейчас прогресс шагнул далеко вперед и мы стоим на пороге информационного общества. И, казалось бы, повсеместная автоматизация - это новый вектор развития библиотек, который позволит создать максимально комфортные условия для работы читателей. Но на практике, изучив данную проблему более детально, я столкнулась с цифрами, которые составляют далеко не самую безоблачную статистическую картину. Автоматизация библиотечно-библиографических процессов идет в библиотеках АПК медленно: только 30% библиотек оснащены компьютерами; 2% библиотек имеют выход в Интернет и менее 0,5% библиотек имеют свои сайты в Интернете. На первом этапе автоматизации библиотеки создают свои электронные каталоги и в качестве ИПЯ используют УДК и/или ББК, язык ключевых слов и язык библиографического описания. 

Лингвистическое обеспечение в Центральной научной сельскохозяйственной библиотеке Российской Академии Наук, например, включает семь ИПЯ:

- схему комплексно-системного каталога (КСК),

-УДК,

-ББК,

  • язык библиографического описания,
  • Отраслевой Рубрикатор, разработанный на основе ГРНТИ,
  • Информационно-поисковый тезаурус,
  • язык ключевых слов.
 

И это действительно хорошая работа! Это результат труда многих людей на протяжении долгих лет.

Но ЦНСХБ - это самая крупная из библиотек АПК на территории бывшего СНГ. Другие же библиотеки не могут похвастаться подобными достижениями. С целью анализа данной проблемы и поиска выхода из нее и было проведено исследование, положенное в основу данной дипломной работы. 

Актуальность исследования. Обеспеченность информационными ресурсами является необходимым условием функционирования и раз вития агропромышленного комплекса (АПК) России. Научно-технические библиотеки (НТБ) занимают важное место в государственной системе научно-технической информации (ГСНТИ), которая призвана создавать и развивать информационные ресурсы и информационное обеспечение науки и производства. Современный период развития НТБ рассматривается как новый этан компьютеризации, связанный с переходом на сетевые информационные технологии, широкое использование электронных документов и БД. Научные сельскохозяйственные библиотеки (НСХБ), обеспечивающие информационное сопровождение деятельности ученых и специалистов АПК, активно формируют сего дня собственные электронные документные ресурсы, используют доступные по телекоммуникационным каналам машиночитаемые ресурсы других библиотек и информационных служб, разрабатывают и совершенствуют методы и средства информационного поиска. При этом они вынуждены использовать традиционные и автоматизированные информационно-поисковые системы (ИПС).

 Если под ИПС мы понимаем совокупность информационно поисковых массивов, их носителей, информационно-поискового языка, правил его использования, критериев выдачи, программных и технических средств, то традиционные ИПС представлены системой карточных каталогов и картотек, где информационно-поисковыми языками являются элементы библиографического описания (автор индивидуальный или коллективный, тин документа, язык документа и т.д.), классификации отраслей знания (УДК, ББК, десятичная классификация Дьюи и т.п.), схемы предметных рубрик и т.п. 

Информационно-поисковый язык (ИПЯ) - формализованный искусственный язык для индексирования документов, информационных запросов и описания фактов с целью но следующего их хранения и поиска. ИПЯ и дополняющие их методики систематизации документов, инструкций по ведению каталогов и т.п. составляют лингвистическое обеспечение традиционных ИПС. В автоматизированных ИПС используются специально разработанные ИПЯ (рубрикаторы, словари ключевых слов, тезаурусы и т.д.). Информационными массивами являются электронные каталоги и базы данных на машиночитаемых носителях; организация и использование информационных массивов определяются соответствующими стандартами и обеспечиваются программными и техническими средствами. Эффективность информационного поиска в автоматизированных ИПС в значительной степени зависит от ее лингвистического обеспечения: ИПЯ и средств их ведения и поддержки.

 От выбора лингвистического обеспечения зависит совместимость языковых средств данной ИПС с другими, а значит и возможности информационного поиска в них, поскольку совместимость лингвистического обеспечения - это возможность использования в ИПС поисковых образов документов на одном ИПЯ, а поисковых предписаний на другом, а также возможность автоматического или ручного перевода поискового образа документа с одного ИПЯ на другой. Создание единого информационного пространства АПК подразумевает возможность использования любых ИПС для получения нужной информации с любого, подключенного в единую информационную сеть терминала. Для того, чтобы поиск в этих информационных ресурсах был возможен, прост и оперативен, необходимо разработать в каждой НСХБ оптимальное лингвистическое обеспечение, позволяющее осуществлять переход из одной ИПС в другую легко и комфортно для пользователя. Теоретические разработки по лингвистическому обеспечению НСХБ отсутствуют.

По статистике 2002 г. только 30% научных СХБ находились на разных стадиях внедрения автоматизации в библиотечно-библиографические процессы. Наиболее передовые позиции в этом занимает Центральная научная сельскохозяйственная библиотека Россельхозакадемии (ЦНСХБ), которая является федеральным учреждением ГСНТИ в области АПК, крупнейшей научных СХБ РФ, осуществляющей функции отраслевого информационного центра, в т.ч. генерацию документографических БД, создание реферативной и обзорной информации, выпуск реферативных изданий. В ЦНСХБ автоматизированы основные библиотечно-библиографические процессы в рамках интегрированной автоматизированной библиотечно-информационной системы (АБИС), созданы электронные ресурсы по проблематике АПК федерального значения, в т.ч. крупнейшая в мире русскоязычная БД по АПК «АГРОС». ЦНСХБ является головным методическим центром для 688 научно-технических библиотек АПК, которые используют ее разработки и информационные продукты в своей практической деятельности. Как

методический центр ЦНСХБ проводит работы, направленные на формирование единого информационного пространства отрасли. Она имеет самую сложную из всех библиотек АПК структуру лингвистических средств и систему методических пособий по работе с ними. Лингвистическое обеспечение ИПС ЦНСХБ складывалось исторически, в условиях автоматизации назрела необходимость его оптимизации. К объектам оптимизации следует отнести состав используемых ИПЯ, их совместимость и гармонизацию в рамках ИПС, совершенствование самих ИПЯ и средств их ведения и поддержки. Разработка оптимальной структуры лингвистического обеспечения ИПС ЦНСХБ будет способствовать ее эффективному функционированию в рамках единого информационного пространства АПК РФ. Такая структура лингвистического обеспечения ИПС может служить моделью для других НСХБ. Все это обусловливает актуальность выбранной темы для исследования. 

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК. 

Разработка данного исследования ставит перед собой следующие задачи:

  1. Теоретическое изучение понятия «лингвистическое обеспечение» и его эволюции.
  2. Характеристика основных подходов к лингвистическому обеспечению АБИС.
  3. Изучение опыта внедрения лингвистического обеспечения в АБИС библиотек сельскохозяйственного профиля.
  4. Анализ состояния лингвистического обеспечения в Белорусской сельскохозяйственной библиотеке.
  5. Обоснование проблемы выбора лингвистического обеспечения.
 

Теоретическая и методологическая основа исследования

  Проблемы лингвистического обеспечения библиотек АПК ранее углубленно изучались только Л. Н. Пирумовой, на основе работ которой и строилось данное исследование. Отдельные вопросы разработки лингвистического обеспечения также рассматривались в контексте решения общих проблем развития ИПС, электронных каталогов по АПК. Эти вопросы затрагивались в работах М. А. Аветисова, Г. К. Быстровой, С. А. Дубинской, Л. М. Фрида. В работах В. Г. Позднякова подчеркивается роль лингвистического обеспечения в информационном обслуживании ученых и практиков АПК, а также необходимость сотрудничества библиотек АПК в решении ряда проблем.

  Однако эти работы носят общий характер, трактующий лингвистическое обеспечение как неотъемлемую часть ИПС, но не касаются детального рассмотрения методики построения, ведения, использования и назначения лингвистических средств. Разработка теоретических и методологических проблем лингвистического обеспечения началась в 60-х годах, когда пришло понимание того, что без информационно-поисковых языков вычислительные машины остаются только машинами, и начался вслед за этапом «механическим» новый «логико-лингвистический», по определению А.В. Соколова, этап в развитии ИПС.

 Вопросы лингвистического обеспечения поднимаются, с разной степенью детализации, во всех трудах, касающихся ИПС, поскольку лингвистическое обеспечение является ее неотъемлемой частью. Это подчеркивают в своих работах Ю. М. Арский, Г. Г. Белоногов, В. А. Глинский, Б. А. Кузнецов, А. И. Михайлов, В. А. Мишин, В. В. Морозов, В. В. Попов, Я. Л. Шрайберг и др.

 Ранние разработки в области ИПЯ касались лингвистического обеспечения больших электронно-вычислительных машин и отражены в работах М. Г. Гаазе-Рапопорта, Р. Г. Котова, Б. В. Якушина, Л. Н. Пирумовой. Работы последних лет относятся к ИПС, работающим в диалоговых режимах на персональных компьютерах. Теоретические разработки проблемы лингвистического обеспечения автоматизированных ИПС касались в 60-70-х годах только информационных центров, что объясняется отсутствием автоматизации в библиотеках и библиотечно-библиографических процессах. Работы А. Б. Антопольского, Г. Г. Артаманова, Б. Р. Певзнера, А. В. Соколова, А. И. Черного послужили основой для дальнейшего развития теории лингвистического обеспечения ИПС. С развитием автоматизации библиотечно-библиографических процессов появились работы, посвященные развитию ИПЯ библиотечных ИПС. Проблемы лингвистических

средств для библиотечных технологий рассматриваются в трудах Л.И. Беневоленской, Е. М. Зайцевой, О. А. Фуралева, М. В. Экстрем и др.

 В работах Н. И. Гендиной обобщены и развиты принципы лингвистического обеспечения, описанные в трудах отечественных исследователей, в приложении к библиотечным технологиям, рассматривается широкий спектр вопросов, относящихся к лингвистическому обеспечению, в т.ч. индексированию, информационному поиску и т.д. Ряд научных разработок посвящен отдельным аспектам лингвистического обеспечения. Вопросы классификационных ИПЯ исследовались такими учеными, как Л. Н. Пирумова, М. А. Довбенко, Е. Н. Пименов, Ю. А. Шрейдер и др. Развитию Библиотечно-библиографической классификации (ББК) посвящен ряд работ Э. Р. Сукиасяна. Проблемы ведения, разработки, актуализации Универсальной десятичной классификации (УДК) отражены в работах О. А. Антошковой, Н. Д. Борисовой, А. В. Владимировой, О. В. Караджи, Б. В. Кристального, Л. В. Лобовой, Б.И. Маршака, Т. В. Тужилковой и др.

  Рубрикатору ГСНТИ посвящены работы В. Н. Белоозерова, И. Е. Гендлиной, Б.В. Кристального, Н. В. Лукашевич, В. М. Полонского, Ю.Ф. Тарасюк, З.М. Храпкина и др. С развитием и совершенствованием автоматизированных баз данных все большее внимание уделяется дескрипторным языкам. Методика создания информационно-поискового тезауруса содержится в работах О.А. Лавреновой, А.В. Соколова. Выявлению и обоснованию оптимальных путей развития дескрипторных языков посвящены труды Л. Н. Пирумовой, Л. П. Алексеевой, Д. Н. Бакун, С. А. Белькова, П. И. Браславского, С. Л. Гольдштейн, С. В. Еринева, В. М. Лейчик, С. А. Мамонтова, В. М. Масляковой, Л. И. Оранской, Т. Я. Ткаченко и др.

 ИПЯ непосредственно связаны с аналитико-синтетической обработкой информации, поскольку именно на этом этапе осуществляется перевод информации с естественного на искусственные языки и создается поисковый образ документа. Исследованиями в области аналитико-синтетической обработки информации занимаются теоретики и практики библиотековедения и информационной деятельности: Ф. С. Воройский, А. Ф. Еареев, В. В. Корнеев и др. В работах последних лет поднимаются проблемы автоматизированного индексирования, о них пишут Л. В. Кнорина, Н. Н. Литвинова, П.В. Лукашевич. Важное место в разработке лингвистического обеспечения ИПС отводится проблеме совместимости информационно-поисковых языков. Особенно важной и актуальной проблема совместимости ИПЯ становится в наши дни с развитием сетевых технологий, глобальной сети Интернет. Большой интерес, в этой связи, представляют груды А. В. Бобко, Р. С.Еиляревского, Т. Б. Грищенко, А. Ю. Евсюкова, Л. А. Жариковой, А. С. Калиновского. К). В. Ланграф, Н. В. Рябовой, Г. А. Скарук и др.

 В отличие от информационных центров, где информация хранится преимущественно в электронной форме, в библиотеке информация часто существует на бумажных носителях и наряду с электронными формами обслуживания применяются традиционные формы. Поэтому особый интерес представляет перевод карточных каталогов в электронные (конверсия каталогов), и в связи с этим - концепции объединения традиционных и электронных каталогов в единую информационно-поисковую систему с единым лингвистическим обеспечением. Эти проблемы освещены в работах С. К. Вилснской, Н. А. Еалюк, М. Н.Захаровой, М. Н.Романовой, Е. М. Ручимской, О. А. Фуралева, И. Ю. Черкасовой и др.

  Проблемы лингвистического обеспечения постоянно обсуждаются на страницах библиотечной печати, ею занимаются видные теоретики библиотековедения и информатики, но эти разработки чаще носят теоретический характер и могут служить базой для дальнейших разработок прикладного характера. Практически отсутствуют работы о структуре лингвистического обеспечения НСХБ. Однако необходимость в этом назрела поскольку актуальной стала задача создания единой сетевой ИПС по вопросам АПК с единым или совместимым лингвистическим обеспечением. В этой ситуации с новых позиций следует рассматривать традиционные ИПЯ, которые используются в НСХБ и могут быть использованы в автоматизированной библиотечной ИПС. Поэтому необходимо глубокое и всестороннее исследование лингвистических средств НСХБ с целью разработки структуры ее лингвистического обеспечения, выработки рекомендаций по его совершенствованию. Недостаточная разработанность проблемы применительно к сельскохозяйственной ИПС явилась еще одним основанием для выбора темы исследования.

  Практическая значимость данного исследования – это усовершенствование модели лингвистического обеспечения в Белорусской сельскохозяйственной библиотеке, а также разработка путей внедрения средств лингвистического обеспечения в процессы поиска документов. 

Дипломная работа выполнена на базе Белорусской  сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. 

      1.1. Понятие, состав и требования к современному лингвистическому обеспечению.

 Создать условия, при которых читатель может получить доступ к информационно-поисковым системам библиотек различной удаленности и вести эффективный поиск в них, помогают лингвистическое обеспечение (ЛО) и его основная составляющая - информационно-поисковые языки (ИПС). Задача библиотек состоит не только в том, чтобы собрать в своих фондах возможно полно документы, но сделать их доступными для пользователя, дать информацию о них и раскрыть информацию, содержащуюся в них. Всему этому способствуют каталоги, базы данных, библиографические и реферативные издания. Информация в них должна быть систематизирована и представлена в таком виде, который позволяет осуществлять быстрый поиск в данных ИПС, БД, электронном каталоге.

Любая ИПК включает следующие элементы:

  1. информационный массив;
  2. ИПЯ, на которой переводится входная информация и запросы; правила этого перевода (индексирование);
  3. критерии выдачи, то есть правила сравнения перевода запроса на ИПЯ с результатами перевода на ИПЯ входной информации, определяющие отбор информации, подлежащей выдаче на запрос.
 

 Понятие ЛО шире понятия информационно-поискового языка, поскольку включает их в себя. Лингвистическое обеспечение автоматизированных систем включает ИПЯ, методики индексирования документов и запросов на них, инструкции и методики их ведения и использования, а также средства поддержания ИПЯ в автоматизированной системе.

 Средством свертывания информации и смысловой обработки документов является информационно-поисковый язык (ИПЯ) - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов. Искусственный язык, специально разработанный для автоматизированного поиска, лишен недостатков естественного языка (многозначность, избыточность) и лучше приспособлен для информационного иска, увеличивая полноту и точность выдачи информации. При создании ИПЯ учитываются требования, которые отвечают его задаче - полноте и точности поиска:

  • однозначность - каждая запись на ИПЯ должна иметь только один смысл, то есть искусственный ИПЯ должен устранять такие недостатки, с точки зрения поиска естественного языка, как полисемия и омонимия;
  • явное выражение полезных для поиска семантических (смысловых) отношений между словами (логических отношений и психологических ассоциаций) ИПЯ;
  • возможность корректировки и дополнения ИПЯ;

удобство пользования, ИПЯ должен обладать компактностью записей, способствующих его запоминанию;

- способность точно идентифицировать предмет, отличить его особенности и описать его с необходимой степенью детализации и глубины.

 Семантическое богатство ИПЯ зависит от его терминологической наполненности, структуры построения и от взаимоотношений лексических единиц, составляющих лексику, словарный состав ИПЯ, Лексическая единица (ЛЕ) информационно-поискового языка - это обозначение отдельного понятия, принятое в нем. Лексические единицы каждого ИПЯ называются по-разному: в классифицированных системах - это индексы, в языке предметных рубрик это - рубрики, в дескрипторных языках - дескрипторы, в языке

ключевых слов - ключевое слово. По тому, какие лексические единицы используются в ИПЯ, различают словарные и кодированные ИПЯ. В словарных ИПЯ (тезаурус) используются элементы естественного языка, и перевод на естественный язык не требуется. В кодированных ИПЯ (УДК, ББК) индексы или рубрики сопровождаются таблицей соответствия, то есть каждой лексической единице на искусственном языке дается словесное ее выражение на естественном языке. Основу лексики любого ИПЯ составляют термины, являющиеся носителями научной информации в текстах документов. Любой ИПЯ создается на основе терминологии определенной области знаний.

 Разработка ИПЯ проходит несколько этапов: отбор лексических единиц; процесс нормализации лексики; систематизация и группировка лексики; построение классификационных схем; оформление лексики ИПЯ.

 Этап отбора лексических единиц особенно важен в процессе создания информационно-поискового языка, поскольку от него зависят возможности данного ИПЯ: терминологическая наполненность, соответствие уровню развития науки, отражаемой в нем, а значит, и поисковые возможности данного ИПЯ. Отбор лексических единиц происходит в процессе аналитико-синтетической обработки документов на этапе аннотирования, систематизации индексирования.

 ИПЯ неразрывно связан с процессом аналитико-синтетической обработки информации, поскольку на этом этапе раскрывается тематическое содержание документа, происходят свертывание информации, представленной в нем, и ее перевод на формализованный язык, позволяющий внести информацию в ЭК, а затем вести в нем поиск. Прежде чем информация предстанет в виде элементов ИПЯ, она проходит семантическую, то есть смысловую обработку. Текст, представленный на естественном языке, анализируется с точки зрения его содержания. В ходе осмысления содержания текста документа человеком (семантической обработки) происходит отбор наиболее значимых, основных тем документа, а затем их перевод с естественного на искусственный язык. При этом точность и полнота перевода зависят от возможностей ИПЯ, От уровня разработки его лексического и терминологического аппарата, наличия правил этого перевода.

 Таким образом, именно ИПЯ является основным компонентом любой ИПС, без которой она превращается только в беспорядочный «сундук» информации. В традиционной ИПС использовались ИПЯ, разработанные для карточных каталогов; наибольшее распространение получили Универсальная десятичная классификация (УДК) и Библиотечно-библиографическая классификация (ББК). Однако использование их в автоматизированных системах пока не обеспечивает эффективного поиска. Вместе с тем существуют ИПЯ, специально разработанные для автоматизированных ИПС и для автоматизированного поиска: рубрикаторы, тезаурусы. При создании электронных каталогов, автоматизированных ИПС перед библиотеками встает задача выбора ЛО и ИПЯ, которые будут использоваться в них.

 Как правило, в одной информационно-поисковой системе используются несколько ИПЯ, поэтому встает вопрос об их совместимости. В условиях одной ИПС эта проблема решается, если все документы, входящие в ее документный поток, индексируются на всех ИПЯ, используемых в данной поисковой системе. Для достижения совместимости в одной ИПС следует обеспечить единую методику индексирования на всех ИПЯ этой системы, а также добиться унификации и стандартизации языковых средств и поддерживающих компонентов ЛО.

 Использование нескольких ИПЯ в одной ИПС объясняется тем, что каждый из языков предназначен для выполнения определенных функций в ней, а также осознанием того, что не может быть создан единый ИПЯ, выполняющий одновременно все функции лингвистических средств и все задачи, стоящие перед информационно-поисковой системой. Одновременное использование нескольких информационно-поисковых языков обеспечивает быстрый и разнообразный доступ потребителя к информационным ресурсам

Лингвистическое обеспечение автоматизированных систем библиотек сельскохозяйственного профиля