Состав и методы КТ в научных исследованиях
Введение
В любой области деятельности человека технология - это совокупность знаний о способах и средствах проведения производственных процессов, под которыми следует обобщенно понимать выполняемую работу.
В производственных процессах важнейшим ресурсом является инфор-мация, как один из основных факторов повышения их эффективности. В этой связи под термином информационная технология понимают современные виды информационного обслуживания, основанные на использовании средств вычислительной техники (СВТ), связи, множительных средств и орг-техники.
Компьютерные технологии (КТ) являются частью информационных и обеспечивают сбор, обработку, хранение и передачу информации с помощью ЭВМ.
Основу современных КТ составляют 3 технологических достижения: возможность хранения информации на машинных носителях, развитие средств связи и автоматизация обработки информации с помощью компью-тера.
Практически КТ реализуются применением программно-технических комплексов (ПТК), состоящих из персональных компьютеров (ПК) или рабо-чих станций (РС) с необходимым набором периферийных устройств, вклю-ченных в локальные и глобальные вычислительные сети и обеспеченных не-обходимыми программными средствами (ПС). Использование названных элементов увеличивает степень автоматизации как научных исследований, так и учебных процессов, что служит основой их совершенствования.
КТ повышают уровень эффективности работ в науке и образовании за счет следующих факторов:
1. Упрощение и ускорение процессов обработки, передачи, представле-ния и хранения информации.
2. Увеличение объема полезной информации с накопителем типовых решений и обобщением опыта научных разработок.
3. Обеспечение глубины, точности и качества решаемых задач. Воз-можность реализации задач ранее не решаемых. Постановка исследований и получение результатов, недостижимых другими средствами.
4. Возможность анализа большого числа вариантов синтеза объектов и принятия решений.
5. Сокращение сроков разработки, трудоемкости и стоимости НИР при улучшении условий работы специалистов.
КТ в настоящее время используется практически во всех сферах дея-тельности человека. Задача нашего курса - обобщить знания по КТ примени-тельно к научным исследованиям и образованию.
Обычно, прежде чем говорить о применении КТ в какой-либо деятель-ности, проводят тщательный анализ этой сферы для определения целесооб-разных направлений ее рационального использования.
Известно, что наука - это сфера деятельности, направленная на получе-ние новых знаний, которая реализуется с помощью научных исследований (НИ).
Целью НИ является изучение определенных свойств объекта (процесса, явления) и на этой основе разработка теории или получение необходимых для практики обобщенных выводов.
По целевому назначению НИ делят на фундаментальные, прикладные и разработки.
Фундаментальные (ФНИ) связаны с изучением новых явлений и законов природы, с созданием новых принципов исследований (физика, математика, биология, химия и т.д.).
Прикладные исследования (ПНИ) - это нахождение способов использо-вания законов природы и научных знаний, полученных в ФНИ, в практиче-ской деятельности человека.
Разработки - это процесс создания новой техники, систем, материалов и технологий, включающий подготовку документов для внедрения в практику результатов ПНИ.
Реализация целей НИ выполняется на основе методов. Метод - это спо-соб достижения цели, программа построения и применения теории.
Методы научных исследований делят на следующие группы: эмпириче-ские, экспериментальные и теоретические. Особую группу составляют мето-ды научно - технического творчества (НТТ).
Эмпирические исследования выполняются с целью накопления система-тической информации о процессе. При этом используются методы: наблюде-ние, регистрация, измерение, анкетный опрос, тесты, экспертный анализ.
Экспериментальный уровень НИ - это изучение свойств объекта по оп-ределенной программе.
Теоретические исследования проводятся с целью разработки новых ме-тодов решения научно-технических задач, обобщения и объяснения эмпири-ческих и экспериментальных данных, выявления общих закономерностей и их формализации.
На двух последних уровнях используются методы моделирования, мето-ды анализа и синтеза, логические построения (предположения, умозаключе-ния), аналогии, идеализации.
В НТТ используются как названные общенаучные методы, так и эври-стические приемы эффективного решения творческих задач, способствую-щие наиболее быстрому нахождению решения (озарению), т.е. разного рода оригинальные находки.
Рациональная организация НИР строится с использованием принципов системного подхода и схематично может быть представлена следующим об-разом:
|
Экспериментальные исследования | |||||||||||||
|
Теоретические исследования |
|||||||||||||
|
Моделирование |
|||||||||||||
|
Обработка результатов исследования |
|||||||||||||
Исходя из задач НИ и порядка их реализации, можно определить сле-дующие основные направления рационального применения КТ в научных ис-следованиях:
1. Сбор, хранение, поиск и выдача научно-технической информации (НТИ).
2. Подготовка программ НИ, подбор оборудования и эксперименталь-ных устройств.
3. Математические расчеты.
4. Решение интеллектуально - логических задач. 5. Моделирование объектов и процессов.
6. Управление экспериментальными установками.
7. Регистрация и ввод в ЭВМ экспериментальных данных.
8. Обработка одномерных и многомерных (изображения) сигналов. 9. Обобщение и оценка результатов НИ.
10. Оформление и представление итогов НИ.
11. Управление научно-исследовательскими работами (НИР).
Наиболее эффективно, когда эти задачи реализуются в рамках автомати-зированных систем научных исследований (АСНИ).
КТ НА ЭТАПЕ СБОРА И ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ
2.1. ВИДЫ НТИ И ЕЕ ОБРАБОТКА
При системном подходе НИ начинаются со сбора и предварительной об-работки НТИ по теме исследования. Эта информация может включать сведе-ния о достижениях в исследуемой области, об оригинальных идеях, об от-крытых эффектах, научных разработках, технических решениях и т.д.
Целью данного этапа является получение ответов на следующие вопро-сы:
1. Какие авторы или научные группы занимаются аналогичной темой? 2. Каковы известные решения по исследуемой теме?
3. Какими известными методами и средствами решаются исследуемые проблемы?
4. Каковы недостатки известных решений и какими путями их пытают-ся преодолеть?
Углубленное изучение информации по предмету исследования позволя-ет исключить риск ненужных затрат времени на уже решенную проблему, детально изучить весь круг вопросов по исследуемой теме и найти научно -техническое решение, отвечающее высокому уровню.
Основным источником информации являются научные документы, ко-торые по способу представления могут быть текстовыми, графическими, ау-диовизуальными и машиночитаемыми.
Научные документы подразделяются на первичные и вторичные, опуб-ликованные и неопубликованные.
Первичные документы - это книги, брошюры, периодические издания (журналы, труды), научно-технические документы (стандарты, методические указания). Важное значение здесь имеет также патентная документация, под которой подразумеваются издания, содержащие сведения об открытиях, изо-бретениях и т.п.
К неопубликованным первичным документам относятся: научные отче-ты, диссертации, депонированные рукописи и т.п. Они содержатся в фонде ВНТИЦентра.
Вторичные документы содержат краткую обобщенную информацию из одного или нескольких первичных документов: справочники, реферативные издания, библиографические указатели и т.п.
Сбор и обработка НТИ может быть выполнена следующими способами: анкетирование, собеседование, экспертный опрос и т.д., но основой является работа с научно-техническими документами, которая включает поиск, озна-комление, проработку документов и систематизацию информации.
Поиск выполняется по каталогам, реферативным и библиографическим изданиям. Автоматизация этой процедуры обеспечивается использованием специализированных информационно-поисковых систем (ИПС) библиотек и научно-исследовательских институтов (НИИ), электронных каталогов, поис-ком в машиночитаемых базах данных (БД), а также с помощью программ по-иска в сетях Internet.
Необходимо иметь в виду, что ИПС делятся на:
документальные, позволяющие работать с полными текстами или адре-сами документов;
фактографические, которые выдают необходимые сведения из имею-щихся документов;
информационно-логические (интеллектуальные) представляют инфор-мацию, полученную в результате логического поиска и целенаправленного выбора в автоматизированном режиме.
Информационно-логические системы используют элементы экспертных систем, о которых говорится ниже.
При наличии в БД полных текстов документов названные средства и по-зволяют реализовывать процедуру ознакомления. Часто для этого вполне достаточны рефераты или аннотации документов.
В проработке и автоматизации НТИ преобладают операции: формирование выписок - создание картотеки, что можно реализовать,
например, с использованием WS-приложения Cardfile;
извлечение фрагментов документов с помощью средств текстовых ре-дакторов;
создание гипертекстовых документов (структурированных). Здесь могут быть использованы интегрированные системы Works, Framework, M/Office, а также средства языков разметки гипертекста.
создание локальных (по проблеме) БД и баз знаний (БЗ).
БД - это совокупность взаимосвязанных, хранящихся вместе данных, для поиска, изменения и добавления которых используются общие управляющие ПС, называемые системами управления базами данных (СУБД). Кроме на-званного, СУБД обеспечивают сортировку, фильтрацию данных и формиро-вание выходных документов (отчеты).
Наиболее распространенными СУБД являются Paradox, dBASE, Fox-Base, FoxPro, Clipper, Informix, Oracle, Access и др. Для небольших БД могут быть использованы электронные таблицы (ЭТ).
Трудоемкость организации табличных БД можно существенно умень-шить с использованием систем оптического распознавания (например, Fine-Reader), обеспечивающих обработку сканированных документов и их экс-порт в БД.
Из средств КТ, в рамках этой темы, рассмотрим основы работы в Inter-net, работу с FineReader и СУБД Ассess.
2.2. ОСНОВНЫЕ СВЕДЕНИЯ ПО INTERNET
Internet - это всемирная корпоративно управляемая совокупность ком-пьютерных сетей, обменивающихся информацией (~40 тыс. сетей, более 50 млн. пользователей), и связанных телефонными, оптоволоконными и др. ка-белями, а также радиоканалами, в том числе спутниковыми.
Очень упрощенно структуру Internet можно представить следующей схемой:
Узлы
сети
ХК Р ПР
Шлюз ЛВС в Internet
(клиенты) Канал Internet связи
Сеть организации
Здесь:
ХК - хост-компьютер (сервер) - мощная ЭВМ, обеспечивающая выпол-нение запросов клиентов;
Р - роутер (маршрутизатор) – ЭВМ, управляющая адресацией информа-ции;
ПР - провайдер - сервисная фирма, обеспечивающая доступ в Internet (обычно платный) и имеющая мощный компьютер или комплекс.
Работа в Internet может выполняться в нескольких режимах, поддержи-ваемых соответствующими протоколами обмена данных. Это следующие ре-жимы:
1. Терминальный режим - программы клиентов выполняются на узло-вом сервере сети. Протокол ТСР/IP.
2. Интерактивный (dial - upIP). SLIP/PPP.
3. Пакетный. Протокол UUPC.
Наиболее часто используется протокол TCP/IP,
где TCP - обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа;
IP - обеспечивает доставку информации конкретному адресату, т.е. каж-дый ХК в сети имеет свой уникальный IP - адрес в виде цифровой последо-вательности - ХХХ.ХХХ.ХХХ.ХХХ.
Пользователь сети (организация
ХХХХХХ.ХХХ@ХХХХХ.ХХХ
Internet предоставляет следующие возможности:
1. Поиск и просмотр информационных документов (WWW, Archi, Co-pher).
2. Доступ к БД (WAIS).
3. Связь и работу с другими ПК (Telnet).
4. Группы новостей, электронные бюллетени и т.д.
5. Средства, в которых пользователи могут направлять свои сообщения и знакомиться с имеющимися.
6. Электронная почта (Internet Mail).
7. Почтовые списки - средства рассылки информации п.4 по ЭП
8. Разговор текстом на экране в реальном времени (программа IRC -Internet Relay Chat).
9. Передача файлов, в том числе программных (система FTP).
В основном возможности Internet реализуются при наличии ОС: WS 95,98, WS - NT, UNIX, Linux, Solaris.
Большинство информационных ресурсов находятся на серверах узлов Internet, имеющих универсальные URL -адреса, которые в зависимости от системы размещения начинаются с записи:
http:// - для Web - серверов, и ftp://, news:// для серверов FTP и групп новостей соответственно.
Для поиска URL - адресов можно пользоваться справочником “Желтые страницы Internet”. Его можно
Наиболее эффективной службой для поиска информации в Internet явля-ется World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).
Гипертекст - это представление документа в виде узлов и связей. Если в узлах помимо текста, таблиц, графики имеются аудио и видео файлы, то Web превращается в мультимедийную систему.
Указанная структура документа с помощью гиперссылок позволяет бо-лее эффективно выполнять поиск необходимой информации.
В Web используются понятия:
Web - страница - отдельный файл;
Web - сайт - группа документов, объединенных по смыслу; HTML - язык разметки гипертекста;
VRML - язык моделирования трехмерной и подвижной информации;
Web - броузер - программа поиска и просмотра HTML - документов и других информационных ресурсов Jnternet. Наиболее распространены: MS Internet Explorer и Netscape Navigator.
Кроме указанного, следует
В среде Web для повышения эффективности поиска целесообразно, кро-ме броузеров, применять поисковые серверы и каталоги Web, использующие ключевые слова. Таких средств более 500. В России это: http://www.rambler.ru, http://www.jandex.ru, http://www.aport.ru. Существуют также метапоисковые программы, которые посылают за-
просы сразу на несколько серверов. Например, Sawysearch.
2.3. СИСТЕМА MICROSOFT INTERNET EXPLORER
Для начала поиска информации в Internet можно использовать Internet Explorer из под WS. Окно этого броузера имеет стандартный для WS - при-ложений вид с меню и инструментальными панелями(ИП).
Перед началом работы необходимо ввести в строку "адрес URL" - адрес сервера или выбрать его из списка.
В пункте Переход необходимо задать вид просмотра: Страница Web, Почта или Новости.
После завершения поиска (может быть до нескольких минут) в рабочей части экрана появляется начальная страница информации, где выделены цве-том и подчеркнуты гиперсвязи, что можно использовать для быстрого зна-комства с документом и поиска нужной информации. Для исключения пов-торов при просмотре цвет использованных связей меняется.
Поиск по нужному слову в длинных документах можно выполнить с по-мощью пункта Правка/Найти. Возвращение назад, прекращение поиска вы-полняется кнопками ИП. При поиске можно открыть несколько документов, которые будут храниться в КЭШ - памяти на винчестере. Их имена - внизу раскрывающегося окна. Сохранение необходимой информации выполняется отметкой необходимого фрагмента документа, копированием или записью с использованием пункта Файл/сохранить как...
При сохранении нужно учитывать тип информации (текст, таблица, ри-сунок и т.д., так как броузер помещает скопированные файлы в соответст-вующие приложения (текстовый редактор, электронные таблицы и т.п.). Для неинсталлированных приложений необходима установка дополнительных программ вьюверов - просмотрщиков.
2.4. ОСНОВЫ РАБОТЫ С СУБД ACCESS
Access - это система управления реляционной БД, позволяющая форми-ровать данные и решать задачи управления ими. В плане обработки инфор-мации Access обладает значительно большими возможностями, чем ЭТ.
Работе с БД должно предшествовать определение количества, структуры и взаимосвязи таблиц, входящих в БД, состав каждой таблицы и документов, которые необходимо получить по информации БД.
Основные операции, выполняемые в Access следующие:
1. Вход в систему Access выполняется щелканием по его ПГ. Далее зада-ется имя файла новой БД в диалоговом окне, вызываемом командой Файл/Создать... После этого открывается диалоговое окно "База данных", которое является основным управляющим окном при работе в системе.
2. В Access создание таблиц может быть выполнено способом прямого конструирования и с помощью Мастера таблиц.
Построение с помощью Мастера таблиц выполняется:
- клавишей "Таблица" открывается окно "Создание таблиц" (СТ);
- в окне СТ щелканием по кнопке Мастер открывается окно "Разработка таблиц". Здесь в образцах таблиц выбирается нужная: Задачи, Заказчики и т.д.
В образцах полей выбираются необходимые, которые будут именами столбцов таблицы. Выбор заканчивается включением кнопки >>.
В последующих диалоговых окнах Мастера таблиц можно задать имя таблицы и другие параметры. В результате выводится таблица с поименован-ными колонками и пустыми клетками, которые заполняются информацией, как в ЭТ.
3. В сформированной таблице или при ее заполнении возможны сле-дующие корректировки:
- изменения в выделенных клетках выполняются поверх имеющихся данных;
- информацию клеток или их групп можно вырезать, копировать, встав-лять соответствующими командами меню Правка или кнопка ИП;
- перемещение выделенных фрагментов таблицы БМ;
- вставка новой строки пункта Правка/Вставка строки.
Необходимо помнить, что внесение изменений в тип данных и форму таблицы возможны только в режиме конструирования, который включается из пункта Вид.
4. Создание форм. Запись БД в Access может быть представлена в виде формы, которая содержит названия колонок и данных одной записи.
Формы можно создавать отдельно или с их помощью просматривать и корректировать записи в уже созданных таблицах.
Переключение в окно форм выполняется из ОБД кнопкой “Форма” (Form).
5. Сортировка записей выполняется при открытой таблице, где выделяются колонки для
6. СУБД Access предоставляет несколько способов поиска: простой, с применением фильтра, запросы.
Простой поиск может быть выполнен скроллингом, но удобнее исполь-зовать информацию в форме, где указывается поле поиска (ЩЛ), а далее пункт Правка/Найти или соответствующей ПГ в диалоговом окне указыва-ются данные для поиска.
Фильтр - это поиск записей по заданным критериям. Выполняется из окна "Фильтр", открываемого пунктом Записи/Изменить фильтр. Нужные поля из описываемого бокса двойным ЩЛ помещаются в таблицу, вводятся критерии. Выполнение
Запрос - это обращение к БД для поиска или изменения информации, со-ответствующей нескольким заданным критериям. При этом имеется возмож-ность сохранения формы запроса для его многократного использования.
Вход в режим выполняется из ОБД вкладкой Запрос/Создать, далее в окне “Создание Запроса” используется кнопка Новый Запрос. Затем выби-раются необходимые таблицы и в окне “Запрос - выборка” формируется за-дание на выборку аналогично построению фильтра. Просмотр результатов -пункт Запрос/Запуск.
7. Отчет - представляет собой документ в виде сводки необходимой информации, выбранной из БД. В эту сводку могут быть включены не все, а некоторые из столбцов ранее изготовленной таблицы или запроса. Часто -итоговые данные.
Создание отчета начинается с включения вкладки Отчет/Создать в окне ОБД и перехода в окно “Создание отчета”. Далее выбираются из списка не-обходимые таблицы (запросы) и используются подходящие Мастера отче-тов. Перемещения по диалоговым окнам Мастера позволяет выбрать необ-ходимые поля для отчета, внешний вид и заголовок. По окончании формиро-вания отчета, нажатием кнопки Готово, Access выводит внешний вид отчета для просмотра. После сохранения отчет может быть отпечатан пункт Файл/Печать.
2.5. СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ FineReader (FR)
FR предназначена для автоматизации ввода в ПК типографских доку-ментов. Работает в среде Windows. Обеспечивает распознавание до 99,6% символов. Время обработке 1-й страницы < 1 мин.
Главное окно системы (как и все WS - приложения) включает управ-ляющее меню, инструментальные панели и рабочее поле.
Работа в FR выполняется в три этапа: сканирование, распознавание, ре-дактирование.
Сканирование выполняется при физически и программно установленном сканере, регистрация которого в системе выполняется через пункт Сервис / Опции / Сканер.
Для качественности распознавания перед началом работы в диалоговом окне установки сканера (пункт Scаn&Read) задаются необходимые парамет-ры: тип изображения, формат, ориентация, разрешение и яркость.
Выполнение сканирования производится по команде: пункт Scаn&Read/ Сканирование.
После завершения процесса в рабочем окне появляются окна: "Изобра-жение", "Крупный план" и "Текст". Полученный файл для дальнейшей обра-ботки необходимо сохранить в формате FRF (пункт Файл/Сохранить как...). Распознавание, т.е. формирование системой истинного образа докумен-
та, включает настройку системы на документ, разбиение документа на блоки и распознавание блоков. Настройка заключается в задании параметров распо-знавания (язык текста, тип и расположение) в диалоговых окнах Сер-вис/Опции/Распознавание и Сервис/Опции/Страница.
Разбиение документа на блоки (текстовые, табличные и т.д.), т.е. зоны, ограниченные рамками с соответствующей нумерацией выполняется автома-тически или вручную командами пункта Редактор/Выделить блоки.
Распознавание разделенного на блоки документа выполняется командой Scаn & Read/Распознавание.
Во время распознавания обработанная часть выделяется цветом в окне "Изображение", а после окончания появляется окно "Текст" с содержанием документа.
Редактирование документа включает корректировку, орфографический контроль и сохранение текста. Корректировка выполняется для первичного уточнения текста командами пункта Редактор, т.е. средствами встроенного текстового редактора.
Проверка орфографии производится с помощью встроенной в FR систе-мы Lingvo Corrector, которая позволяет находить ошибки и неуверенно рас-познанные слова, корректировать ненужные пробелы и т.п. Эта операция вы-полняется через пункт Сервис/Орфография.
Сохранение документа (пункт Файл/Сохранить как...) может быть вы-полнено:
для текстовых блоков - в форматах ТХТ, RTF; для таблиц и форм - в форматах CSV, DBF, XLS.
К дополнительным возможностям FR можно отнести:
1.Обучение системы распознанию "плохих" текстов.
При хорошем полиграфическом качестве документа используется режим омнифонт (см. Сервис/Опции/Распознавание), в котором каждый символ автоматически сравнивается с имеющимся в базе данных образцами.
При некачественности сканируемого документа используется распозна-вание с обучением (включается соответствующий флаг в окне "Сер-вис/Опции/Распознавание")
2. Режим пакетной обработки.
Используется при вводе больших объемов однотипных документов практически без участия пользователя. Реализуется со сканером, имеющим механизм автоподачи страниц. Включается кнопкой Scan&Read на ИП. Этот режим очень удобен для подготовки табличных файлов перед вводом их в БД.
3. Распознавание форм.
Обеспечивает ввод переменной информации с однотипных документов. Здесь блоки делятся на реперные (нераспознаваемые) и распознаваемые , за-тем формируется шаблон:
|
Фамилия |
|
|
Группа |
|
|
Факультет |
|
|
Год поступления |
Набор подобных форм обрабатывается в пакетном режиме и результаты распознавания передаются в БД.
4. FR может быть встроен в интегрированный пакет Stylus Lingvo Office, реализующий законченную технологию обработки иностранных текстов: распознавание, перевод, проверка орфографии, что обеспечивает получение готового документа на необходимом языке.
2.6. АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД В СИСТЕМЕ Stylus
Система обеспечивает перевод с основных европейских языков на рус-ский и обратно.
Окно Stylus имеет обычный для приложений Windows вид. Главное ме-ню помимо известных пунктов включает команду Перевод.
Автоматизированный перевод обычно включает этапы:
1. Первоначальный перевод.
2. Повышение качества перевода. 3.Постредактирование.
Первоначальный перевод начинается с загрузки исходного текста или его непосредственного набора. В пункте Вид устанавливается горизонталь-ное или вертикальное представление исходного и переведенного текстов.