Состав и методы КТ в научных исследованиях

Введение

 

В любой области деятельности человека технология - это совокупность знаний о способах и средствах проведения производственных процессов, под которыми следует обобщенно понимать выполняемую работу.

В производственных процессах важнейшим ресурсом является инфор-мация, как один из основных факторов повышения их эффективности. В этой связи под термином информационная технология понимают современные виды информационного обслуживания, основанные на использовании средств вычислительной техники (СВТ), связи, множительных средств и орг-техники.

Компьютерные технологии (КТ) являются частью информационных и обеспечивают сбор, обработку, хранение и передачу информации с помощью ЭВМ.

Основу современных КТ составляют 3 технологических достижения: возможность хранения информации на машинных носителях, развитие средств связи и автоматизация обработки информации с помощью компью-тера.

Практически КТ реализуются применением программно-технических комплексов (ПТК), состоящих из персональных компьютеров (ПК) или рабо-чих станций (РС) с необходимым набором периферийных устройств, вклю-ченных в локальные и глобальные вычислительные сети и обеспеченных не-обходимыми программными средствами (ПС). Использование названных элементов увеличивает степень автоматизации как научных исследований, так и учебных процессов, что служит основой их совершенствования.

КТ повышают уровень эффективности работ в науке и образовании за счет следующих факторов:

1. Упрощение и ускорение процессов обработки, передачи, представле-ния и хранения информации.

2. Увеличение объема полезной информации с накопителем типовых решений и обобщением опыта научных разработок.

3. Обеспечение глубины, точности и качества решаемых задач. Воз-можность реализации задач ранее не решаемых. Постановка исследований и получение результатов, недостижимых другими средствами.

4. Возможность анализа большого числа вариантов синтеза объектов и принятия решений.

5. Сокращение сроков разработки, трудоемкости и стоимости НИР при улучшении условий работы специалистов.

КТ в настоящее время используется практически во всех сферах дея-тельности человека. Задача нашего курса - обобщить знания по КТ примени-тельно к научным исследованиям и образованию.

Обычно, прежде чем говорить о применении КТ в какой-либо деятель-ности, проводят тщательный анализ этой сферы для определения целесооб-разных направлений ее рационального использования.

Известно, что наука - это сфера деятельности, направленная на получе-ние новых знаний, которая реализуется с помощью научных исследований (НИ).

Целью НИ является изучение определенных свойств объекта (процесса, явления) и на этой основе разработка теории или получение необходимых для практики обобщенных выводов.

По целевому назначению НИ делят на фундаментальные, прикладные и разработки.

Фундаментальные (ФНИ) связаны с изучением новых явлений и законов природы, с созданием новых принципов исследований (физика, математика, биология, химия и т.д.).

Прикладные исследования (ПНИ) - это нахождение способов использо-вания законов природы и научных знаний, полученных в ФНИ, в практиче-ской деятельности человека.

Разработки - это процесс создания новой техники, систем, материалов и технологий, включающий подготовку документов для внедрения в практику результатов ПНИ.

Реализация целей НИ выполняется на основе методов. Метод - это спо-соб достижения цели, программа построения и применения теории.

Методы научных исследований делят на следующие группы: эмпириче-ские, экспериментальные и теоретические. Особую группу составляют мето-ды научно - технического творчества (НТТ).

Эмпирические исследования выполняются с целью накопления система-тической информации о процессе. При этом используются методы: наблюде-ние, регистрация, измерение, анкетный опрос, тесты, экспертный анализ.

Экспериментальный уровень НИ - это изучение свойств объекта по оп-ределенной программе.

Теоретические исследования проводятся с целью разработки новых ме-тодов решения научно-технических задач, обобщения и объяснения эмпири-ческих и экспериментальных данных, выявления общих закономерностей и их формализации.

На двух последних уровнях используются методы моделирования, мето-ды анализа и синтеза, логические построения (предположения, умозаключе-ния), аналогии, идеализации.

В НТТ используются как названные общенаучные методы, так и эври-стические приемы эффективного решения творческих задач, способствую-щие наиболее быстрому нахождению решения (озарению), т.е. разного рода оригинальные находки.


Рациональная организация НИР строится с использованием принципов системного подхода и схематично может быть представлена следующим об-разом:


 

     
   

 

Экспериментальные исследования

 

 

Теоретические исследования

 
   
         
 

 

Моделирование

 
   
 

 

Обработка результатов исследования

 

 

 

 

 

Исходя из задач НИ и порядка их реализации, можно определить сле-дующие основные направления рационального применения КТ в научных ис-следованиях:

1. Сбор, хранение, поиск и выдача научно-технической информации (НТИ).

2. Подготовка программ НИ, подбор оборудования и эксперименталь-ных устройств.

3. Математические расчеты.

4. Решение интеллектуально - логических задач. 5. Моделирование объектов и процессов.

6. Управление экспериментальными установками.

7. Регистрация и ввод в ЭВМ экспериментальных данных.

8. Обработка одномерных и многомерных (изображения) сигналов. 9. Обобщение и оценка результатов НИ.

10. Оформление и представление итогов НИ.

11. Управление научно-исследовательскими работами (НИР).

Наиболее эффективно, когда эти задачи реализуются в рамках автомати-зированных систем научных исследований (АСНИ).

 

КТ НА ЭТАПЕ СБОРА И ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ

 

2.1. ВИДЫ НТИ И ЕЕ ОБРАБОТКА

 

При системном подходе НИ начинаются со сбора и предварительной об-работки НТИ по теме исследования. Эта информация может включать сведе-ния о достижениях в исследуемой области, об оригинальных идеях, об от-крытых эффектах, научных разработках, технических решениях и т.д.

Целью данного этапа является получение ответов на следующие вопро-сы:

1. Какие авторы или научные группы занимаются аналогичной темой? 2. Каковы известные решения по исследуемой теме?

3. Какими известными методами и средствами решаются исследуемые проблемы?

4. Каковы недостатки известных решений и какими путями их пытают-ся преодолеть?

Углубленное изучение информации по предмету исследования позволя-ет исключить риск ненужных затрат времени на уже решенную проблему, детально изучить весь круг вопросов по исследуемой теме и найти научно -техническое решение, отвечающее высокому уровню.

Основным источником информации являются научные документы, ко-торые по способу представления могут быть текстовыми, графическими, ау-диовизуальными и машиночитаемыми.

Научные документы подразделяются на первичные и вторичные, опуб-ликованные и неопубликованные.

Первичные документы - это книги, брошюры, периодические издания (журналы, труды), научно-технические документы (стандарты, методические указания). Важное значение здесь имеет также патентная документация, под которой подразумеваются издания, содержащие сведения об открытиях, изо-бретениях и т.п.

К неопубликованным первичным документам относятся: научные отче-ты, диссертации, депонированные рукописи и т.п. Они содержатся в фонде ВНТИЦентра.

Вторичные документы содержат краткую обобщенную информацию из одного или нескольких первичных документов: справочники, реферативные издания, библиографические указатели и т.п.

Сбор и обработка НТИ может быть выполнена следующими способами: анкетирование, собеседование, экспертный опрос и т.д., но основой является работа с научно-техническими документами, которая включает поиск, озна-комление, проработку документов и систематизацию информации.

Поиск выполняется по каталогам, реферативным и библиографическим изданиям. Автоматизация этой процедуры обеспечивается использованием специализированных информационно-поисковых систем (ИПС) библиотек и научно-исследовательских институтов (НИИ), электронных каталогов, поис-ком в машиночитаемых базах данных (БД), а также с помощью программ по-иска в сетях Internet.

Необходимо иметь в виду, что ИПС делятся на:

документальные, позволяющие работать с полными текстами или адре-сами документов;

фактографические, которые выдают необходимые сведения из имею-щихся документов;

информационно-логические (интеллектуальные) представляют инфор-мацию, полученную в результате логического поиска и целенаправленного выбора в автоматизированном режиме.

Информационно-логические системы используют элементы экспертных систем, о которых говорится ниже.

При наличии в БД полных текстов документов названные средства и по-зволяют реализовывать процедуру ознакомления. Часто для этого вполне достаточны рефераты или аннотации документов.

В проработке и автоматизации НТИ преобладают операции: формирование выписок - создание картотеки, что можно реализовать,

например, с использованием WS-приложения Cardfile;

извлечение фрагментов документов с помощью средств текстовых ре-дакторов;

создание гипертекстовых документов (структурированных). Здесь могут быть использованы интегрированные системы Works, Framework, M/Office, а также средства языков разметки гипертекста.

создание локальных (по проблеме) БД и баз знаний (БЗ).

БД - это совокупность взаимосвязанных, хранящихся вместе данных, для поиска, изменения и добавления которых используются общие управляющие ПС, называемые системами управления базами данных (СУБД). Кроме на-званного, СУБД обеспечивают сортировку, фильтрацию данных и формиро-вание выходных документов (отчеты).

Наиболее распространенными СУБД являются Paradox, dBASE, Fox-Base, FoxPro, Clipper, Informix, Oracle, Access и др. Для небольших БД могут быть использованы электронные таблицы (ЭТ).

Трудоемкость организации табличных БД можно существенно умень-шить с использованием систем оптического распознавания (например, Fine-Reader), обеспечивающих обработку сканированных документов и их экс-порт в БД.

Из средств КТ, в рамках этой темы, рассмотрим основы работы в Inter-net, работу с FineReader и СУБД Ассess.

 

2.2. ОСНОВНЫЕ СВЕДЕНИЯ ПО INTERNET

 

Internet - это всемирная корпоративно управляемая совокупность ком-пьютерных сетей, обменивающихся информацией (~40 тыс. сетей, более 50 млн. пользователей), и связанных телефонными, оптоволоконными и др. ка-белями, а также радиоканалами, в том числе спутниковыми.

Очень упрощенно структуру Internet можно представить следующей схемой:

Узлы


 

сети

 

 

ХК Р ПР

 

 

 

Шлюз ЛВС в Internet

(клиенты) Канал Internet связи

Сеть организации

 

 

Здесь:

ХК - хост-компьютер (сервер) - мощная ЭВМ, обеспечивающая выпол-нение запросов клиентов;

Р - роутер (маршрутизатор) – ЭВМ, управляющая адресацией информа-ции;

ПР - провайдер - сервисная фирма, обеспечивающая доступ в Internet (обычно платный) и имеющая мощный компьютер или комплекс.

Работа в Internet может выполняться в нескольких режимах, поддержи-ваемых соответствующими протоколами обмена данных. Это следующие ре-жимы:

1. Терминальный режим - программы клиентов выполняются на узло-вом сервере сети. Протокол ТСР/IP.

2. Интерактивный (dial - upIP). SLIP/PPP.

3. Пакетный. Протокол UUPC.

Наиболее часто используется протокол TCP/IP,

где TCP - обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа;

IP - обеспечивает доставку информации конкретному адресату, т.е. каж-дый ХК в сети имеет свой уникальный IP - адрес в виде цифровой последо-вательности - ХХХ.ХХХ.ХХХ.ХХХ.

Пользователь сети (организация или частное лицо) в Internet идентифицируется именем пользователя и именем домена, разделенных знаком @.

ХХХХХХ.ХХХ@ХХХХХ.ХХХ

Internet предоставляет следующие возможности:

1. Поиск и просмотр информационных документов (WWW, Archi, Co-pher).

2. Доступ к БД (WAIS).

3. Связь и работу с другими ПК (Telnet).

4. Группы новостей, электронные бюллетени и т.д.

5. Средства, в которых пользователи могут направлять свои сообщения и знакомиться с имеющимися.

6. Электронная почта (Internet Mail).

7. Почтовые списки - средства рассылки информации п.4 по ЭП

8. Разговор текстом на экране в реальном времени (программа IRC -Internet Relay Chat).

9. Передача файлов, в том числе программных (система FTP).

В основном возможности Internet реализуются при наличии ОС: WS 95,98, WS - NT, UNIX, Linux, Solaris.

Большинство информационных ресурсов находятся на серверах узлов Internet, имеющих универсальные URL -адреса, которые в зависимости от системы размещения начинаются с записи:

http:// - для Web - серверов, и ftp://, news:// для серверов FTP и групп новостей соответственно.

Для поиска URL - адресов можно пользоваться справочником “Желтые страницы Internet”. Его можно найти в Internet по адресу: http://www.jellow.com. Имеется этот справочник и на компакт - диске.

Наиболее эффективной службой для поиска информации в Internet явля-ется World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).

Гипертекст - это представление документа в виде узлов и связей. Если в узлах помимо текста, таблиц, графики имеются аудио и видео файлы, то Web превращается в мультимедийную систему.

Указанная структура документа с помощью гиперссылок позволяет бо-лее эффективно выполнять поиск необходимой информации.

В Web используются понятия:

Web - страница - отдельный файл;

Web - сайт - группа документов, объединенных по смыслу; HTML - язык разметки гипертекста;

VRML - язык моделирования трехмерной и подвижной информации;

Web - броузер - программа поиска и просмотра HTML - документов и других информационных ресурсов Jnternet. Наиболее распространены: MS Internet Explorer и Netscape Navigator.

Кроме указанного, следует назвать JAVA – объектно-ориентированный язык для создания распределенных прикладных Web-систем. Позволяет выполнять программы непосредственно на ПК клиента, CGI-стандарт, позволяющий Web-серверам запускать внешние прикладные программы.

В среде Web для повышения эффективности поиска целесообразно, кро-ме броузеров, применять поисковые серверы и каталоги Web, использующие ключевые слова. Таких средств более 500. В России это: http://www.rambler.ru, http://www.jandex.ru, http://www.aport.ru. Существуют также метапоисковые программы, которые посылают за-

просы сразу на несколько серверов. Например, Sawysearch.

 

2.3. СИСТЕМА MICROSOFT INTERNET EXPLORER

 

Для начала поиска информации в Internet можно использовать Internet Explorer из под WS. Окно этого броузера имеет стандартный для WS - при-ложений вид с меню и инструментальными панелями(ИП).

Перед началом работы необходимо ввести в строку "адрес URL" - адрес сервера или выбрать его из списка.

В пункте Переход необходимо задать вид просмотра: Страница Web, Почта или Новости.

После завершения поиска (может быть до нескольких минут) в рабочей части экрана появляется начальная страница информации, где выделены цве-том и подчеркнуты гиперсвязи, что можно использовать для быстрого зна-комства с документом и поиска нужной информации. Для исключения пов-торов при просмотре цвет использованных связей меняется.

Поиск по нужному слову в длинных документах можно выполнить с по-мощью пункта Правка/Найти. Возвращение назад, прекращение поиска вы-полняется кнопками ИП. При поиске можно открыть несколько документов, которые будут храниться в КЭШ - памяти на винчестере. Их имена - внизу раскрывающегося окна. Сохранение необходимой информации выполняется отметкой необходимого фрагмента документа, копированием или записью с использованием пункта Файл/сохранить как...

При сохранении нужно учитывать тип информации (текст, таблица, ри-сунок и т.д., так как броузер помещает скопированные файлы в соответст-вующие приложения (текстовый редактор, электронные таблицы и т.п.). Для неинсталлированных приложений необходима установка дополнительных программ вьюверов - просмотрщиков.

 

2.4. ОСНОВЫ РАБОТЫ С СУБД ACCESS

 

Access - это система управления реляционной БД, позволяющая форми-ровать данные и решать задачи управления ими. В плане обработки инфор-мации Access обладает значительно большими возможностями, чем ЭТ.

Работе с БД должно предшествовать определение количества, структуры и взаимосвязи таблиц, входящих в БД, состав каждой таблицы и документов, которые необходимо получить по информации БД.

Основные операции, выполняемые в Access следующие:

1. Вход в систему Access выполняется щелканием по его ПГ. Далее зада-ется имя файла новой БД в диалоговом окне, вызываемом командой Файл/Создать... После этого открывается диалоговое окно "База данных", которое является основным управляющим окном при работе в системе.

2. В Access создание таблиц может быть выполнено способом прямого конструирования и с помощью Мастера таблиц.

Построение с помощью Мастера таблиц выполняется:

- клавишей "Таблица" открывается окно "Создание таблиц" (СТ);

- в окне СТ щелканием по кнопке Мастер открывается окно "Разработка таблиц". Здесь в образцах таблиц выбирается нужная: Задачи, Заказчики и т.д.

В образцах полей выбираются необходимые, которые будут именами столбцов таблицы. Выбор заканчивается включением кнопки >>.


В последующих диалоговых окнах Мастера таблиц можно задать имя таблицы и другие параметры. В результате выводится таблица с поименован-ными колонками и пустыми клетками, которые заполняются информацией, как в ЭТ.

3. В сформированной таблице или при ее заполнении возможны сле-дующие корректировки:

- изменения в выделенных клетках выполняются поверх имеющихся данных;

- информацию клеток или их групп можно вырезать, копировать, встав-лять соответствующими командами меню Правка или кнопка ИП;

- перемещение выделенных фрагментов таблицы БМ;

- вставка новой строки пункта Правка/Вставка строки.

Необходимо помнить, что внесение изменений в тип данных и форму таблицы возможны только в режиме конструирования, который включается из пункта Вид.

4. Создание форм. Запись БД в Access может быть представлена в виде формы, которая содержит названия колонок и данных одной записи.

Формы можно создавать отдельно или с их помощью просматривать и корректировать записи в уже созданных таблицах.

Переключение в окно форм выполняется из ОБД кнопкой “Форма” (Form).

5. Сортировка записей выполняется при открытой таблице, где выделяются колонки для сортировки. Команда на сортировку (по возрастанию или убыванию) осуществляется кнопкой ИП через пункт Записи/Быстрая Сортировка.

6. СУБД Access предоставляет несколько способов поиска: простой, с применением фильтра, запросы.

Простой поиск может быть выполнен скроллингом, но удобнее исполь-зовать информацию в форме, где указывается поле поиска (ЩЛ), а далее пункт Правка/Найти или соответствующей ПГ в диалоговом окне указыва-ются данные для поиска.

Фильтр - это поиск записей по заданным критериям. Выполняется из окна "Фильтр", открываемого пунктом Записи/Изменить фильтр. Нужные поля из описываемого бокса двойным ЩЛ помещаются в таблицу, вводятся критерии. Выполнение фильтрации осуществляетсяпунктом Записи/Применить фильтр.

Запрос - это обращение к БД для поиска или изменения информации, со-ответствующей нескольким заданным критериям. При этом имеется возмож-ность сохранения формы запроса для его многократного использования.

Вход в режим выполняется из ОБД вкладкой Запрос/Создать, далее в окне “Создание Запроса” используется кнопка Новый Запрос. Затем выби-раются необходимые таблицы и в окне “Запрос - выборка” формируется за-дание на выборку аналогично построению фильтра. Просмотр результатов -пункт Запрос/Запуск.

7. Отчет - представляет собой документ в виде сводки необходимой информации, выбранной из БД. В эту сводку могут быть включены не все, а некоторые из столбцов ранее изготовленной таблицы или запроса. Часто -итоговые данные.

Создание отчета начинается с включения вкладки Отчет/Создать в окне ОБД и перехода в окно “Создание отчета”. Далее выбираются из списка не-обходимые таблицы (запросы) и используются подходящие Мастера отче-тов. Перемещения по диалоговым окнам Мастера позволяет выбрать необ-ходимые поля для отчета, внешний вид и заголовок. По окончании формиро-вания отчета, нажатием кнопки Готово, Access выводит внешний вид отчета для просмотра. После сохранения отчет может быть отпечатан пункт Файл/Печать.

 

2.5. СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ FineReader (FR)

 

FR предназначена для автоматизации ввода в ПК типографских доку-ментов. Работает в среде Windows. Обеспечивает распознавание до 99,6% символов. Время обработке 1-й страницы < 1 мин.

Главное окно системы (как и все WS - приложения) включает управ-ляющее меню, инструментальные панели и рабочее поле.

Работа в FR выполняется в три этапа: сканирование, распознавание, ре-дактирование.

Сканирование выполняется при физически и программно установленном сканере, регистрация которого в системе выполняется через пункт Сервис / Опции / Сканер.

Для качественности распознавания перед началом работы в диалоговом окне установки сканера (пункт Scаn&Read) задаются необходимые парамет-ры: тип изображения, формат, ориентация, разрешение и яркость.

Выполнение сканирования производится по команде: пункт Scаn&Read/ Сканирование.

После завершения процесса в рабочем окне появляются окна: "Изобра-жение", "Крупный план" и "Текст". Полученный файл для дальнейшей обра-ботки необходимо сохранить в формате FRF (пункт Файл/Сохранить как...). Распознавание, т.е. формирование системой истинного образа докумен-

та, включает настройку системы на документ, разбиение документа на блоки и распознавание блоков. Настройка заключается в задании параметров распо-знавания (язык текста, тип и расположение) в диалоговых окнах Сер-вис/Опции/Распознавание и Сервис/Опции/Страница.

Разбиение документа на блоки (текстовые, табличные и т.д.), т.е. зоны, ограниченные рамками с соответствующей нумерацией выполняется автома-тически или вручную командами пункта Редактор/Выделить блоки.

Распознавание разделенного на блоки документа выполняется командой Scаn & Read/Распознавание.

Во время распознавания обработанная часть выделяется цветом в окне "Изображение", а после окончания появляется окно "Текст" с содержанием документа.

Редактирование документа включает корректировку, орфографический контроль и сохранение текста. Корректировка выполняется для первичного уточнения текста командами пункта Редактор, т.е. средствами встроенного текстового редактора.

Проверка орфографии производится с помощью встроенной в FR систе-мы Lingvo Corrector, которая позволяет находить ошибки и неуверенно рас-познанные слова, корректировать ненужные пробелы и т.п. Эта операция вы-полняется через пункт Сервис/Орфография.

Сохранение документа (пункт Файл/Сохранить как...) может быть вы-полнено:

для текстовых блоков - в форматах ТХТ, RTF; для таблиц и форм - в форматах CSV, DBF, XLS.

К дополнительным возможностям FR можно отнести:

1.Обучение системы распознанию "плохих" текстов.

При хорошем полиграфическом качестве документа используется режим омнифонт (см. Сервис/Опции/Распознавание), в котором каждый символ автоматически сравнивается с имеющимся в базе данных образцами.

При некачественности сканируемого документа используется распозна-вание с обучением (включается соответствующий флаг в окне "Сер-вис/Опции/Распознавание"). При этом пользователь, просматривая документ, выделяет плохо различимые символы и объявляет их названия системе, кото-рая использует их при дальнейшей работе.

 

2. Режим пакетной обработки.

Используется при вводе больших объемов однотипных документов практически без участия пользователя. Реализуется со сканером, имеющим механизм автоподачи страниц. Включается кнопкой Scan&Read на ИП. Этот режим очень удобен для подготовки табличных файлов перед вводом их в БД.

3. Распознавание форм.

Обеспечивает ввод переменной информации с однотипных документов. Здесь блоки делятся на реперные (нераспознаваемые) и распознаваемые , за-тем формируется шаблон:

 

 

 

Фамилия

 

 

Группа

 

 

Факультет

 

 

Год поступления

 

 

 

Набор подобных форм обрабатывается в пакетном режиме и результаты распознавания передаются в БД.

4. FR может быть встроен в интегрированный пакет Stylus Lingvo Office, реализующий законченную технологию обработки иностранных текстов: распознавание, перевод, проверка орфографии, что обеспечивает получение готового документа на необходимом языке.

 

 

2.6. АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД В СИСТЕМЕ Stylus

 

Система обеспечивает перевод с основных европейских языков на рус-ский и обратно.

Окно Stylus имеет обычный для приложений Windows вид. Главное ме-ню помимо известных пунктов включает команду Перевод.

Автоматизированный перевод обычно включает этапы:

 1. Первоначальный перевод.

2. Повышение качества перевода. 3.Постредактирование.

Первоначальный перевод начинается с загрузки исходного текста или его непосредственного набора. В пункте Вид устанавливается горизонталь-ное или вертикальное представление исходного и переведенного текстов.