Автоматизированные информационно поисковые системы- виды, назначения, преимущества
ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ
Государственное автономное образовательное учреждение
среднего профессионального образования
ПОЛИТЕХНИЧЕСКИЙ КОЛЛЕДЖ № 8
имени дважды Героя Советского Союза И.Ф. Павлова
(ГАОУ ПК № 8 им.И.Ф. Павлова)
КУРСОВАЯ РАБОТА
Предмет: Разработка и эксплуатация информационных систем
Тема: автоматизированные информационно поисковые системы- виды, назначения, преимущества.
СПЕЦИАЛЬНОСТЬ: 080802
ГРУППА: 43ПИ
ИСПОЛНИТЕЛЬ: Смыслов Александр Игоревич
СОГЛАСОВАНО:
Руководитель курсовой работы:
Дементьева Ирина Николаевна
Москва, 2012г
Содержание:
Введение 3
Глава 1 информационно поисковые системы виды, назначения.
1.1 Понятие информационно поисковых систем 6
1.2 Исторические предпосылки развития поисковых систем 7
1.3 Особенности поисковых систем 9
1.4 Структура работы поисковых систем 10
1.5 Виды поисковых систем в России 13
1.6 Зарубежные поисковые системы 19
Глава 2 Сравнительный анализ поисковых систем
2.1Сравнение по качеству поиска 26
2.2 Преимущества и недостатки поисковых систем 26
2.3 Популярные поисковые системы 29
Заключение 31
Введение
Актуальность. Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.
Проблема поиска и сбора
информации - одна из важнейших проблем
информационно поисковых
Интернет сегодня – это не только огромное количество компьютеров, но и невероятное количество людей, для которых сеть является принципиально новым способом общения, почти не имеющим аналогов в материальном мире. Человек – существо социальное, и общение с себе подобными – одна из первейших его потребностей. До сих пор еще ни одно техническое изобретение (не считая телефона) не производило такого переворота в этом древнем занятии – общении человека с человеком.
В начале 70-х годов Министерство
обороны США приступило к разработке
системы связи, которая должна была
соединить между собой
"Интернет" не является
отдельной сетью: на самом
“Интернет”– не говоря уже о том, что его появление ознаменовало новую эпоху в развитии коммуникации, - позволило человечеству бесконечно расширить свои познания в любой, даже самой немыслимой, сфере деятельности или исследований. А так как развитию “Интернета”, с одной стороны способствовали коммерческие организации, фирмы, использующие сеть для обмена деловой информации и публикации рекламы, с другой – студенты, помещающие на всеобщее обозрение множество материалов развлекательного характера, то здесь много полезного найдут себе и бизнесмены, и просто любители со вкусом отдохнуть. К настоящему моменту спектр возможностей Сети растет с каждым годом.
При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем. В данной курсовой работе будут рассмотрены поисковые системы в сети Internet.
Целью исследования является изучение автоматизированных информационно - поисковых систем.
Задачей в данной курсовой работе рассматриваются теоретические и практические основы автоматизированного информационного поиска, классификация и разновидности информационно поисковых систем. Также анализируется материал по применяемым в настоящее время информационно - поисковым каталогам полнотекстовых и гипертекстовых поисковых систем.
1.1 Понятие информационных поисковых систем
Автоматизированная поисковая
система – система, состоящая
из персонала и комплекса средств
автоматизации его
Следовательно, информационно-поисковая система выполняет следующие функции:
- хранения больших объемов информации;
- быстрого поиска требуемой информации;
- добавления, удаления и изменения хранимой информации;
- вывода информации в удобном для человека виде.
Создание и использование
информационно-поисковой
1.2 Исторические предпосылки развития поисковых систем
Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами Internet.
Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.
Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.
Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.
Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.
Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.
1.3 Особенности поисковых систем
В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:
- Фиксация информационной потребности на естественном языке;
- Выбор поисковых сервисов сети и формализация записи информационной потребности на конкретных информационно-поисковых языках;
- Выполнение созданных запросов;
- Предварительная обработка полученных списков ссылок на документы;
- Обращение по выбранным адресам за искомыми документами;
- Предварительный просмотр содержимого найденных документов;
- Сохранение подходящих документов для последующего изучения;
- Извлечение из релевантных документов ссылок для расширения запроса;
- Изучение всего массива сохраненных документов;
- Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.
Процесс поиска имеет чрезвычайно глубокий дидактический аспект – так, установлено что применение диалоговых информационных систем приводит к формированию у рядовых пользователей такого стиля информационно-поисковой деятельности, который обычно свойственен наиболее выдающимся ученым.
1.4 Структура работы поисковых систем
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, найденные там, снова разыскать имеющиеся в них гиперссылки. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку «Найти» (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.
Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.
Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.
Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать.
Все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
1.5 Виды поисковых систем в России
Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Мэйл» (www.mail.ru) и др.
Rambler
История развития и становления
поисковой системы «Рамблер»
берет начало в подмосковном городе
Пущино. В 1991 году там появилась группа
единомышленников вдохновленных идей
только зарождающегося интернета. Дмитрий
Крюков, Сергей Лысаков, Виктор Воронков,
Владимир Самойлов, Юрий Ершов - это
имена создателей Поисковой системы,
которая в дальнейшем получит
название Rambler. Один из основателей
Сергей Лысаков при помощи своей
компании "Стек" занялся локальными
сетями и подключением к Интернету.
Они сами создали внутри города сеть
и подключили ее к Москве, а уже
через Москву к мировому Интернету,
присоединившись так же к сети
Курчатовского института
Yandex
Одна из самых крупнейших
на сегодняшний день поисковых систем
интернета Яндекс берет начало еще
в 1990 года, когда была разработана
программа поискового обеспечения
в компании "Аркадия". За более
чем два года работы были созданы
две Поисковые системы "Международная
классификация изобретений" и "Классификатор
товаров и услуг". Каждая из систем
работала локально под DOS, что позволяло
производить поиск из заданного
словаря со стандартными логическими
операторами. 1993 г. Компания "Аркадия"
преобразовалась в
Mail.ru представляет собой
прекрасно организованный и
1.6 Зарубежные поисковые системы
Одна из самых крупнейших
Поисковых систем Интернета Google была
основана двумя аспирантами
- - Очень высокая релевантность выдачи к поисковому запросу, это достигается путем того что в отличии от многих поисковых систем Google не использует механизмы мета поиска. Это достигается анализом каждой страницы с учетом расположения на ней элементов.
- Достаточно удобный и дружественный интерфейс настроенный для удобства пользователей только на поисковую тематику не навязчиво предлагающий так же и другие сервисы, которых очень много.
- Некоммерческая направленность проекта.
С самого начала создания этой поисковой системы интернета была цель создания бесконечно огромной базы данных для поиска. То есть можно сказать что в целом мечта изначально была утопической. С августа 2004 года компания Google стала публичной выйдя на фондовый рынок со своими акциями (IPO). Продав около 20 млн. акций на общую сумму 1,67 млрд. долларов. Однако было продано далеко не все количество акций. Оставив себе большую честь компания Google может распоряжаться ими по своему усмотрению.
Для более удобной работы с Поисковой системой, Google постоянно создает все новые сервисы и плагины. Вот некоторые из них:
- Google toolbar для IE. Это навигационная панель интегрируемая в Интернет браузер Internet explorer, который упрощает работу пользователя.
- Google maps. Сервис предоставляющий спутниковые снимки земли, а так же луны. Достаточно хорошее качество изображения.
- Google talk. Интернет пейджер и Интернет телефон. И еще очень много различных сервисов.
По аналогии
с другими компаниями развитие не
может происходить без каких
либо скандалов и трений. Но такова
природа каждого развития, и компания
Google не исключение из общего числа. В
начале 2004 года адвокаты компании Google
отправили письмо с требованием
закрыть пародийный поиск "для
взрослых" Booble. Летом того же года
бывший операционный директор Google Брайан
Рид был отстранен от должности
в связи с возрастными
Yahoo
Yahoo! (произносится как я́ху!) -американская компания, владеющая второй по популярности (5.88 %) в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo! Mail, один из старейших и наиболее популярных в Интернете. В 2004 году была запущена новая версия почтового интерфейса, основанная на AJAX.
Компания Yahoo! была основана студентами магистратуры Стэнфордского университета Дэвидом Файло (англ. David Filo) и Джерри Янгом (англ. Jerry Yang) в январе 1994 года; стала корпорацией 2 марта 1995 года. Главный офис компании находится в городеСаннивейл (англ. Sunnyvale), штат Калифорния, США.
Согласно статистике Alexa Internet, в феврале-апреле 2012г. Yahoo! — четвёртый по посещаемости веб-сайт в сети Интернет, и примерно 28 % посещений состоят из просмотра только одной страницы. Целями же Яху стали книги из библиотеки Калифорнийского университета, от издательства О`Рейли, прославившегося своими учебниками, и Национального Архива Великобритании. Войдут в «стартовый пакет» и книги из фонда Европейского Архива. Избежать затяжных судов компания намерена путем предложения потребителям получить разрешение на просмотр данных текстов от правообладателей перед переходом на «полновесный» текст. При этом поисковая система Yahoo рассчитывает поделиться с другими поисковыми сервисами возможностью проводить поиск в этой «библиотеке», в то время как Google возможности своей несостоявшейся библиотеки делить ни с кем не планировала.

- Автоматизированные информационно-справочные системы правовой сфере РК
- Автоматизированные информационные системы
- Автоматизированные информационные системы
- Автоматизированные информационные системы
- Автоматизированные информационные системы
- Автоматизированные информационные системы
- Автоматизированные информационные системы
- Автоматизированное электропривода толкателя методической печи
- Автоматизированной системы обработки информации
- Автоматизированные банковские системы
- Автоматизированные банковские системы
- Автоматизированные библиотечно-информационные системы в работе детских библиотек (на пример ЦДБ г. Минска)
- Автоматизированные возможности ведения кадрового и бухгалтерского учёта в программе «1С: зарплата и управление персоналом 8.2»
- Автоматизированные измерительные и диагностические комплексы, системы и технические устройства