Ирина Эланс

Автор который поможет с любыми образовательными и учебными заданиями

Анализ технологий поиска информации в WWW

Содержание

Стр.

Введение ……………………………………………………………………

Глава 1. Теоретические основы поисковых систем интернет

§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...

§ 3. Критерии качества поиска. ………………………………………..

§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….

§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

ВВЕДЕНИЕ

Поиск информации – задача, которую человечество решает уже многие столетия. По мере объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные средства и приемы, позволяющие найти необходимый документ. Технология поиска информации совершенствовалась в каталогах и информационных отделах крупных библиотек. В 70-е годы ХХ столетия появились компьютерные базы данных, доступ к которым сначала обеспечивался через модемное подключение, а затем по протоколу telnet через Internet.

Высокая стоимость поиска информации потребовала создания эффективных приемов поиска. Все найденные за много лет средства и приемы информационного поиска доступны и эффективны при поиске информации в Internet. Общеизвестно, что поиск в Internet осуществляется при посредничестве поисковых систем. Таких систем множество и они различаются широтой охвата, способом представления результатов поиска, формой выдачи запроса и другими характеристиками.

Всемирная сеть очень важна и полезна практически для любого. Каждый пользователь Интернета может найти в нем массу разнообразной и интереснейшей информации, а также использовать все богатейшие возможности сети. Ресурсы Интернета давно перестали быть просто игрушкой, превратившись в незаменимый инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. По оценке экспертов объем информации, передаваемой по каналам Интернет, удваивается каждые полгода. Ежедневно в сети появляются миллионы новых документов, и естественно, что без систем поиска они в подавляющем своем большинстве остались бы не востребованными, вообще не были бы не кем найдены, и все то огромное количество информации оказалось бы никому не нужным. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. Еще несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети срочно понадобившуюся информацию иногда можно найти быстрее, чем в книге, лежащей на столе.

Наиболее популярным и используемым способом поиска в Интернете является использование поисковых систем. Что же такое поисковая система? Поисковая система - портал, осуществляющий поиск, сбор и сортировку информации в сети Интернет. Поисковые системы это инструмент, позволяющий пользователю глобальной сети в кратчайшие сроки найти интересующую его информацию.

Каждый пользователь постепенно вырабатывает привычку к достаточно узкому кругу поисковых систем, которыми он пользуется постоянно. Это позволяет привыкнуть к интерфейсу, упрощает ориентацию в длинных списках, облегчает понимание страниц, попавших в его распоряжение.

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Эти проблемы становятся особенно серьезными, если требуется найти четкую и точную информацию по конкретному вопросу.

На основании вышесказанного, выделим ряд трудностей:

- огромные массивы информационных ресурсов;

- разновидность предоставляемой информации;

- использование национальных языков;

- проникновение технологий Internet в сферу непрофессионального пользователя.

Цель квалификационной работы: «Проанализировать достоинства и недостатки известных русскоязычных поисковых систем».

Предмет исследования – поисковые системы в среде Internet.

Объектом исследования является процесс поиска информации в Internet с использованием поисковых систем.

Задачи в квалификационной работе:

Изучить стратегию поиска информации в Сети.
Рассмотреть существующие поисковые системы и различные средства поиска.
Сделать сравнительный анализ русскоязычных поисковых систем.
Предложить схему поиска информации.

Научная новизна исследования заключается в том, что разработанная схема поиска информации, при использовании обозначенных поисковых систем, позволит сократить время поиска и получить более точную информацию.

Для сбора и обработки информации по теме исследования использованы следующие методы:

Изучение литературы.
Обобщение теоретического и практического опыта.
Количественный анализ полученных данных.

Квалификационная работа состоит из введения, двух глав, заключения и списка использованной литературы.

Глава 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПОИСКОВЫХ СИСТЕМ ИНТЕРНЕТА

§ 1. Поисковые системы как информационный ресурс.

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.

Рассмотрим общую схему: «автор» создает «документ у пользователя» возникает «информационная потребность». Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов - подходит, или не подходит. В теории информационного поиска вместо слова «подходит» используют термин «пертинентный документ», а вместо «не подходит» - «не пертинентный». Слово «пертинентный» происходит от английского «pertinent», что значит «относящийся к делу, подходящий, по сути». Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти «только то, что хотим, и ничего больше»).

Эта цель - идеальна и пока недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - «шум». Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов.

Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно.

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые «понимает» ИПС - должен быть сформулирован запрос.

Запрос редко может точно выразить информационную потребность. Однако многие ИПС не могут определить, соответствует ли тот или иной документ запросу. Для решения этой задачи был введен синтетический критерий - Степень соответствия документа запросу, который называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот.

Исторические предпосылки развития поисковых систем

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами Internet.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

§ 2. Общий вид обобщенной поисковой машины.

Основная задача Internet – предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируются по методам поиска:

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список на искомую информацию.
Поисковый указатель (индекс) обеспечивает поиск по заданным ключевым словам. В результате поиска формируется набор гиперссылок на Web-страницы, содержащие указанные термины. Обычно поисковые указатели (индексы) выдают огромное количество искомых страниц.

В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данной странице слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же – по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается искомое слово. Первыми в таком списке идут ссылки на те страницы, у которых ключевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые указатели (индексы), но они точнее показывают на основные ресурсы в Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые указатели (индексы). Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных способа.

Наиболее убедительной попыткой обуздать информационный хаос в Internet является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины следующий:

Сканирование индексирование классификация обслуживание

В процессе сканирования ресурсов Сети принимают участие специальные программы, которые способны путешествовать по Web-узлам Internet, просматривать Web-страницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поисковыми роботами», «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспериментальные программы для мониторинга Сети.

Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Учитываются и интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее, проникая в самые отдаленные закоулки WWW.

Второй этап работы поисковой системы — индексация.

Собрать на центральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс преобразования данных из той формы, в которой они хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, которую называют поисковым указателем (индексом).

У каждой поисковой системы свои приемы и методы индексации. Перед индексацией большинство систем очищают документ от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только короткие слова могут быть зарезервированными. Очень распространенные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно.

Специализированные поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг, то слово книга для нее может считаться зарезервированным.

На этапе подготовки к индексации может происходить нормализация слов за счет отбрасывания суффиксов и окончаний. После такой «зачистки» фраза типа «Мы с братом любим смотреть кино» превращается в ' нечто похожее на «брат люб смотр кин». Исходный документ может быть найден при поиске по ключевым словам «брат», «любовь», «смотреть», «кино», но никогда по словам «мы» или «с».

Некоторые системы производят нормализацию всегда. Ряд систем могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая активно используется для контекстного поиска.

На основе «зачищенного» документа готовится индекс. Существует множество методов индексации. Разумеется, они не разглашаются. Как и поисковый робот, алгоритм индексации составляет коммерческую тайну поисковой службы, поэтому в качестве примера приведем лишь простейший тип индекса — так называемый обратный файл.

Суть обратного файла состоит в том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а затем для каждого слова записывается группа чисел, указывающих на то, в каких документах оно встречается, насколько часто, а также кое-какая служебная информация.

Информационные объекты нетекстового характера (графика, видео, аудио) также могут идентифицироваться и быть представлены в соответствующих базах данных.

Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.

Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода:

пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом таге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой;
либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка.

Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.

Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и немедленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом.

Система анализирует ключевые слова, которые клиент использовал в запросе. С ними производятся те же операции освобождения от зарезервированных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поисковых систем происходят примерно одинаково, но самая последняя операция, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования результирующего списка.

Если найдено очень много ссылок на ресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесь важно, какие ссылки дать в начале списка, а какие — в конце, то есть, надо вводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговые системы. При исчислении рейтинга учитывается множество параметров. За некоторые начисляются положительные баллы, а за некоторые — наоборот штрафные. Положительный рейтинг начисляется при следующих обстоятельствах:

если разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);
если они расположены близко к началу страницы;
если эти слова присутствуют в заголовке страницы;
если Web-страница имеет иллюстрацию, альтернативный текст которой тоже содержит слова, введенные пользователем.

Лучшие поисковые системы недавно ввели новый подход к рейтингованию. Они учитывают количество ссылок в проиндексированном пространстве Web, ведущих к данному ресурсу. Это естественно, ведь чем больше публикаций ссылаются на данную страницу, тем она популярнее и тем выше вероятность того, что она будет полезной автору запроса. В традиционном библиотечном деле такой подход известен. Например, в США давно издается многотомный ежегодный «Индекс цитирования» (Citational Index), в котором каталогизируются ссылки разных авторов на первоисточники. Это непростой технически, но очень полезный для клиентов метод индексации ресурсов.

§ 3. Критерии качество поиска.

У каждого из двух основных типов поисковых служб есть достоинства и недостатки. Поисковые каталоги формируются вручную с помощью живых людей. Поэтому если находим в них нужный ресурс, то этот ресурс — один из лучших в Сети. Он не обязательно самый лучший и, может быть, лишь входит в первую двадцатку, но он явно не случаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога, имеющие солидное образование в большинстве областей науки, техники и культуры, не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее и тем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный в разных местах или проиндексированный в разное время. Таким образом, если надо быстро найти лучший источник по какой-то теме, надо начинать поиск с поискового каталога.

Недостатком поисковых каталогов является их слабое знание о подлинных ресурсах WWW, которое с каждым днем падает в относительном измерении. Крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанных ресурсов до миллиона, в то время как каждый год появляются сотни миллионов новых Web-страниц.

Поисковые указатели черпают свою исходную информацию от поисковых роботов, день и ночь ползающих по просторам WWW. Процесс сбора информации полностью автоматизирован, поэтому объем проиндексированного пространства намного больше, чем у поисковых каталогов. Сегодня этот показатель превышает 25% общего пространства Сети. С другой стороны, отсутствие человеческого фактора сказывается на качестве того, что можно найти через поисковые указатели. Для робота совершенно все равно, написана ли статья по физике академиком или школьником. При рейтинговании робот может даже поставить страницу школьника выше.

Поэтому поисковые каталоги лучше использовать для ознакомительного поиска, когда тема известна, а предпочтений нет. Каталог быстро выведет на Web-узел, на котором либо найдете то, что хотели, либо получите ссылки на другие полезные ресурсы. А поисковые указатели стоит использовать для более глубоких или экзотических розысков.

Достоинства поисковых каталогов являются недостатками поисковых указателей и наоборот. Основных параметров, с помощью которых оценивают качество поисковых систем, всего два: коэффициент попадания и коэффициент охвата.

Коэффициент попадания показывает, какой процент ссылок, выданных поисковой системой, действительно относится к той теме, которая интересует клиента. Для поисковых каталогов этот коэффициент очень высок. Поскольку их составляют люди, появление «мусорной» ссылки — редкость. Обычно она возникает только когда за время, прошедшее после регистрации, Web-страница перестает существовать. Для каталогов этот коэффициент составляет порядка 70-80%, не должен быть менее 50%.

Для поисковых указателей этот коэффициент печально низок. Если не предпринимать специальных мер, он составляет единицы процентов. Причина лежит, во-первых, в том, что автоматические средства не могут точно выявлять тематическую принадлежность Web-страниц на основе формальных признаков, а во-вторых, в том, что большинство клиентов не умеют пользоваться всеми возможностями поисковых систем и формируют задание на поиск далеко не оптимально.

Коэффициент охвата показывает, насколько база данных поисковой системы отражает истинное количество информации, имеющейся по данной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из них имеют коэффициент охвата порядка 25%. Поисковые каталоги, наоборот, не охватывают и одного процента всех наличных ресурсов.

С точки зрения пользователя качество поиска означает стремление получить как можно больше ссылок по интересующей его теме, но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющих прямого отношения к объекту поиска. Пользователь желает, чтобы каждый из коэффициентов был близок к 100%. Его субъективная оценка качества поисковой системы напоминает произведение коэффициента попадания на коэффициент охвата. Сегодня же и для поисковых каталогов, и для поисковых указателей это произведение составляет десятые доли процента.

В стремлении повысить качество работы поисковых служб есть попытки совместить оба подхода. При этом возможны два варианта: поисковые каталоги привлекают возможности поисковых указателей, переадресовывая им запрос. Например, до последнего времени поисковый каталог Yahoo! переадресовывал особо сложные запросы поисковому указателю Alta Vista.Сегодня Yahoo! привлекает средства другого партнера — Inktomi.

Анализ технологий поиска информации в WWW 📙 Курсовая → 🆔 20564