Организация профессионального поиска в сети Интернет
Содержание
Введение…………………………………………………………
1. Типы поисковых систем…………………………………………………….4
1.1. Поисковые каталоги…………………………………………………...
1.2. Поисковые машины…………………………………………………….5
2.Принцип работы поисковых машин…………………………………….....7
2.1.Google……………………………………………………
2.2.Rambler……………………………………………..
3. Советы по формированию запросов………………………….……….....17
Заключение……………………………………………………
Приложение
1.........……………………………………………………
Приложение
2.............................
Список
используемой литературы....................
Введение
В настоящее время, по оценкам специалистов, на веб-серверах Интернета размещено несколько миллиардов веб-страниц, содержащих информацию практически по всем сферам человеческой деятельности. Получение доступа к нужной информации в том случае, если известен адрес веб-страницы или веб-узла, не вызывает затруднений – достаточно ввести этот адрес в соответствующее поле обозревателя, и через некоторое время страница отобразится в его окне. Другое дело, если адрес пользователю неизвестен. Можно конечно в поисках нужных адресов покопаться в специальных изданиях – различных «белых» и «желтых страница Интернета». Однако печатные издания часто содержат устаревшую информацию. Кроме того, что просмотреть информацию даже о миллионе страниц, не говоря уже о миллиардах - совершенно немыслимое дело.
Проблема поиска во Всемирной паутине очень сложная, так как информация разбросана по миллионам веб-серверов, которые находятся во всех концах земного шара. Тем не менее, в настоящее время существуют системы, обеспечивающие пользователя средствами достаточно быстрого поиска в Паутине нужной ему информации. Для поиска информации на веб-серверах разработано несколько десятков различных поисковых систем, обладающих разными возможностями по заданию образцов поиска, созданию запросов, а также разными множествами просматриваемых узлов и страниц.
Итак,
в своей работе я хотела рассмотреть различные
типы и принцип действия поисковых систем.
1.Типы поисковых систем
За
время существования Интернета
предпринимались различные
Фактически, поисковая система (поисковик) является специализированным веб-сервером, на котором постоянно накапливается информация о веб-страницах и сайтах, находящихся на обычных веб-серверах Интернета. Эта информация в специальном кратком виде сохраняется и периодически обновляется на дисковых устройствах системы. Любой пользователь может обратиться к поисковому серверу и сформулировать запрос на поиск нужной информации. Поисковая система, просматривая свои диски, находит и пересылает пользователю обнаруженные адреса веб-страниц, которые содержат нужную информацию.
1.1.Поисковые каталоги
Все поисковые системы делятся на две большие группы: поисковые каталоги и поисковые машины. Поисковые каталоги представляют собой огромные базы данных, которые содержат адреса веб-узлов по всему информационному пространству Интернета. Эти базы данных созданы и периодически обновляются людьми – специалистами в области систематизации веб-ресурсов. Каталоги организованы в иерархическую многоуровневую структуру – рубрикаторы – и предоставляют пользователям два способа поиска информации. Первый способ напоминает перемещения по списку ресурсов (каталогам и подкаталогам) в окне Проводника операционной системы Windows. На стартовой странице поискового каталога выбирается тема, рубрика верхнего уровня, и после щелчка по названию этой темы в окне отображается список разделов, тем следующего уровня.
Второй способ работы с поисковыми каталогами предусматривает выбор нескольких слов, которые существенно отображают смысл запрашиваемой информации. Такие слова принято называть ключевыми. Далее поиск в каталоге напоминает поиск в документе редактора Word: ключевые слова вводятся с клавиатуры в специальное поле веб-страницы поискового каталога, делается щелчок по кнопке Поиск. Специальные механизмы автоматически просматривают все уровни каталогов и сообщают пользователю найденные адреса.
Наиболее популярными поисковыми каталогами в настоящее время в России считаются: один из крупнейших в мире англоязычный каталог Yahoo! (http://www.yahoo.com), а также отечественные каталоги MavicaNet (www.mavicanet.ru), Каталог@Mail.ru (list.mail.ru) и Иван Сусанин (wwwalt.susanin.net).
1.2.Поисковые машины
Принцип действия поисковых машин отличается от принципа действия поисковых каталогов. Поисковые машины включают в себя базу данных, поля записей которой содержат адреса веб-страниц, ключевые слова, встречающиеся на этих страницах, и другую информацию, позволяющую охарактеризовать содержимое страниц. Кроме того, в состав поисковой системы входит обязательная программа – поисковый робот, или Spider (паук). Задача поискового робота – в автоматическом режиме просматривать веб-узлы Интернета и при обнаружении ссылки на какую-либо веб-страницу запоминать в специальной таблице – индексе базы данных – её адрес и остальные её характеристики. Такие системы поиска в условиях бурного роста количества веб-страниц непрерывно отслеживают их содержимое, тщательно «прочёсывая» их с помощью своих агентов – «пауков», которые просматривают и индексируют все вновь поступившие страницы. Пользователь, Обращающийся к поисковым машинам, по специальным правилам формулирует запрос, в соответствии с которым осуществляется просмотр индексов. Найденные адреса веб-страниц пересылаются пользователю, направившему запрос.
В настоящее время наиболее популярными поисковыми машинами являются: Google (http://www.google.com) (также ищет веб-сайты в русскоязычном сегменте), Alta Vista (http://www.altavista.com), Northern Light (http://northernlight.com). К лучшим отечественным поисковым серверам относятся: Яндекс (http://www.yandex.ru), Rambler (http://rambler.ru) и Апорт (http://www.aport.ru).
Разные поисковые узлы обладают разными скоростями поиска, разными сферами охвата информационного пространства и разными периодами обновления базы данных. Следует отметить, что поисковая система Google располагает в настоящее время самой большой в мире базой данных, насчитывающей свыше трех миллиардов проиндексированных веб-страниц. Кроме того, результаты многих независимых экспертных оценок показывают, что по скорости поиска системе Google в настоящее время практически нет равных.
Внешний вид, точнее, графическое оформление домашних страниц поисковых серверов, может быть самым разным. Но в любом случае в окне имеется так называемая поисковая форма, содержащая как минимум поле ввода запроса и расположенную рядом кнопку Найти (или Поиск).
Правила работы с поисковыми системами в общих чертах похожи на правила поиска в редакторе MS Word и отличаются друг от друга в деталях. Обычно эти правила приведены в справочных подсистемах поисковых серверов, для доступа к которым следует найти на домашней странице сервера гиперссылку Помощь (Справка, Help) и щелкнуть по ней.
2.Принцип работы поисковых машин
Рассмотрим правила формирования запроса. В простейшем случае он представляет собой слово или последовательность разделенных пробелами ключевых слов, которые должны находиться в разыскиваемых документах. Последовательность может быть осмысленным сочетанием слов, целым предложением или просто набором важных слов, присутствие которых обязательно. Пример запроса, сформулированного в виде целого предложения: Кто получил Нобелевскую премию по литературе в 2001 году? Этот запрос можно сформулировать и как последовательность ключевых слов: Нобелевская премия литература 2001 год. Отметим, что порядок следования ключевых слов в запросе и их грамматическая форма большого значения не имеют. Можно дать такой запрос: литература 2001 Нобелевская год премия.
Отметим, что большинство поисковых машин не различают заглавных и строчных букв в поисковых запросах. Поэтому запросы, содержащие ключевые слова Нобелевская или нобелевская, приведут к одинаковому результату.
Независимо от того, в какой грамматической форме слово входит в запрос, поиск учитывает все его формы по правилам русского языка. Например, если в запросе встретилось слово идти, в результате поиска будут найдены ссылки на документы, содержащие слова идти, идет, шел, шла и т. д.
Поисковые машины игнорируют в запросе союзы и предлоги (кто, где, как, по, на и т. д.). Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в запрос, необходимо использовать специальные символы.
Для создания более сложных запросов, в которых предусматривается фильтрация по языку, по срокам изменения веб-страницы, по месту расположения образца поиска в документе и т. д., следует щелкнуть по гиперссылке Расширенный поиск. Для получения подробной информации о правилах составления расширенных запросов можно обратиться к справочной системе сервера.
Сформулированный
запрос следует ввести в поле запроса
на любой странице поискового сайта, а
затем щелкнуть по кнопке Найти (Поиск)
или нажать клавишу Enter. Поисковая машина
отберет соответствующую запросу информацию
и перешлет результат его выполнения пользователю.
2.1.Google
Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 4,2 миллиардов web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.
Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.
Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.
Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу http://www.google.com.ru/. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.
Итак, Google как и большинство поисковых машин не различает заглавных и строчных букв в поисковых запросах, а также игнорирует в запросе союзы и предлоги. Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в запрос, необходимо использовать символ «+». Например, чтобы найти информацию о Петре Первом в запросе следует указать: Петр +I. Обратите внимание на необходимость пробела между Петр и +. Знак + акцентирует поисковые механизмы на отбор документов, которые обязательно содержат следующее за ним слово. Например, в ответ на запрос частные объявления продажа велосипедов попадет много ссылок на веб-узлы с разнообразными частными объявлениями. А в ответе на запрос частные объявления продажа +велосипедов останутся только объявления о продаже именно велосипедов.
По умолчанию считается, что все ключевые слова запроса связаны логической операцией И(+), то есть все ключевые слова должны присутствовать на веб-странице одновременно. Это не значит, что слова обязаны располагаться подряд и в том порядке, в котором они перечислены в запросе. Важен факт наличия слова в любом месте веб-страницы. И если все указанные в запросе ключевые слова где-нибудь, в каком угодно порядке обнаружатся на веб-странице, она будет считаться соответствующей запросу.
Поисковая машина Google поддерживает логическую операцию ИЛИ. Эта операция в запросе обозначается словом OR. Например, для поиска страниц, которые должны содержать либо слово фонд, либо слово общество, следует составить такой запрос: фонд OR общество. В результате будут отобраны веб-страницы, которые содержат либо слово фонд, либо слово общество, либо оба слова вместе.
Чтобы отобрать документы, в которых отсутствует какое-либо ключевое слово, перед ним нужно поставить знак «минус». Если, например, требуется туристическое описание Парижа, а не предложения многочисленных туристических агентств, можно сформулировать запрос следующим образом: путеводитель Париж -агентство -турист. Обратите внимание на правила записи знаков «+» и «-» в запросе. Эти знаки надо писать через пробел от предыдущего и слитно с последующим словом, например: рак -гороскоп. Если написать рак-гороскоп или рак - гороскоп, знак «-» будет проигнорирован.
Словосочетания, которые должны находиться в отыскиваемых документах, необходимо заключать в кавычки. Например, по запросу «красная шапочка» будут найдены документы именно с этой фразой, в которой эти слова идут строго подряд и в указанной грамматической форме. Документ, содержащий предложение «а шапочка у нее была красная», найден не будет.
Google
имеет в своем арсенале
Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.
Помимо
поиска текстовых материалов, Google обладает
лучшими на сегодня возможностями поиска
иллюстраций с помощью режима "Поиск
изображений" (Images, "Картинки").
В его базе данных учтено более 880 тысяч
иллюстраций, разыскание которых ведется
аналогично поиску текстовых документов
с возможностью ограничения определенным
размером, форматом или цветностью графических
файлов - все через опцию "Расширенный
поиск изображений".
2.2.Rambler
Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию в Рамблере результаты ранжируются по степени соответствия запросу и группируются по сайтам.
Полнота поиска в большой мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой. В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.
Точность - одна из основных характеристик поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова ("красная баба кричала на всю площадь"), то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречается, тем реже найденные документы не соответствуют запросу.
Повышение точности в поисковой машине Рамблер достигается за счет использования различных технологий на всех этапах обработки и поиска информации. Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы. Примерами грамматических омонимов могут служить слова "печь" - существительное русская "печь" и глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов.
Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.
Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Rambler приходит около 60 запросов в секунду.
Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). Знание и правильное применение языка запросов поисковой машины поможет сделать поиск на Рамблере быстрым и эффективным.
В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.
Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
Два запроса, соединенные оператором AND (сокращенное обозначение &) (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака AND кошка найдутся только те документы, которые содержат и слово собака, и слово кошка.
Сложному запросу, состоящему из двух запросов, соединенных оператором OR (| ) (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу собака OR кошка найдутся документы, в которых есть хотя бы одно из слов собака или кошка (либо оба эти слова вместе).
Оператор NOT (!) (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу собака NOT кошка будут все документы, в которых есть слово собака и нет слова кошка.
Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос информация технологии кредит будет истолкован как информация AND технологии AND кредит. На странице Расширенного поиска оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).
Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.
Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.
Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу самолет «заправился» посадка удовлетворяет документ, содержащий текст самолет совершил посадку и заправился, и не удовлетворяет документ, содержащий самолет совершил посадку, чтобы заправиться.
При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки.
Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.
Если запрос без скобок машина самолет | аэродром эквивалентен запросу машина AND самолет OR аэродром и, в соответствии с приоритетами операторов, означает «найти документы, содержащие либо слова машина и самолет, либо слово аэродром», то запрос со скобками машина (самолет | аэродром) равносилен запросу машина AND (самолет OR аэродром), что означает «найти документы, содержащие слово машина и одно из слов самолет или аэродром».
Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу красная армия будут найдены те документы, в которых слова красная и армия хотя бы один раз встретятся менее чем в 40 словах друг от друга.
Значение ограничения контекста можно изменять конструкцией (число, запрос), где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу (2, красная армия) найдутся только те документы, в которых между словами красная и армия хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1.
Рамблер позволяет искать страницы, на которых размещены счетчики Top100, TopShop, TopList, SpyLog, а также HotLog. Для того, чтобы найти в интернете все страницы, на которых размещен счетчик с заданным идентифтикатором, используйте оператор ${counter=ID}, где counter - название счетчика (top100, topshop, toplist, spylog или hotlog), а ID - номер счетчика (идентификатор ресурса).
Пример:
для того, чтобы найти в Интернете все
страницы раздела Рамблер-Открытки (идентификатор
Top100 - 193680), подайте Рамблеру запрос ${top100=193680}.