Отечественные и зарубежные поисковые системы



РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ СОЦИАЛЬНЫЙ УНИВЕРСИТЕТ

Факультет информационных технологий

Кафедра социальной и педагогической информатики

 

 

 

 

 

 

 

 

«Отечественные и зарубежные поисковые системы».

Реферат по дисциплине «Информационные технологии в образовании»

 

 

 

 

 

 

 

 

 

Выполнила студентка 1 курса

ПОИ – Д – Б – 1 Бизюкина Анастасия

Проверил к.п.н., доцент Ежова Г.Л.

 

 

 

 

 

 

 

 

 

 

 

 

 

Москва 2012

Содержание

Введение

Отечественные поисковые системы.

Яндекс

Рамблер

Апорт

Зарубежные поисковые системы

Google

MSN

Заключение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу).

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

По своей сути поисковые системы, каталоги и метапоисковые системы являются специализированными базами данных, в которых хранится информация о других сайтах Internet. От традиционных информационных систем они отличаются тем, что хранят не сами документы, а информацию о документах и ссылки на них. В ответ на запрос пользователя выдается список адресов, где может присутствовать запрашиваемая информация. Обычно поиск производится по словам и фразам, однако в некоторых «продвинутых» системах и каталогах можно составлять весьма сложные запросы на специальном языке.

Для простоты восприятия информации о классификации поисковых систем была составлена следующая схема:

Ранжирование по группа производилось по следующим признакам: форма и способ занесения информации о сайтах и возможности, предоставляемые для нахождения необходимой информации.

В самую обширную зону А входят сайты с примитивными каталогами. Сайты в этих каталогах либо вообще не сортированы, либо сортировка производится по нескольким общим группам.

В каталогах (зона В) информация о сайтах Internet, так же как в подборках, упорядочена по категориям специально разработанного дерева-рубрикатора, но, в отличие от предыдущего случая, в них имеются механизмы поиска информации по запросам. В основную массу каталогов информация заносится авторами сайтов, сообщающими о себе при регистрации необходимые сведения. Как правило, работа поисковых механизмов ограничивается поиском лишь в кратких аннотациях сайтов.

Особого внимания заслуживают современные каталоги (зона С), отличающиеся расширенной, а иногда и полной индексацией содержимого сайтов и мощными механизмами контекстного поиска в индексных базах.

Основное отличие поисковых систем (зона D) от каталогов - автоматический «робот», или «паук», который постоянно сканирует Internet, ищет в нем новые сайты, накапливает эту информацию в индексных файлах базы данных. Информация в Internet-каталоги, так же как в традиционные библиотечные, заносится либо авторами новых сайтов, либо обслуживающим персоналом каталога. Пользование поисковыми системами и каталогами абсолютно бесплатно, вот почему в настоящее время это самый доступный и демократичный вид информационных ресурсов.

Опишем основные характеристики поисковых систем:

Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.

Состав и принципы работы поисковой системы.

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

URL страницы

дата, когда страница была скачана

http-заголовок ответа сервера

тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

В своей работе я расскажу о таких поисковых системах, как: «Яндекс», «Рамблер», «Апорт», «Google» и «MSN».

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отечественные поисковые системы.

Яндекс

Яндекс — это крупнейший российский портал, предлагающий пользователям ключевые интернет-сервисы. По данным исследовательских компаний Gallup Media, ФОМ и Комкон, он является самым большим ресурсом в Рунете по объему аудитории.
Среди служб Яндекса — поиск в Интернете и каталог сайтов, платежная система и последние новости, карты и энциклопедии, электронная почта и система фильтрации спама (Спамооборона), бесплатный хостинг (Народ) и каталог товарных предложений магазинов (Маркет), а также многое другое.
Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Яндекс не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос — так же, как бы вы его задали библиотекарю или всезнайке-эрудиту. Например, звезда мирового футбола или контекстная реклама на Яндексе.

Независимо от того, в какой форме вы употребляете слова в запросе, поисковая система будет искать все формы слов. Например, по запросу [дизайн], Яндекс будет искать и «дизайном», и «дизайна» и т.д.. Это называется учетом морфологии языка. При необходимости вы всегда можете его отключить.

Яндекс хорошо понимает как односложные запросы, так и запросы из нескольких слов и способен самостоятельно их интерпретировать. Он знает, в каких случаях надо искать страницы, в которых слова запроса расположены рядом, а когда словам достаточно встретиться в одном документе, чтобы страница была хорошим ответом на вопрос.

При желании вы можете сами руководить действиями поисковой системы. Для этого существует расширенный поиск и язык запросов, который состоит из команд-операторов. С помощью языка запросов вы можете дать поиску дополнительные указания, что и где нужно искать.

 

Рамблер

Поисковая систем Рамблер уже давно превратилась в мега-портал и имеет очень большой набор сервисов. По данным SpyLog на Рамблер приходится около 20-25% поисковых запросов в Рунете.

При поиске Рамблер учитывает морфологию русского языка. Данная поисковая машина, как и многие другие, имеет расширенный поиск, что дает возможность задавать дополнительные параметры поиска. Так же имеется язык поисковых запросов. Регистр поисковых запросов учитывается лишь в некоторых случаях. Для поиска цитат можно использовать двойные кавычки. По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова. Имеются специальные операторы которые позволяют искать страницы, на которых размещены счетчики Top100, TopShop, TopList, SpyLog, а также HotLog. В помощи Рамблера вы сможете найти подробное описание языка запросов и расширенного поиска.

Пользователям поисковой системы Рамблер доступен новый механизм ассоциаций. Набрав в поисковой строке нужное слово, вы кликаете на окно "найти". Открывается так называемая ответная страница, в которой найденные документы расположены в порядке убывания релевантности (соответствия запросу). На этой же странице в самом низу - строка "У нас также ищут". В ней приведено несколько слов и словосочетаний, тематически (ассоциативно) связанных с вашим исходным запросом.

Паук-робот Рамблера (называется StackRambler) довольно медлительный робот, ускорить движения этого робота по сайту возможно участием в ТОП100 Рамблер.

 

 

 

 

 

 

 

Апорт

Поисковая система Апорт является одной из популярных поисковых машин российского Интернета. Апорт позволяет пользователям осуществлять полнотекстовый поиск документов c учетом морфологии русского языка в запросах. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов. Техническая база и программное обеспечение Апорта постоянно совершенствуются, что ведет к наращиванию объема поисковой базы и обеспечению высокой частоты индексации русскоязычных ресурсов Интернета. Разнообразные специализированные поиски дают пользователям дополнительные возможности находить различную информацию в Сети. В поисковую машину интегрирован один из крупнейших в Рунете каталогов интернет-ресурсов "Апорт.Каталог".

Критерии ранжирования
Апорт применяет следующие критерии при ранжировании документов:

       частота и взаимное расположение слов запроса в тексте документа;

       размер документа;

       присутствие и взаимное расположение слов запроса в выделенном (размером шрифта или html-тегами <b>, <strong>, <h1>...<h6>) тексте;

       присутствие и расположение слов запроса в заголовке документа;

       присутствие и расположение слов запроса в мета-тегах "keywords" и "description";

       присутствие и расположение слов запроса в ссылках на ранжируемый документ и авторитетность этих ссылок;

       присутствие и взаимное расположение слов запроса в названии и описании сайта в каталоге Апорта (учитывается при вычислении веса главной страницы сайта);

       взвешенный индекс цитирования документа;

       количество страниц сайта, имеющих высокую релевантность запросу.

       Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев. 

 

Зарубежные поисковые системы

Google

Google (от Googol – число со ста нулями после единицы) – одна из самых популярных во всем мире поисковых машин. Google обеспечивает поиск по гипертекстовым документам, находящихся в любых языковых зонах - английской, русской, украинской, немецкой и др. Поисковая система Google имеет собственные поддомены для большинства стран, например, для России. Google ищет не только гипертекстовые файлы (html), но и файлы в формате PDF, DOC, PostScript, Corel WordPerfect и др.

Поисковая система Google обладает очень качественным поисковым "движком". Правильность выдачи результатов поиска в Google часто превышает качество выдачи результатов поиска у русских поисковых систем, например, у Яндекса. Именно поэтому все больше пользователей начинают переходить на Google. В своей системе Google использует механизм PageRank, изменяющий "важность" сайта при выдаче результатов поиска. PageRank зависит от количества и качества ссылок на ресурс (т. е. почти то же самое, что и индекс цитирования у Яндекса). Но в отличие от Яндекса, влияние PageRank у Google не настолько значительно, поэтому люди в Google находят именно то, что и ищут.

Все страницы Google кэширует (заносит в свою базу) и разрешает человеку, производящему поиск, смотреть документ, не открывая его в первоисточнике, а беря из кэша Google (что часто намного быстрее). Google - одна из немногих поисковых систем, которая полностью индексирует все страницы, а не только самые главные.

Поисковая система Google обладает также возможностью поиска изображений. Количество изображений огромно, потому что Google индексирует большинство сайтов в мире. Строку поиска в Google можно также использовать и как калькулятор. Google разрешает настроить каждому пользователю язык интерфейса поисковой машины, выбрать языковые зоны для поиска, количество сообщений при выдаче результатов и др.

Пользователи Microsoft Internet Explorer могут установить себе программу Google Toolbar, которая создает новую панель инструментов, позволяющую искать в Google, не заходя на сам сайт. Пользователи браузеров Opera и Firefox уже имеют подобную встроенную панель.

MSN

MSN search поддерживается Microsoft и размещается по адресу http:/ /search.msn.com. Эта поисковая система не имеет собственного паука (поискового робота) или каталога, она использует данные из Inktomi, LookSmart, Direct Hit. MSN особенно важна т.к. именно эта поисковая система по умолчанию используется, когда пользователи Internet Explorer(а) вводят в адресную строку поисковый запрос. MSN также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов. 

MSN использует базу данных Inktomi, имя ее паука: Slurp, но эта база данных сейчас содержит более более 550 миллионов URL и не известно, какую часть использует MSN. Известно, что из базы данных LookSmart используется около 2 миллионов URL. MSN локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. 

Алгоритм ранжирования результатов

Т.к. MSN использует внешние данные для обработки поисковых запросов, то можно выделить наиболее влияющие на релевантность факторы:

       Расположение ключевых слов

       Click Popularity (популярность ресурса)

       Текст ведущих на сайт, и ведущих с сайта сылок.

MSN предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности. Настроить эти опции можно в разделе Advanced.
Партнеры MSN Search: 
- LookSmart
- DirectHit
- Inktomi. 
Также имеется договоренность с RealNames, относительно ключевых слов. Т.е. если пользователь делает поисковый запрос в Internet Expolrer и в запросе содержится ключевое слово RealNames, то пользователь будет автоматически напрален на соответствующий сайт. Результатов поиска от RealNames в MSN Search, кажется не видно. 

 

Заключение

Теперь подытожим все вышесказанное. Поисковая система – необычайно сложная и закрытая структура. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. Поисковик проводит поиск по своей базе и выдает страницы в порядке их релевантности запросу, то есть соответствия. Если пользователь ввел несколько слов, то чем ближе те слова будут друг к другу в тексте, тем релевантнее будет страница, она больше подходит к запросу.

На сегодняшний день, самой большой популярностью пользуются две поисковые системы: yandex.ru и google.com. Я же сделала свой выбор в пользу самой популярной в мире поисковой системы, Google.

11



Отечественные и зарубежные поисковые системы