Поисковые системы. Традиционные и новейшие алгоритмы поиска информации

Министерство  образования и науки Российской Федерации

Федеральное агентство по образованию

Государственное образовательное учреждение

высшего профессионального  образования 
 

Контрольная работа по информационным системам

на тему: «Поисковые системы. Традиционные и новейшие алгоритмы поиска информации.» 
 

                                                                                           
 
 
 
 
 
 

Иваново – 2009 

Содержание

  1. Введение……………………………………………………………………………………………..3
 
  1. Поисковая система………………………………………………………………………………3
 
  1. Исследование  модели поведения пользователей  при работе с поисковыми системами………………………………………………………………………4
 
  1. Обзор алгоритмов работы поисковых систем…………………………………..16
 
  1. Алгоритмы поиска………………………………………………………………………………19
 
  1. Заключение…………………………………………………………………………………………23
 
  1. Список источников……………………………………………………………………………..25
 

 

Введение.

Поисковые системы Интернета, пожалуй,  один из способов двигаться вперед по направлению  развития и совершенствования. Развиваясь, сами Поисковые системы развивают  все остальное вокруг себя выгодно  принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим.

Как и во всех других отраслях, в Интернете  существуют свои лидеры, которые прошли испытание временем и добились каких  либо значимых результатов, что в  свою очередь позволило занять определенные ниши и позиции в мировой паутине. Поисковые системы Интернета, словно огромные столпы на которых держится весь процесс движения.

Конечно, много  может быть несовершенно как в  поиске, так и в технологиях, и в наши дни, несмотря на то, что уже достаточная доля Интернет трафика имеет свои предпочтения, все же в Интернете появляются новые поисковые системы, которые, к сожалению так и остаются неизвестными, уходя в неизвестность.1

Поисковая система.

Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Как правило, основной частью поисковой системы  является поисковая маши́на (поисковый движок) - комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, т.е. уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.

Улучшение работы поисковых систем — это  одна из приоритетных задач сегодняшнего Интернета.

По данным компании Net Applications в декабре 2007 года рыночная доля Google в мире составляла 77.04 %, Yahoo — 12.46 %, MSN — 3.33 %, Microsoft Live Search — 2.57 %, AOL — 2.12 %, Ask — 1.38 %, AltaVista — 0.13 %, Excite — 0.07 %, Lycos — 0.02 %, All the Web — 0.02 %.

По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд. 221 млн. поисковых запросов. Яндекс попал в статистику и находится на 9-ом месте.

Исследование  модели поведения  пользователей при  работе с поисковыми системами

Главный вопрос для заказчиков поисковой  оптимизации - «Как оценить качество оказанной услуги?». Суть этого вопроса - проблема эффективности затрат на поисковую оптимизацию, а также  выявление проблем и путей  их решения.

Этот же вопрос не менее актуален и сложен для самих оптимизаторов. Им важно  убедить своих клиентов в том, что предоставляемые ими услуги оптимальны для них и наиболее выгодны. Один из ключевых критериев  качества SEO-услуг - количество переходов  пользователей Интернета с поисковых  машин.

В исследовании использовали еженедельную статистику по 15 000 поисковым запросам в трех наиболее популярных в Рунете поисковых  системах («Яндекс», «Рамблер», Google) для 5500 сайтов, которые составили 58 000 пар сайт-запрос.

Для исследования были отобраны навигационные запросы, составившие 80% от общего числа фраз, и 20% транзакционных запросов. Информационный тип запросов не учитывался. При  этом следует отметить явно выраженную принадлежность отобранных запросов к  определенным тематикам, что повлияло на построение графиков среднего CTR в  результатах поиска.

Цели исследования:

Сравнение популярности ряда тематик в различных  поисковых системах.

Выявление закономерностей в распределении  трафика по позициям поисковой выдачи.

Определение влияния аннотаций (сниппетов) на модель поведения пользователей при работе с поисковой выдачей.

Определение влияния популярности запросов на изменение  модели поведения пользователей  при работе с поисковыми системами.

Для получения  результатов использовались различные  методы математической статистики и  линейной алгебры.

1. Популярность  поисковых систем. Так ли все  просто?

Многие знакомы  со статикой популярности поисковых  систем, она фигурирует в ряде статей на сайтах и в журналах.

Ниже приведена  статистика популярности поисковых  систем в России, предоставленная Liveinternet.ru за июль 2007 года:

Большинство заказчиков услуг поисковой оптимизации  в России, опираясь на данные этой статистики, ставят перед оптимизатором целью  улучшение позиций сайта только в «Яндексе». Но так ли верно считать, что весь Рунет подчинен усредненным и обобщенным данным, а большая часть поискового интернет-трафика создается только «Яндексом»?

Решено проанализировать трафик, идущий с поисковых систем по различным запросам. Опираясь на данные счетчика Liveinternet.ru по поисковым фразам и тематикам, видно, что многие тематики и запросы в них не подчиняются общей статистике.

Примеры нескольких запросов и тематик, где популярность поисковых систем имеет совершенно другой вид, чем в общей статистике:

Как видно  из приведенных диаграмм, не для  всех тематик и не для всех запросов справедлива общая статистика популярности поисковых систем.

Популярность  Google при поиске известных личностей достаточно легко объяснить. Google всегда на первых строчках поисковой выдачи старается показать базы знаний - Википедию и другие. Каждый, хотя бы раз пользовавшийся Google при поиске подробной информации об интересующей персоне, скорее всего, отдаст предпочтение последнему.

Примеры наглядно показывают, что концентрировать все свое внимание только на «Яндексе» для многих запросов ошибочно. У каждой поисковой системы своя аудитория, значительно отличающаяся от аудиторий других поисковых систем. Даже для разных запросов одной и той же тематики приоритеты и интересы пользователей поисковых систем могут варьироваться.

2. Модели  поведения пользователя при работе  с поисковыми системами.

Самым интересным во время проведения исследования было получить обобщенную модель поведения  пользователей при работе с поисковыми системами, выраженную в числовом вероятностном  эквиваленте.

Опираясь  на результаты нескольких вычислений, в которых использовали различные  математические модели, получили ряд коэффициентов вероятностей для позиций в результатах поиска. Эти коэффициенты в обобщенном виде можно представит следующими графиками:

Особая модель поведения пользователей при  работе с «Рамблером» формируется  из-за того, что «Рамблер» по умолчанию  выводит на экран 15 результатов поиска, а не 10, как остальные поисковики.

График показывает усредненную вероятность клика  по той или иной позиции. Использовать приведенные на графиках данные для  подсчета трафика было бы неверным, так как диапазон колебания значений вероятности клика очень велик  по сравнению с самой величиной  вероятности клика по той или  иной позиции.

3. Видимость  или трафик?

Ранее компанией  Enquiro research было опубликовано исследование распределения внимания пользователей поисковых систем, проведенное компаниями Did-it, Enquiro и Eyetools в 2005 году. В результате этого исследования были получены коэффициенты распределения внимания по поверхности экрана при работе с поисковыми системами:

1, 2 и 3-я  позиции - коэффициент 1

4-я позиция  - 0,85

5-я позиция  - 0,6

6 и 7-я  позиция - 0,5

8 и 9-я  позиция - 0,3

10-я позиция  - 0,2

Приведя коэффициенты усредненного распределения вероятности  кликов по позициям в поисковой выдаче к единичной шкале, получили следующие  графики:

Очевидно, что  график распределения вероятности  клика не соответствует данным о  распределении зон внимания пользователя при работе с результатами поисковой  выдачи. Причиной тому - ряд психологических  факторов, которые влияют на решение  нажать на ту или иную ссылку в выдаче.

К таким  факторам можно отнести то, что:

снижение  доверия к результатам выдачи у среднестатистического пользователя Интернет не совпадает с распределением его внимания по позициям, так как  результаты работы поисковых систем пользователями, скорее всего, оцениваются  как независимый рейтинг. А все, что находится в рейтинге, заслуживает  внимания, независимо от того, на первой, пятой, или десятой позиции находится  сайт. То есть основное внимание пользователя приковано к первым пяти результатам  поиска, но вероятность клика по позициям распределена более равномерно. Иногда пользователь делает несколько  кликов по результатам поиска, чтобы  сравнить разные предложения, особенно при вводе транзакционных запросов.

Люди, перед тем как кликнуть на ту или иную ссылку, читают текст ссылок и аннотации к ним, и только потом принимают решение о клике, что существенно может изменить картину распределения внимания при работе с поисковой выдачей и вероятностей кликов.

4. Зависимость  количества трафика от тематики.

Предположив, что распределение вероятности  кликов по результатам выдачи зависимо от того, к какой тематике относится  запрос, мы разделили изучаемые нами сайты на тематики. Всем запросам, по которым были зафиксированы переходы на эти сайты с поисковых систем, присвоили те же тематики, что и  сайтам.

В результате, разделив запросы на группы, получили следующие графики, наиболее наглядно отражающие влияние тематики на модель поведения пользователя при работе с поисковыми системами:

Для каждой из приведенной на графике тематики есть запросы, для которых распределение  вероятности клика имеет другой вид, но в целом для выбранных  нами в исследовании поисковых фраз графики верны.

Из полученных графиков хорошо видно, что вероятность  распределения кликов по результатам  поисковой выдачи очень сильно зависит  от тематики запроса.

5. Влияние  качества сниппета на распределение вероятности переходов с поисковых систем.

Тематики  являются важным, но не единственным фактором, влияющим на распределение вероятности  кликов пользователей в поисковых  системах. Предположили, что еще одним таким фактором является краткая аннотация в результатах поиска к ссылке на сайт – сниппет.

Опираясь  на отклонения от усредненной статистики кликов в одной и той же тематике, выбрали чуть менее ста запросов для различных сайтов при оценке причин отклонений. Было выявлено, что большинство отклонений, прежде всего, связано с качеством сниппетов.

Оценку сниппетов в результатах поиска проводили вручную, так как их влияние на принятие решения о клике по ссылке субъективно. Вероятность клика очень сильно зависит от эмоций, вызываемых у пользователей поисковых систем той или иной аннотацией.

Для упрощения  понимания того, как оценивали  сниппеты, приведены примеры хорошего и плохого сниппета.

Хороший сниппет:

Плохой сниппет:

Проведя работу по оценке сниппетов для списка запросов, получили следующую дельту распределения вероятностей переходов на сайты в зависимости от качества аннотации к ссылке для одной и той же тематики:

Как видно  из графика, сниппеты способны как уронить в несколько раз вероятность перехода, так и значительно её повысить.

6. Зависимость  трафика от популярности запроса.

Последним фактором, который исследовали, была популярность запросов. Было интересно, влияет ли популярность запроса на модель поведения пользователей при работе с поисковыми системами.

Распределив запросы по шкале популярности, то есть по частоте, с которой пользователи поисковых систем задают эти запросы, получили следующую дельту для вероятности  переходов на сайты с поисковых  систем для одной и той же тематики при одинаковом качестве сниппетов:

Из графика  хорошо видно, что снижение популярности запросов приводит к незначительному  повышению количества кликов, осуществляемых пользователями поисковых систем.

Опираясь  на полученные данные, можно сделать  вывод, что продвижение по длинному списку менее популярных запросов дает больше трафика, чем продвижение  по меньшему списку более популярных (при незначительной разнице в  частотах запросов в тематике).

В некоторых  случаях количество переходов с  менее частотных запросов может  оказаться таким же, как и с  самых популярных.

7. Выводы.

Полученные  в результате исследования данные дают общее представление о том, как  себя ведет пользователь поисковых  систем, вводя навигационные запросы. На основе этих данных можно сделать  следующие выводы:

Не все  тематики и запросы одинаково  популярны в поисковых системах. Не стоит опираться на данные усредненной  и обобщенной статистики популярности поисковых систем. Продвигайтесь  во всех поисковых системах одновременно и не делайте предпочтений ни одной, в противном случае вы рискуете недополучить более 50% от возможного трафика.

Не стоит  по своему соседу и другу оценивать  эффективность поисковой оптимизации. Для каждого типа бизнеса и  тематики она своя.

Сниппеты - один из главнейших элементов поисковой оптимизации. Не забывайте про них. Уделяя внимание сниппетам, вы сможете существенно увеличить посещаемость своего сайта и более эффективно тратить свои деньги на услуги поисковой оптимизации. Вкладывая деньги в поисковую оптимизацию, не забывайте, что вы платите за целевую рекламу, а не за позиции в поисковой выдаче.

Убедитесь в том, что вы продвигаетесь по оптимальному списку запросов. Если падение  популярности запросов в вашей тематике не очень велико, увеличивайте количество запросов, по которым будет вестись  оптимизация вашего сайта на несколько  десятков или сотен. Количество кликов по результатам поисковой выдачи у пользователей Интернета возрастает при уменьшении популярности запросов. Продвигаясь только по наиболее частотным  запросам, вы рискуете недополучить существенную часть посетителей на ваш сайт.

Количество  кликов в естественных результатах  поиска почти всегда в несколько  раз выше, чем в «гарантированных показах» в контекстной рекламе. Для контекстной рекламы, показывающейся справа от поисковой выдачи в «гарантированных показах», максимальная вероятность  клика составляет 4%, а у первой позиции поисковой выдачи она  может быть выше 25%. Для «Специальных размещений» в системе контекстной  рекламы Яндекса вероятность клика скорее всего примерно такая же, как и для стандартной выдачи.2

Обзор алгоритмов работы поисковых  систем.

Что объединяет разные алгоритмы, в чем заключается  их отличие. Задавая одинаковый запрос в различных поисковиках, вы обратите внимание, что выдача в них отличается. Ответ заключается в том, что все поисковые системы ведут себя по-разному, но основная причина заключается в том, что поисковики использует различные алгоритмы. Этот порядок работы алгоритмов необходим поисковым системам для определения релевантности в соответствии с запросом пользователя. Алгоритм поисковых систем рассматриваются как математические формулы, которая принимается для всех решений. Алгоритм использует ключевые запросы и предоставляет релевантные результаты в виде решения задач. Ключевые запросы определяются поисковыми роботами, где проверяется контент страницы и релевантность запросов на основе формул алгоритмов, которые у каждой поисковой системы разные.

Есть сервисы, которые собирают информацию о часто встречающихся запросах и о страницах наиболее часто просматриваемых, и времени потраченным на каждую страницу. Полученная информация применяется для выдачи результатов, которые самые популярные у пользователей. Множество запросов, к которым применена эта технология, влечет за собой спам. Еще один подход учитывает анализ ссылок, где хорошие тематические страницы ссылаются на другие хорошие тематические страницы. Определяя, как ссылаются эти страницы друг на друга, и поисковик определяет какая страница релевантная. Точно так же, некоторые алгоритмы поисковых систем отображают внутреннюю ссылочную структуру на рисунке. Следуя внутренним ссылкам для оценки простоты навигации и оценки соотношения страниц.

Эти базы данных создавались на основе сгруппированной  пользователем информации. Данный метод  рассматривается как архаичный, хотя существует не мало директорий, составляющих базы поисковых систем, такие как Open Directory и DMOZ, которые группируются вручную. Материалы в некоторых поисковых системах формируется вручную, как только поисковые роботы соберут необходимую информацию. Алгоритмы анализируют расположение ключевых слов на страницах с высокой частотностью воспринимаются как более релевантные, это называется плотность ключевых слов.

Обобщённо алгоритм работы поисковой системы  и рейтинг, который она выстраивает  на основе запроса (ключевое слово), учитывает  и анализирует следующее:

  1. Общее количество ключевых слов на сайте.
  2. Общее количество ключевых слов на странице.
  3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте.
  4. Соотношение общего числа слов на странице к количеству ключевых слов на странице.
  5. Индекс цитирования.
  6. Популярность тематики.
  7. Число запросов по конкретному ключевому слову за определённый период времени.
  8. Общее количество страниц сайта.
  9. Применение стиля к страницам сайта.
  10. Общий объём текста сайта.
  11. Общий объём сайта.
  12. Общий объём каждой страницы сайта.
  13. Общий объём текста каждой страницы сайта.
  14. Возраст сайта.
  15. Название URL сайта (имя домена)
  16. Периодичность обновления информации на сайте.
  17. Последнее обновление страниц сайта.
  18. Общее число картинок (рисунков) на сайте.
  19. Общее количество мультимедийных файлов.
  20. Наличие замещающих надписей на рисунках (картинках).
  21. Длину (в количестве символов) замещающих надписей рисунков (картинок).
  22. Использование фреймов.
  23. Язык сайта (русский или иностранный).
  24. Размер шрифта, которым оформлены ключевые слова.
  25. Жирность шрифта ключевых слов.
  26. Написаны в разрядку или нет ключевые слова.
  27. Написаны или нет заглавными буквами ключевые слова.
  28. Как далеко от начала страницы располагаются ключевые слова.
  29. Стиль заголовков и наименований ключевых слов.
  30. Наличие и анализ мета-тэгов.
  31. Наличие и содержание описания и свойств страницы.
  32. Наличие файла "робот".
  33. Географическое месторасположение сайта.
  34. Комментарии внутри программного кода сайта.
  35. К какому типу страниц относится каждая страница сайта : html или asp.
  36. Наличие в составе сайта flash модулей.
  37. Наличие в составе сайта страниц с незначительными отличиями друг от друга.
  38. Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт.
  39. Наличие "шумовых слов" ("стоп слов").
  40. Общее количество гиперссылок сайта.
  41. Количество внутренних гиперссылок сайта.
  42. Количество внешних гиперссылок сайта.
  43. Глубина сайта.
  44. Ряд других специальных технических параметров.3                

Примечание: 

Многие поисковые  машины алгоритма, как такового, вообще не имеют. Их работа сводится к очистке  текста сайта от программного кода и выстраиванию слов, встречающихся  на сайте по их частоте.

Чем сложнее  алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность  получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работке  самого алгоритма.

Усложняя  алгоритм работы поисковой машины можно  как достичь более полных и  точных результатов, так и, наоборот, получить менее точные и полные результаты.

Любой инженер  знает, что чем сложнее какая-либо машина, тем, с одной стороны, она  может выполнять больше функций, но, с другой стороны, больше вероятность  выхода её из строя.4 

Алгоритмы поиска.

Расширенный поиск.  

C помощью  расширенного поиска можно найти  документы с заданными характеристиками - атрибутами. В ИС «Кодекс» выделены следующие виды атрибутов: 
Текст - форматированный текст документа, практически неограниченного размера. Каждый документ может состоять из нескольких текстовых объектов (например, текст закона и комментарии к нему). Подсистема поиска рассматривает все тексты одного документа как единое целое. 
Строка с текстом - неформатированный текст длиной до 255 символов (например, наименование, место опубликования).

Строка с  номером - строка символов длиной до 255 символов. В отличие от «строки  с текстом» в данном атрибуте система  не выделяет отдельные слова. 
Дата - дата в диапазоне от 01.01.32000 до нашей эры до 01.01.32000 нашей эры.

Ссылка - указатель  на другой объект в базе данных. С  помощью ссылок в системе реализованы  классификаторы (линейные и иерархические) и деление поискового пространства на разделы.

 
По каждому из атрибутов возможности  поисковой машины различны.  
      
При контекстном поиске система предоставляет следующие возможности:  
      
     - задание в запросе логических формул, в том числе с операторами расстояния. В качестве «слов» могут выступать цифры, буквенно-цифровые последовательности, слова которые должны быть найдены в заданном виде, а также шаблоны - буквенно-цифровые последовательности с символами "*" (любая подстрока, в том числе пустая) и "?" (любая буква или цифра); 
     - встроенный морфологический анализатор, позволяющий автоматически найти все существующие словоформы для большинства слов русского и английского языков.

Для ускорения  контекстного поиска система создает  индексы по тексту. В целях уменьшения размера, эти индексы не содержат подробной информации о положении  слова внутри документа, поэтому  в случае использования операторов расстояния подсистема поиска работает в два прохода: на первом отбирает документы, содержащие заданные слова, на втором считывает их тексты в  память и проверяет выполнение условия по расстоянию. 
     

При поиске по номеру возможен поиск на точное совпадение строки; поиск строк, начало которых совпадает с заданным; поиск строк содержащих подстроку, совпадающую с заданной. Возможен поиск по шаблону (при использовании символов "*" и "?") - поиск строк, совпадающих с заданной, причем символ "*" может совпадать с любой подстрокой (в том числе пустой), символ "?" может совпадать с любой буквой или цифрой.  
      
При поиске по дате также можно выбрать один из режимов поиска: точно, по, с, с..по.

В режиме "точно" ищутся документы, в которых дата точно совпадает с заданной, в режиме "по" - документы с датой до указанной (включая указанную), в режиме "с" - с датой после указанной (включая указанную), в режиме "с..по" - документы, дата которых входит в заданный интервал, причем документы с датами, совпадающими с заданными также считаются удовлетворяющими условию.

С помощью  поиска по классификатору можно найти  все документы, имеющие данное значение классификатора. В режиме ИЛИ (по умолчанию) - выбираются все документы, содержащие хотя бы одно значение классификатора из элементов списка поиска; И - выбираются документы, имеющие все элементы списка; КРОМЕ - выбираются документы, не содержащие ни одного значения.     

 
Интеллектуальный  поиск.      

 
Интеллектуальный поиск позволяет  найти документ по смыслу содержащейся в нем информации, то есть документы по заданной теме. 
      
В системе реализован алгоритм с использованием компьютерной обработки документа. Согласно гипотезе Ципфа смысл документа зависит от частоты терминов, встречающихся в документе. Предположим, у нас есть набор документов и нас интересуют документы на тему "земельный налог". Очевидно, что документы, в которых больше данных слов, с большей вероятностью содержат интересующую нас информацию. Правда, здесь надо учесть, что документы бывают разного объема. Например, в многостраничном документе, содержащем 5 раз слово "налог", скорее всего меньше говорится о налогах, чем в документе из трех строчек, в котором слово налог встречается 2 раза. Поэтому сравнивается не количество слов, а частота, с которой эти слова встречаются в документе. При этом частота слова определяется как отношение количества этих слов в тексте к общей сумме слов в тексте.

Поисковые системы. Традиционные и новейшие алгоритмы поиска информации