Работа поисковых систем

Государственное образовательное учреждение

Высшего профессионального  образования

САНКТ-ПЕТЕРБУРГСКИЙ  УНИВЕРСИТЕТ

 

 

 

 

Кафедра

Информационных  систем

 

 

 

 

 

 

Реферат

 

по дисциплине: Сетевая экономика

на тему: «Работа  поисковых систем»

 

 

 

Выполнила

студентка гр.

.

Проверила

Преп

 

___________________

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Санкт-Петербург, 2012

Содержание

1. Понятия и функции поисковых систем......................2

1.1. Краткая история развития поисковых систем........7

2. Компоненты поисковых систем……………………..9

2.1. Основные характеристики поисковой системы…11

3. Особенности различных поисковых систем………14

4. Заключение………………………………………….17

5. Список использованной литературы………………18

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.Понятие  и функции поисковых систем.

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Рассмотрим подробнее  понятие поискового запроса на примере  поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов).

Первоочередная  задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все  эти вопросы, разработчики поисковых  машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

Задача любой поисковой системы выводит в результатах выдачи максимально релевантный результат, то есть максимально соответствующий запросу пользователя. Более того, алгоритмы так же учитывают авторитет ресурса, информативность сайта и страницы.

Каждая поисковая система  стремится очистить ряды поисковой  выдачи от искусственно накрученных, малоинформативных  и неинтересных проектов. Не смотря на то, что поисковый алгоритм представляет собой череду математических формул, за ними стоит кропотливая работа многих человеческих умов.

Таким образом, поисковые машины борются за своего пользователя, конкурируя между собой, ведут непрекращающуюся борьбу с мастерами накрутки сайтов. Как только алгоритм становится известен и достаточно точно просчитан, в ТОПе выдач появляются сайты, которых там быть не должно. Для борьбы с такими явлениями у Яндекса например существуют случайные составляющие алгоритма.

Как правило, все поисковики стремятся приблизить работу алгоритма  к работе живого человека. Поэтому  при оптимизации страниц сайта можно дать общую рекомендацию для всех случаев – писать тексты не для поисковых роботов, а для людей.

Существуют специальные  сервисы, собирающие данные о наиболее часто встречающихся запросах и о часто просматриваемых страницах. Совокупность данной информации так же используется при выдаче результатов. Алгоритмы так же оценивают тематику сайтов ссылающиеся на другие сайты, сравнивают содержимое сайтов, которые ссылаются, с теми, на которые они ссылаются, определяя в итоге максимально релевантные страницы. Поэтому тематические ссылки, с авторитетных, ценятся выше.

Многие алгоритмы поисковых  систем исследуют и внутреннее строение  сайтов, оценивая ссылочную структуру, простоту навигации и соотношение страниц, плотность ключевых слов и т.д. 
Полученная информация  формируются в базы данных, на основании которых и производится ранжирование сайтов и страниц в поисковой выдаче. Причем, во многих случаях, существует ручная модерация.

 
Вот общий список параметров, которые учитывают поисковые  системы и на основании которых  регулируется поисковая выдача: 
1.    Количество ключевых слов или запросов на странице и на сайте. 
2.    Отношение числа слов на сайте к их количеству на сайте. 
3.    Отношение числа слов на странице к их количеству на странице. 
4.   Индекс цитирования.  
5.    Тематика и ее популярность. 
6.    Количество запросов по ключевому запросу за период времени. 
7.    Общее количество проиндексированных страниц сайта. 
8.    Применение стиля к страницам ресурса. 
9.    Объём текста всего сайта. 
10.  Общий размер сайта. 
11.   Размер каждой страницы сайта. 
12.   Объём текста на каждой странице сайта. 
13.   Возраст домена и время существования сайта. 
14.   Домен и URL сайта и его страниц, наличие в нем ключевых слов . 
15.   Частота обновления информации на сайте. 
16.   Последнее обновление сайта и его страниц. 
17.   Общее число картинок (рисунков, фотографий) на сайте и на странице. 
18.   Количество мультимедийных файлов. 
19.   Наличие описаний (замещающих надписей) на картинках. 
20.   Количество символов (длина) в описании картинок. 
21.   Использование фреймов . 
22.   Язык сайта. 
23.   Географическое положение сайта. 
24.   Шрифты и теги, которыми оформлены ключевые слова и фразы. 
25.   Где на странице располагаются ключевые слова. 
26.   Стиль заголовков. 
27.   Наличие и анализ мета-тегов «title» «dеscription» «keywords». 
28.   Параметры файла «robot.txt». 
29.   Программный код сайта. 
30.   Присутствие в составе сайта flash модулей. 
31.   Наличие дублей страниц или контента . 
32.   Соответствие содержания сайта разделу каталога поисковика. 
33.   Наличие «стоп слов» . 
34.   Количество внутренних ссылок сайта. 
35.   Количество внешних входящих и исходящих ссылок . 
36.   Использование java скриптов . 
37.   Другие параметры.

1.2.Краткая история развития поисковых систем.

В начальный  период развития Интернет, число его  пользователей было невелико, а объем  доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации  доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой  системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые  системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри  Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном  Интернете.

В настоящее  время существуют три основные международные  поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы  поиска. Большинство остальных поисковых  систем (коих насчитывается большое  количество) использует в том или  ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.Компоненты поисковых систем.

Во всех поисковых  системах программные компоненты можно  разделить на пять основных групп:

  • spider «паук»
  • crowler «путешествующий паук»
  • indexer индексатор
  • database базы данных
  • search engine results engine системa выдачи результатов

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы. Spider скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Indexer разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database (база данных) – хранилище скачанных и обработанных страниц. Database - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных. Search Engine Results Engine занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы рассмотрим отдельные факторы, влияющие на ранжирование результатов.

 

 

 

 

 

 

 

 

 

2.1. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

Точность - еще  одна основная характеристика поисковой  машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль»  находится 100 документов, в 50 из них  содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

 

 

  • Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

Скорость поиска тесно связана с его устойчивостью  к нагрузкам. Например, по данным ООО  «Рамблер Интернет Холдинг», на сегодняшний  день в рабочие часы к поисковой  машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

Наглядность представления  результатов является важным компонентом  удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Особенности различных поисковых систем.

Google – В 1998 году основана двумя студентами Стэндфордского университета Сергеем Брином и Ларри Пэйдж, которая на сегдняшний день получила мировое признание. PageRank используемая в Google в основном основана на link popularity. Т.е. при вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с других страниц. Сейчас link popularity используется во всех основных поисковых системах мира (в той или иной степени). База Google используется очень большим числом других поисковых систем и порталов.

Google добился  успеха благодаря этой технологии. Его траффик устойчиво увеличивается  . В июне 2000 г., такой Интернет-гигант, как Yahoo!, выбрал Google, как поставщика результатов поиска, вместо Inktomi.

Название поисковой  системы Google было образовано в результате игры букв в слове "googol". Этим компания хочет подчеркнуть их намерение  индексировать и обрабатывать большие объемы информации.

MSN – больший, нежели у других поисковых систем, акцент на информационное содержимое сайта. MSN search поддерживается Microsoft и размещается по адресу http://search.msn.com/. Эта поисковая система не имеет собственного паука (поискового робота) или каталога, она использует данные из Inktomi, LookSmart. MSN особенно важна т.к. именно эта поисковая система по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. MSN также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов.

Yandex – крупнейшая российская поисковая система. Обрабатывает (по разным данным) от 60% до 80% всех русскоязычных поисковых запросов. Уделяет особое внимание тематическим ссылкам (нетематические внешние ссылки также имеют эффект, но в меньшей степени, чем у других поисковых систем). Индексация проходит медленнее, чем у Google, однако так же в приемлемые сроки. Понижает в рейтинге или исключает из индекса сайты, занимающиеся нетематическим ссылкообменом (содержащих каталоги нетематических ссылок, созданных лишь с целью повышения рейтинга сайта), а также сайты, участвующие в системах автоматического обмена ссылками. В периоды обновлений базы, которые длятся несколько дней, выдача Яндекса постоянно меняется, в такие периоды следует отказаться от каких-либо работ по сайту и дождаться стабильных результатов работы поисковой системы.

Еще одна особенность  Яндекс – различные результаты поиска в зависимости от регистра ключевых слов (т.е. «Слово» и «слово» дают разные результаты поиска).

Rambler – наиболее загадочная поисковая система. Занимает второе (по другим данные третье после Google) место по популярности среди российских пользователей. По имеющимся наблюдениям, понижает в рейтинге сайты, активно занимающиеся раскруткой (быстрое увеличение числа внешних ссылок). Ценит наличие поисковых терминов в простом тексте страницы (без выделения различными стилистическими тегами).

Mail.ru – набирающая популярность поисковая система. С января 2006 г. использует результаты поисковой системы Yandex ( до этого использовала Google ) после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Yandex.

Aport - полнотекстовая российская поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текста ваших документов может служить критерием последующего поиска. Для документов HTML кроме основного текста документа индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION) и подписи к картинкам (ALT). Кроме того, Апорт индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Заключение

Теперь подытожим  все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Паук (spider)
    2. Краулер ( crawler)
    3. Индексатор
    4. База данных
    5. Система выдачи результатов

 

 

 

 

 

 

 

 

 

5. Список использованной литературы.

1. Seo news. Поисковый маркетинг // Поисковые системы интернета [Электронный ресурс]. URL:

http://www.seonews.ru/masterclasses/poiskovyie-sistemyi-interneta (дата обращения: 26.11.12)

2.Seolinks // База знаний // Алгоритмы работы поисковых систем

[Электронный  ресурс]. URL:

http://seolinks.ru/статьи/алгоритмы -работы-поисковых-систем (дата обращения: 26.11.12)

3.Информация  о поисковых системах //Особенности  различных поисковых систем

[Электронный  ресурс]. URL:

http://www.allposition.com/bk-13.htm (дата обращения: 26.11.12)

 

 

 

 

 

 

 

 

 

 


Работа поисковых систем