Поиск информации в интернете
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
Найти нужную информацию в Интернете зачастую довольно трудно. Интернет развивается хаотично, в нем нет четко выделенной структуры. Никто не может гарантировать, что на одном домене будет только информация определенной тематики, а на другом - информация другой, но тоже четко определенной тематики. Например, на доменах .com можно найти не только коммерческую информацию, а, например, различную документацию по программным продуктам или даже анекдоты.
Первые поисковые системы появились в середине 90-х годов XX века и были похожи на обычный предметный указатель в книге: в базе поисковой системы хранились ключевые слова со страниц сотен сайтов, и поиск осуществлялся исключительно по ним. Позднее был разработан полнотекстовый поиск. Каждое слово и фраза фиксировались в индексе поисковой системы для каждой страницы сайта в отдельности. Это дало возможность поиска по любым словам и их сочетаниям1.
Информационно-поисковые системы совершенствуются постоянно. Это обусловлено стремлением учесть особенности человеческого поведения, чтобы сделать выдачу для каждого посетителя уникальной. Теперь в механизмы обработки и поиска информации все чаще включаются технологии искусственного интеллекта, построенные на новейших вычислительных методах.
Актуальность работы может заключаться в том, что работа будет полезна студентам при первом знакомстве с данной темой, а так же при дальнейших исследованиях по этой тематике.
Объект исследования – поисковые системы. Предмет исследования -
Цель работы – изучить работу поисковых систем
Задачи:
- разобрать основные понятия;
- изучить принцип работы
- познакомиться с классификацией поисковых систем;
- сравнить основные поисковые системы;
- разобрать процедуру поисковой оптимизации сайтов.
По содержанию работа состоит из введения, трех разделов, заключения и списка использованных источников.
1 Поисковые машины
1.1 Принцип работы поисковой машины
Главный элемент современного Интернета – это поисковые машины или поисковики, Yandex, Rambler, Google и прочие. В Интернете находится море различной информации, и именно поисковики помогают пользователю быстро найти необходимую информацию.
В учебниках или научных книгах есть список важных терминов – алфавитно-предметный указатель или индекс. В индексе перечислены наиболее важные термины данной книги (ключевые слова) и номера страниц на которых они встречаются.
Работа поисковиков основана на подобном принципе. По сути, когда пользователь вводит поисковой запрос (ключевое слово), он обращается к предметному указателю Интернета или индексу – списку всех ключевых слов Интернета, с указанием страниц, где они встречаются.
Поисковая машина – это программа, которая составляет и хранит предметный указатель Интернета (индекс), а также находит в нем заданные ключевые слова.
Этапы составления индекса и поиска по нему:
- В поисковую машину загружают первоначальный список адресов страниц сайтов. Затем поисковая машина, а точнее ее составная часть – поисковый робот, собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все, найденные в ссылках адреса, к своему первоначальному списку адресов. Таким образом, первоначальный список быстро увеличивается.
- Страница, на которую не ведет ни одна ссылка, не попадет в индекс поисковика никогда, поэтому если вы сделали новый сайт его необходимо зарегистрировать в поисковых системах, чтобы он попал в индекс.
- Поисковой робот или паук обходит страницы, скачивает с них текстовый материал и хранит на дисках своих компьютеров, затем передает на индексирование индексному роботу.
- Для начала текст индексируемой страницы очищается от всяких нетекстовых элементов (графики, разметки языка HTML и пр.). Далее слова, выбранные из текста, приводятся к своим основам или именительному падежу. Собранные основы слов выстраивают в алфавитном порядке с указанием номера страницы, где взята основа, и номера вхождения, где стояла основа на данной странице.
- Когда пользователь вводит слово в строку запроса, поисковая машина обращается к индексу. Находит все номера страниц, относящиеся к заданному слову, и показывает пользователю результат поиска (список страниц).
Синонимом качества поиска считается его релевантность. В отношении поисковых машин слово релевантный ( относящийся к делу) – чуть ли не главный термин. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, которые относятся к смыслу поискового запроса. Релевантность или качество поиска – довольно сложная вещь.
Еще одним важным критерием качества работы поисковика является точность. Точность – это мера качества выданных результатов, она вычисляется как количество релевантных страниц в общем объеме страниц, выданных в результатах поиска. Однако важна не только точность поиска, но и ранжирование результатов поиска.
Ранжирование – расположение результатов поиска по релевантности.
Невозможно сказать какая поисковая машина лучше. Для пользователя лучше поисковик, выдающий наиболее релевантные и точные результаты. Для владельца сайта хороша, та машина, в которой хорошо виден сайт и которая приводит наибольшее количество целевых посетителей2.
1.2 Классификация поисковых систем
В мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он не основывался, идеи и программы, реализующих поиск, достаточно просты. Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив человеку неограниченный и мгновенный доступ к информации. Первым чудом, очевидно, можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.
Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. Кроме появления фактора, невозможного в доинтернетовскую эру – фактора тотальной востребованности поисковых систем – стала очевидна еще пара изменений. Во-первых, стало ясно, что люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. И второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Мечты 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью.
Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Разнообразие алгоритмов не очень велико, но оно есть. Не считая квантовых компьютеров, которые обещают нам волшебный прорыв в «алгоритмической сложности» поиска, и про которые автору почти ничего не известно, есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым.
Обычно для владельца сайта, если это не закрытая от посторонних корпоративная система, черезвычайно важно понимать принципы работы поисковых систем. При изучении работы поисковых систем целесообразно помнить, что все они в основном создаются для предоставления двух основных сервисов: первый - использование по прямому предназначению (поиск необходимой информации) и второй - применение поисковых систем для продвижения в сети. Для успешного применения той или иной системы необходимо ознакомиться с возможностями и классификацией поисковых систем.
Все поисковые системы условно можно разбить на три больших класса:
1) Поисковые машины (анг. - search engines).
Иначе их еще называют
2) Веб-каталоги или поисковые
порталы (directories). Информация в них
организуется в виде
3) Метапоисковые системы - это поисковые системы у которых отсутствует своя база данных с адресами и описанием ресурсов. Они используют базы данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен3.
1.3 Примеры поисковых систем
Поисковые машины.
AltaVista (вид сверху) - торговая марка популярной поисковой машины. Сегодня база данных AltaVista является самой крупной в Интернете. Помимо разветвленных средств поиска текстовой информации содержит такие инструменты, как Photo Finder - поиск изображений, технологию онлайнового перевода документов и возможность индексирования на нескольких языках. В сотрудничестве с компанией AskJeeves. AltaVista разработала базу данных, управляемую при помощи команд на поддерживаемых языках.
Excite - поисковая машина. Технология Excite лицензирована компанией Netscape Communications для использования на портале NetCenter, а также корпорацией America Online (с правом собственного дополнения БД). Имеет интеллектуальные алгоритмы поиска по технологии ICE (Intelligent Concept Extraction), которые позволяют работать не только с отдельными ключевыми словами, но и с объединяющими их понятиями. Если, допустим, вы введете словосочетание "система обучения", то поисковая машина просмотрит также страницы, содержащие слова "школа", "учебник" и т.д. Таким образом, Excite очень эффективна для поиска материалов по смежным понятиям.
Goto - компания начала свою деятельность с приобретения старой и довольно известной поисковой машины WWW Worm. Затем решено было подобрать ссылки на самые популярные темы поиска и даже расположить соответствующие ключевые слова на заглавной странице. Результаты поиска часто получаются такие же, что и в HotBot, Snap и Yahoo!, а иногда даже и лучше.
HotBot (Wired Digital) - с 1998 года поисковая машина принадлежит компании Lycos. Здесь используется оригинальная технология Inktomi, позволяющая совершать полноценный текстовый поиск по произвольному ключевому слову. Основные посетители ее поискового сервера - компьютерщики-профессионалы, которые используют HotBot для поиска необходимого программного обеспечения и данных, связанных с информационными технологиями. Однако компьютерной тематикой данная поисковая система, безусловно, не ограничивается. Постоянно ведется работа, направленная на дальнейшее ее развитие: пополняется база данных Inktomi, выпускаются новые версии алгоритмов.
InfoSeek - Поисковая машина которая когда-то входила в десятку лучших. В настоящее время она больше занимается электронной коммерцией. После создания в 1999 году совместного с компанией Walt Disney нового суперпортала под названием Go Network - этот сайт входит в первую десятку по посещаемости.
Northern Light - поисковая машина создавалась в целях увеличения информативности поиска в Интернете. Ее основная идея - контекстный поиск. Спайдер компании ежедневно индексирует тысячи сайтов, в число которых входят электронные издания, периодика, службы новостей, академические библиотеки и электронные архивы текстов. Еще одной особенностью поисковой машины Northern Light, выгодно отличающей ее других, является возможность сортирования полученной информации по адресам сайтов и тематикам. Желающие могут подписаться на всевозможные тематические подборки, например на материалы определенных рубрик из любимых газет и журналов, а затем в течение года получать специально подготовленную и отсортированную информацию. Проект Northern Light является одним из самых масштабных в Интернете.
SearchKing - поисковая система с упором на повышение достоверности информации (релевантности документов). При построении рейтинга поисковая машина учитывает количество "кликов" (щелчков) на ссылках, посещаемых в результате поиска. Поэтому каждый пользователь невольно "голосует" за самый популярный сайт.
WebCrawler - С 1996 года проект принадлежит компании Excite, поэтому на его заглавной странице находится логотип этой фирмы, а поисковая машина WebCrawler является составной частью Excite Network. Ее создатели обращают внимание на то, что многие более поздние технологии, включая Lycos и InfoSeek, были разработаны уже после появления WebCrawler. База данных проекта продолжает регулярно пополняться, но использовать эту систему рекомендуется в случаях, если нужен поиск по одному или двум ключевым словам.
Веб-каталоги и поисковые порталы.
LookSmart - каталог ссылок, который редактируется вручную, усилен одной из самых мощных поисковых машин AltaVista - это позволило создать один из самых информативных порталов. гигантская база данных AltaVista поможет отыскать нужный сайт по ключевым словам, а рубрики LookSmart позволят точнее определиться с предметом поиска.
Lycos - Поисковая система специализируется в сфере Интернет-торговли. База данных регулярно пополняется. этот портал обладает мощнейшим специализированным каталогом WhoWhere, содержащим персональную информацию о зарегистрированных пользователях Интернета, а также развитыми средствами по предоставлению услуг электронной почты с ведением адресных книг и возможностью создания иерархической структуры подкаталогов для хранения персональной корреспонденции. Всем посетителям в качестве ответов на запрос вначале предлогаются сайты Open Directory Project, а затем ссылки из базы данных поискового механизма Lycos.
PlanetSearch Networks - портала нового типа, основанный на онлайновых сообществах, в которые люди смогли бы объединяться по интересам и увлечениям, а затем пользоваться не только механизмом поиска, но и тематическими досками объявлений, а также чатами. В результате прекрасный набор тематических сайтов и соответствующих поисковых систем.
Yahoo - один из самых известных порталов Сети. Каталог содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике. Имеются интеллектуальные средства "отсечения" пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики. При поиске на Yahoo! большое внимание уделяется предварительному предложению отсортированной информации в каталогах, и только если найденная там информация не удовлетворяет пользователя, то запрос передается метапоисковым машинам.
Метапоисковые системы.
All4One (все-в-одном) - предоставляет посетителям возможность получать результаты поиска непосредственно из поддерживаемых поисковых систем, то есть с привычным интерфейсом. После ввода запроса окно браузера разбивается на несколько фреймов. В каждом из них выводится список ссылок, найденных конкретной поисковой машиной, в число которых входят и AltaVista, и Lycos, и Excite. Надо сказать, что такой интерфейс имеет и свои недостатки: страницы со ссылками в узких фреймах очень неудобно просматривать. Однако тем, кому нужен быстрый и широкомасштабный поиск с использованием известных поисковых машин, All4One предоставит весь спектр необходимых услуг.
Debriefing - эта метапоисковая система имеет две различные версии пользовательского интерфейса: интернациональный - на английском языке и национальный - на французском. При работе с ключевыми словами на английском языке сервер использует стандартный набор популярных поисковых систем, а вот запросы на французском языке обслуживают пять поисковых систем и каталогов Франции.
Dogpile - Мощная метапоисковая система Dogpile использует для поиска не только поисковые машины, но и FTP-серверы, а также сайты, на которых собираются последние новости, фондовые котировки и "желтые страницы" Интернета. Среди дополнительных услуг, предоставляемых этим сервером, возможность получения подробных прогнозов погоды и географических карт интересующей пользователя местности.
Google - одна из самых популярных метапоисковых машин в Cети. Корректное отображение запрашиваемой информации. Представление информации согласно рейтинга в основу которого положен индекс цитируемости страниц. Рейтинг страницы определяется по количеству ссылок на нее с популярных внешних сайтов и по упоминанию данного адреса в авторитетных источниках информации.
Принципиальным отличием метапоисковой системы Google, от себе подобных систем, является отсутствие собственной базы данных адресов и ссылок, ведется учет только адресов (URL ресурса) - отсюда и система рейтинга.
Mamma Systems - Канадская метапоисковая система предоставляет стандартный комплекс услуг, принятый в таких случаях: используя базы данных популярных поисковых машин, она делает свою работу весьма качественно.
MetaCrawler - метапоисковая система принадлежит американской компании Go2Net. MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. Среди других услуг, предоставляемых MetaCrawler, следует отметить возможность расширенного поиска, довольно интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети.
OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет. При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике. Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.
ProFusion - Метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин. Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины.
Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него "теневую" базу данных). Разрабатываются и другие вспомогательные функции системы.
Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины. Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.
SavvySearch - система предоставляет услуги расширенного поиска в Сети с 1998 года. При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.
Русскоязычные поисковые системы.
Так как у многих читателей этой статьи русскоязычные поисковые системы вызывают повышенный интерес мы решили рассмотреть их подробнее. Мощных поисковых систем не так много: Яndex, Rambler, Russian FTP Search, Апорт!. О этих крупных порталах и поговорим.
ЯНДЕКС - Сайт Яndex, принадлежащий компании CompNet, является одним из самых динамично развивающихся порталов в русской части Интернета. В нем проиндексировано более двух миллионов документов, и этот показатель постоянно растет. Основным достоинством системы Яndex является способность находить заданные слова независимо от формы, в которой они употребляются в документах. Интересно, что система способна "склонять" или "спрягать" даже те слова, которых нет в словаре, причем поиск может вестись как по всем формам ключевых слов, так и по конкретно заданной словоформе. Поисковая машина Яndex позволяет устанавливать расстояние между фрагментами ключевой фразы с учетом их порядка, усиливать значимость того или иного слова, использовать уточняющие слова. Поиск можно также вести по заголовкам документов и по встречающимся на страницах ссылкам. Кроме того, в Яndex легко найти документы, похожие по смыслу на те, что заинтересовали вас по предыдущему запросу. К тому же можно ограничивать поиск уже в найденных документах, то есть производить своеобразную "чистку" результатов запроса. При упорядочивании списка ссылок, получаемого пользователем, учитывается число встретившихся в документе ключевых слов, их положение и расстояние между ними, кроме того, каждый из адресов URL содержит краткую аннотацию найденного документа.
RAMBLER - Сервер Rambler компании Stack является одной из самых больших и наиболее известных поисковых систем в русской части Интернета. Ее база данных содержат миллионы документов, а над поддержкой всего этого проекта трудятся более сотни специалистов. Недостатком данной поисковой системы является то, что спайдер индексирует главным образом сайты, расположенные в доменах СНГ, и если даже ваша страница русскоязычная, но ее доменное имя заканчивается не на .ru, а на .com, то ее индексирование в базе данных Rambler весьма проблематично (для этого надо по меньшей мере уведомить разработчиков). На многих российских сайтах можно встретить характерную пиктограмму счетчика Rambler. Рейтинг Rambler Top 100 весьма популярен в русской части Интернета и часто используется многими компаниями как показатель авторитетности тех или иных ресурсов. Кроме того, Rambler предоставляет посетителям множество услуг: позволяет, например, увеличивать или уменьшать значимость отдельных слов в ключевой фразе с помощью символов "+" и "?", облегчает поиск в адресах URL, заголовках страниц и даже в нескольких абзацах в начале документа. С помощью данной системы можно легко находить "похожие" по тематике страницы и осуществлять повторный поиск адресов среди уже найденных. В ответ на запрос Rambler выдает пользователям список ссылок, снабжая каждую из них небольшой аннотацией, из которой можно узнать кодировку документа, его размер, дату создания/обновления, а также увидеть фрагмент предложения с искомой ключевой фразой.
RUSSIAN FTP SEARCH - Система Filez осуществляет поиск файлов на российских FTP-серверах. Русский FTP Search содержит информацию о 2 тыс. серверов в России, где представлено свыше 7 млн. файлов.
АПОРТ - Поисковая система "Апорт!" компании "Агама" разрабатывается при поддержке Intel (эти компании принимают участие также в создании русскоязычного каталога (Ау?!). Поиск в "Апорт!" ведется по базе данных, содержащей свыше 2 млн. документов. Система может искать необходимую информацию по различным словоформам введенных слов, исправлять в них ошибки, поддерживает поиск по фразам, в ней легко ограничить расстояние между фрагментами текста, заданное нужным количеством слов или фраз, а также указать допустимый временной период создания документов. Возможен поиск по адресам URL, заголовкам документов, подписям к картинкам, ссылкам и комментариям. Более того, система может осуществлять автоматический перевод с русского на английский и с английского на русский, причем не только ключевой фразы при запросе, но и полученной в результате информации. Итоги поиска упорядочиваются по частоте использования искомых терминов в документе. Вместе со ссылкой отображается фрагмент текста, где встречаются ключевые слова, а также дата и время последней модификации файла. Это позволяет определить, насколько документ по смыслу соответствует заданной ключевой фразе. Среди других возможностей этого сайта можно отметить индикатор загрузки, рейтинги самых употребимых ключевых слов и наиболее популярных серверов.
Кроме вышеперечисленных поисковых систем к собственно поиску косвенное отношение имеют русскоязычные поисковые каталоги: Aktivist, Download.ru, Hi!, List.ru, Russia on the Net, Shareware.ru, Stars, WebList, Автокаталог, Ау!, "Весь Русский Интернет", Виртуальная библиотека, "Желтые страницы Internet", Иван Сусанин, "Культура России", Мета, "Путь к себе", "Русский язык", "Суперскидки", "Улитка" и многие другие4.
2 Сравнение поисковых систем
На сегодняшний день основными поисковыми системами в Рунете являются Яндекс, Google, Go.mail.ru и Rambler. В мае была запущена государственная альтернатива - поисковая система «Спутник», отличительной особенностью которой является ориентация на социальные сервисы. Bing и Yahoo также представлены в России, но их популярность не высока, а совокупная доля поискового трафика - менее 1%.
Согласно статистике, Яндекс – бесспорный лидер рынка и имеет порядка 53% поискового трафика, у мирового лидера Google – 37%, Go.mail.ru – 8 %, а Рамблеру досталось 0,8%
Рис. 1. Доля поискового трафика
Поговорим о каждой из представленных систем подробнее.
Рис. 2. Стартовая страница Yandex.ru
Яндекс действительно одна из самых технологичных и инновационных российских интернет-компаний. Она постоянно работает над обновлением и расширением своих сервисов, буквально на прошлой неделе произошла сделка по приобретению сервиса auto.ru, также был запущен сервис поиска и выбора организации Город.
За последний год отечественный поисковик, являющийся безоговорочным лидером, также претерпел различные изменения, в июне дизайн выдачи был приближен к островной версии, начал шифровать рефералы на все 100% потока запросов, были попытки отказаться от ссылочного ранжирования по коммерческим запросам (пока реализовано для 50% тематик).
С чего же все начиналось? Первая версия системы появилась еще в 90-х годах. В конце 1997 года Яндекс выпустил свою поисковую машину. И сегодня именно эта система выдает наибольший процент поискового трафика. Согласно статистике в феврале 2013 годаЯндекс занял 4-ю строку по числу поисковых запросов в рейтинге мировых поисковых систем (после Google, Baidu и Yahoo), обогнав Microsoft, и уже не первый год является лидером в России (согласно статистике Liveinternet). В 2011 году Яндекс вышел на международную арену, открыв поисковик в Турции с локализацией для турецкоязычного пользователя, также у компании есть поиск по мировому интернету yandex.com.
Технология поиска в Яндексе – это сложная система. Выдача формируется на основе формулы ранжирования, построенной на нескольких сотнях факторов, с помощью которых определяется релевантность каждого сайта. За построение этой формулы отвечаетMatrixNet – метод машинного обучения, входными данными для которого являются факторы и обучающие данные, подготовленные экспертными сотрудниками – асессорами. Для ускорения процессов поиска используется индекс – база поисковой системы, сформированная поисковым роботом, анализирующим сайты и собирающим информацию с заданной периодичностью. Для работы индекса используются тысячи серверов.