Использование поисковых серверов
Глава 2:
Использование поисковых серверов
ПОИСКОВЫЙ СЕРВИС В ИНТЕРНЕТ
Современный интернет представляет уникальное безграничное хранилище знаний, где можно получить ответ практически на любой вопрос. Фактически, здесь собранно все лучше, что изобретено и создано человечеством как за всю его длинную историю, а также новинки, которые появились только что.
Однако появление такой огромной и обширной библиотеки не может не привести к перегруженности информационного пространства. Специалисты по-разному оценивают размеры Интернета, однако в большинстве сходятся во мнении, что в настоящий момент здесь находятся миллиарды страниц, причем большая часть их исчезает или обновляется в течение непродолжительного периода времени.
Частично эту проблему
разрешают специальные
СОСТАВЛЯЮЩИЕ ПОИСКОВЫХ СИСТЕМ
Поисковые системы обычно имеют три компонента:
- агент (паук, кроулер или робот), который перемещается по сети и собирает информацию;
- база данных, которая содержит информацию, что собранно пауками;
- поисковый механизм, который пользователи используют в качестве интерфейс для взаимодействия с базой данных.
Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, которые находятся в сети Интернет. Это специальные программы, которые занимаются поиском страниц в сети, собирают гипертекстовые ссылки из этих страниц и автоматически индексируют информацию, которую они находят для построения базы данные. Каждый поисковый механизм имеет собственный набор правил, которыми определяется сбор документов.
Агенты являют собой самые интеллектуальные из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять транзакции от имени пользователя. Уже в настоящий момент они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированных за их посещаемостью. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут быть запрограммированы для вытягивания информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно к базе данных поискового механизма.
Пауки осуществляют общий поиск информации в Интернет. Пауки сообщают о содержании найденного документа, индексируют его и добывают итоговую информацию. Они также пересматривают заглавия, некоторые ссылки и отправляют проиндексированную информацию к базе данных поискового механизма.
Кроулери пересматривают заглавия и возвращают только первую ссылку.
Роботы могут быть запрограммированы таким образом, чтобы переходить по разной ссылкой разной глубины вложенности, выполнять индексацию и проверять ссылку в документе. Но, они могут застрять в циклах, ведь, проходя за ссылками, им нужны значительные ресурсы сети. Существуют методы, которые запрещают роботам поиск по сайтам, владельцы которых не желают, чтоб они были проиндексированы.
Агенты собирают и индексируют разные виды информации. Некоторые, например, индексируют каждое отдельное слово в документе, в то время как другие индексируют только 100 наиболее важных слов в каждом документе, индексируют размер документу и количество слов в нем, назову, заглавия и под заглавия и так далее. Вид построенного индекса определяет, какой поиск может быть проведен поисковым механизмом и как полученная информация будет интерпретирована.
Агенты находят информацию, после чего ее размещают в базе данных поискового механизма. Администраторы поисковых систем определяют, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отправляется к базе данных поискового механизма.
Пользователи могут размещать информацию прямо в индексе, заполняя особенную форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.
Когда пользователь хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, которая детализирует нужную ему информацию. Здесь могут использоваться ключевые слова, дать и другие критерии. Критерии в форме поиска должны отвечать критериям, которые используются агентами при индексации информации, которую они нашли при перемещении по сети.
База данных отыскивает предмет запроса, который базируется на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Для того чтобы определить порядок, в котором перечень документов будет показан, база данных применяет алгоритм ранжировки. В идеальном случае, расположенными первыми в списке будут документы, что являются наиболее релевантными к запросу пользователя.
Релевантность - основное понятие при индексации документа в поисковых системах. Релевантность - мера соответствия, то есть это соответствие содержания найденной страницы с запросом пользователя. Но компьютер - не человек, и потому поисковые системы используют специальные алгоритмы для определения релевантности. Теоретических методов определения релевантности более чем 20. Но выделяют два основных направления: лингвистическое (Рамблер, Яндекс) и статистическое (Google).
Основные российские поисковые системы (в частности Рамблер) используют лингвистическое направление. Т.е. поисковый робот, пересматривая страницу, обращает внимание на "литературную" ее написания ("почему ты не пришел" будет более релевантной, чем "почему ты не май пришел").
Разные поисковые системы используют разные алгоритмы ранжировки, однако, основными принципами определения релевантности следующие:
- Количество слов запроса в текстовом содержании документу (то есть в html-коды).
- Тэги, в которых эти слова располагаются.
- Местоположение искомых слов в документе.
- Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документу.
Эти принципы применяются всеми поисковыми системами. А нижеприведенные используются некоторыми, но достаточно известными (например, Altavista).
- Время - как долго страница находится в базе поискового сервера. Сначала кажется, что это непутевый принцип. Но в Интернете существуют большое количество сайтов, время жизни которых составляет около месяца. Если же сайт существует достаточно долго, это значит, что его владелец является опытным за данной темой и пользователю больше подойдет сайт, который существует уже несколько лет, чем тот, который появился неделю тому назад за этой же темой.
- Индекс цитируемости - как много ссылок на данную страницу ведет из других страниц, которые зарегистрированы в базе поисковика.
База данных выводит ранжировании, таким образом, перечень документов из HTML и возвращает его пользователю, который сделал запрос. Разные поисковые механизмы выбирают разные способы показа полученного перечня - некоторые отображают лишь ссылку, другие выводят ссылку с несколькими первыми предложениями документу или заглавие документу вместе со ссылкой. Когда пользователь обращается к ссылке на один из документов, настоящий документ загружается из сервера, на котором он находится.
Большая часть целевых посетителей приходит именно из поисковых систем. Поэтому важно знать некоторые особенности наиболее популярных из них.
УКРАИНСКАЯ ПОИСКОВАЯ СИСТЕМА "МЕТА"
Украинская поисковая система "МЕТА" является самым известным проектом компании - ОАО «МЕТА» - разработчика поисковых и информационных решений. Сегодня "МЕТА" - один из наиболее посещаемых украинцами сайтов и наибольшая рекламная площадка Украины.
«МЕТА.ua» - проект украинский, он создан и будет работать только для Украины. А технологии, которые были созданы в процессе работы, полностью могут быть использованы в других странах.
Поисковые технологии компании работают во внутренних сетях Верховной Рады и кабинета министров Украины, на сайтах национального банка Украины, фонда Разумкова, сайте Виктора Ющенко.
За 2005 год аудитория увеличилась более чем в два раза.
«МЕТА» - это бесплатный сервис, который не имеет никаких обязательств перед владельцами сайтов и не гарантирует «правильное» место выдачи.
Новые сервисы поисковой системы "МЕТА" можно разделить на три типа: поисковые, информационные и коммуникационные.
Из поисковых сервисов хочется отметить «Метановости». Это самый популярный раздел после большого поиска и каталога. В настоящий момент там собираются новости от больше как 200 украинских интернет - источников, около 10 000 новостей в день. Весь этот массив в режиме реального времени индексируется, группируется по темам и становится доступным для поиска.
«Поиск рефератов». Практически единственный сервис в СНГ, что позволяет искать не только по названию и описанию, но и по всему тексту. В период сессий и экзаменов студенты и школьники активно пользуются этим сервисом.
Из последних поисковых проектов - интерфейс к базе законодательства Украины, что разработано совместно с аппаратом Верховной Рады. В базе более чем 80 000 разных юридических документов. Автоматический перевод запросов дает возможность задавать запрос на русском или украинском языках.
Из информационных сервисов интересными являются «Карты» и «Расписания поездов». В «Картах» собранно наибольшее количество карт по городам и областям Украины, которая является доступными в Интернете, а «Расписания» - является самыми полными и самыми точными.
Коммуникационные сервисы - форум, который стал наибольшим украинским неполитичным форумом. Почтовый сервис разрабатывался значительно позже тех, которые есть в настоящий момент на рынке, потому в нем удалось обойти известные недостатки и выйти удобным и функциональным. Почта в настоящий момент самый быстро возрастающий сервис на «Мета».
Поисковому сервису придется увеличивать мощность одновременно в двух плоскостях - с одной стороны увеличивается количество запросов, из другой - растет объем индекса. С похожими проблемами работает всего несколько компаний в мире, и потому на решение технических проблем, связанных с быстрым ростом затрачивается много усилий. Внедрена и отработана технология, что позволяет быстро масштабировать систему, МЕТА может без проблем увеличить размер индекса и обработать число запросов на порядок больше.
Из последних совершенствований - «проверка» правописания в запросах и добавления новых форматов документов - doc, pdf, xls, ppt.
«Медленная индексация» - это уже легенда, которая осталась в прошлом. Очереди на размещение в каталог в настоящий момент нет, потому что технических мощностей хватает. Если сайт через 4-5 дней после добавления в каталог не попал в индекс, это значит, что он есть или недоступным, или не поддается индексации. Кроме этого есть специальный кластер, документы в котором обновляются дважды в день.
Поисковая система "Мета"
предоставляет целый ряд
Ниже приведен перечень поисковых приемов, которые позволят эффективнее организовать поиск и оперативно найти то, которое нужно.
СКОЛЬКО СЛОВ ИСПОЛЬЗОВАТЬ В ЗАПРОСАХ
По статистике пользователи зарубежных поисковых систем используют в среднем 1,5 слова в запросах. Наши пользователи более "многословны" - 2,5 слова на один запрос.
В том случае, если нужна общая информация, которая имеет определенное отношение к теме, достаточно одного слова. Наверно среди нескольких сотен документов, которые выдаст Мета, будет документ, который отвечает теме поиска. Однако, где будет настоящий документ - в первой десятке результатов или десятой десятке - дело случая.
Чтобы получить подборку результатов, которая будет точнее отвечать теме запроса и попутно сэкономить время на перегляд ответов поисковой машины лучше искать сразу по нескольким словам, которые характеризуют запрос детальнее.
КАКИЕ СЛОВА ИСПОЛЬЗОВАТЬ В ЗАПРОСАХ
Основную смысловую нагрузку
в языке имеют имена
Имена прилагательные в запросах - просто незаменимые, если пользователь захочет найти в Интернет именно "голландский сыр", с "баварским пивом" в "ночном клубе".
Очень эффективное средство для быстрого получения точных ссылок - это использование редких слов. К таким словам можно отнести специальные термины, названия местности, организации, имена людей и т.д. Использование точных слов сразу "окунает" в нужную тематику.
МНОГОЯЗЫКОВЫЕ ЗАПРОСЫ
По статистике Мета большая часть запросов поступает русским языком. При этом поисковая база Мета содержит документы на русском, украинском и английском языках.
Подобная много язычность задает свои особенности поиска Мета. Например, для того, чтобы получить полный список страниц, которые имеют отношение к образованию, необходимо кроме слова "образование" задействовать также слова "образование" и "education".
Если интересует полнота поиска - то это наиболее короткий путь, чтобы получить ссылку на весь массив существующих документов.
Конечно, большой массив
ответов будет содержать
РОССИЙСКО-УКРАИНСКИЕ СОВПАДЕНИЯ
Одинаковое написание разных по смыслу слов (омонимия) при поиске по ключевым словам может привести к появлению в списке ответов достаточно неожиданных результатов.
Например, по слову "письмо" дополнительно к омонимии русского языка: "лист каштана" и "лист бумаги". При поиске на Мета добавляется еще значение "письмо -- письмо" из украинского. То есть кроме омонимии в русском и украинском языках отдельно, появляется еще российско-украинская омонимия: пример ружья - пример перевода, тяжелое состояние - прокатный состояние и тому подобное.
Частично снять подобную
неоднозначность можно с
КЛЮЧЕВАЯ ФРАЗА
В своей речи люди используют множество стойких выражений, словосочетаний, создатели интернет - страниц пользуются такими же сочетаниями слов в своих документах, и потому, запрос с использованием стойких фраз и выражений, которые относятся к теме поиска - один из могучих способов быстро получить добротную подборку результатов.
Для поиска в подобных случаях нужно использовать кавычки (скобки) или операторы расстояния, нужно искать не слова, а словосочетания.
Например, по запросу Век живи - в кавычках Мета с большой точностью выдаст страницы, где содержится пословица "Век, живи - век учись" и ее вариации, при этом в короткой аннотации ресурса будет подсвечивать именно ключевая фраза. Запить по фразе "Компьютерная периферия", "курс валют", "прайс-лист" и тому подобное значительно сокращают общее число найденных документов и позволяют уточнить поиск.
КОНЦЕПТ ЗАПРОСА
В самом общем виде концепт - это смысл, который укладывается в запрос. Вопрос в том, каким образом передать то, что хочется отыскать в ключевых словах запроса? Можно попробовать поискать информацию в лоб - просто ввести ключевые слова, которые отвечают запросу. Как правило, этого достаточно. Если же результатов поиска нет совсем или они являются не точными, то нужно попробовать переформулировать запрос.
Возможным является и другой подход. Документы, которые содержат нужную информацию, могут не быть присутствуют в индексе Мета, однако, они вероятнее есть где-то в украинском Интернете. Остается только добраться до них, используя более общие за смыслом категории, которые содержат ключевые слова.
Например, если нужно конкретный украинский закон, то лучше искать серверы, которые посвящены украинскому законодательству, если же почтовый адрес определенной организации - лучше попробовать найти Желтые страницы и так далее
КАК СОСТАВИТЬ ЗАПРОС
Поисковая система Мета позволяет искать по всему украинскому Интернету, а также по Реестру украинских сайтов.
ПОИСК В ПОВНОТЕКСТОВИЙ БАЗЕ ДАННЫХ
Полнотекстовый поиск происходит с учетом российской и украинской морфологии. Это значит, что независимо от грамматической формы ключевых слов, будут получены документы, которые содержат искомые слова во всех формах.
Например, по запросу глубокие донья будут найдены документы, которые содержат слова глубокое дно, по запросу полотенце вышито - документы, которые содержат слова вышитому полотенцу и тому подобное.
Поисковик имеет следующую особенность: в многословных запросах система не игнорирует так называемые "стоп - слова". Большинство поисковых систем при поиске их игнорируют, то есть, при запросе крем от загара слово "от" будет проигнорировано и среди результатов будут документы со словосочетанием "крем для загара". "META" выдаст документы, которые точно совпадают с запросом.
Чтобы улучшить поиск можно использовать ряд служебных операторов:
Оператор |
Описание |
+ |
Логическое И. Данный оператор по умолчанию и действует первым, то есть запрос украинские рефераты являются равнозначными к запросу украинские + рефераты |
- |
Логическое НИ позволяет исключить из списка результатов документы, в которых содержится слово, которое идет после оператора. Например, по запросу: кофейный напиток - кофе, будут найдены только те документы, в которых есть слова кофейный напиток, но нет слова кофе. |
| |
Логическое ИЛИ позволяет найти документы, которые содержат хотя бы одно слово в запросах. Например, по запросу: казаки | казаки будут найдены документы, которые содержат или слово казаки, или слово, казаки. |
Порядок действия логических операторов можно задавать круглыми скобками ( ).
Например, по запросу харьковски | киевские предприятия выводятся документы, которые содержат или слово харьковские, или одновременно слова киевские и предприятия, поскольку оператор + действует первым. Если же необходимо найти документы, в которых встречаются слова харьковские предприятия или киевские предприятия, запрос должен быть таким: (харьковские | киевские) предприятия.
Кроме логических выражений можно определять расстояние между словами запроса.
Оператор |
Описание |
"..." |
Двойные кавычки позволяют находить точное словосочетание, что в них указано. При этом фиксируется грамматическая форма слов, то есть по запросу "погода в Крыму" будут найдены документы, в которых содержится такое же словосочетание, - погода в Крыму. |
{...} |
Фигурные скобки позволяют находить словосочетание, которое является близким к указанному, т.е. в отличие от предыдущего оператора по запросу {погода в Крыму} будут найдены документы, которые содержат следующие словосочетания: "погода в Крыму", "погоде в Крыму", "погоды в Крыму", то есть грамматическая форма слов в данном случае не фиксируется. |
[n ...] |
Этот оператор используется в том случае, если необходимо ограничить расстояние между словами запроса. Например, по запросу [5, мобильный телефон] будут найдены только те документы, в которых слова мобильный и телефон расположенные во фрагменте текста, который не превышает 5 слов. |
Предусмотрены также операторы, которые позволяют ограничить область поиска определенным полем документа.
Оператор |
Описание |
Title |
Данный оператор позволяет искать только за названием документа. Например, по запросу: title(прайс-лист) будут найдены те документы, в заглавии которых содержится прайс-лист, по запросу title("доска объявлений") будут найдены документы, которые содержат в заглавии словосочетание доска объявлений. |
Heading |
Данный оператор позволяет проводить поиск по названиям разделов документов. Например, по запросу: heading (бизнес-план) будут найдены документы, которые содержат бизнес-план в поле heading документов. |
ПОИСК ПО РЕЕСТРУ УКРАИНСКИХ САЙТОВ
Как и при полнотекстовом поиске, поиск по реестру ведется с учетом российской, украинской и английской морфологии.
По умолчанию поиск ведется по полнотекстовой базе данных, для поиска по Реестру, следует поставить флажок "искать в Реестре".
Можно ограничить область
поиска отдельной темой или регионом.
Для этого необходимо перейти
в соответствующую
ОПИСАНИЕ ЗАРУБЕЖНЫХ ПОИСКОВЫХ СИСТЕМ
Больше как 80% всего поиска в Интернете приходиться на 3 основные системы: Google, Yahoo!, MSN.
(http://www.google.com)
Из небольшой компании,
которая основана в сентябре 1998 года
Ларри Пейджем и Сергеем
В настоящее время феноменальный успех Google связывают не только с выбранной бизнесовой моделью и удачным направлением деятельности. Сногсшибательный успех компании не был, бы достигнут без тонкого подбору сотрудников и умелого руководства. С августа 2001 года на посту CEO компании находится Ерик Шмидт, которой перешел в Google из Novell и поставил за главную цель увеличение капитализации за счет выхода на новые рынки. Прошлые годы подтвердили правильность выбранной стратегии, и теперь Google является тем, чем является, - около 5 тысяч сотрудников во всем мире, бренд, который известен без комментариев в любом уголке земного шара.
Бренд Google был введен как созвучие математическому сроку Googol (гугол), придуманному Милтоном Сироттой, племянником американского математика Эдварда Каснера. Он помечает единицу с сотней нулей и замечательно иллюстрирует неисчерпаемые возможности Интернета, которые компания Google постоянно систематизирует и организует, облегчая доступ к разным данным.
Сначала была поставлена цель по организации всей мировой информации, чтобы сделать ее максимально доступной и полезной для каждого посетителя Интернета. Для этого основатели компании Лерри Пейдж и Сергей Брин разработали новый алгоритм поиска. Идея создания универсального поисковика и стала залогом нынешнего успеха компании. Более того, в нынешнем своем воплощении поисковый движок доступен не только из главной страницы Google: можно вести поиск через панель инструментов Google, через Google Deskbar в панели заданий Windows без открывания браузера, а также из разных мобильных платформ, включая телефоны в режимах WAP и І-mode.
Поскольку поисковик Google является бесплатным, основной доход компании состоит из предоставления рекламодателям возможности распространять рекламу, которая является релевантной к информации на данной странице. Тысячи рекламодателей используют программу Google Adwords для продвижения своих товаров и услуг с помощью целеустремленных объявлений, тысячи менеджеров сайтов используют Google Adsense для показа объявлений, которые являются релевантными к содержанию сайтов.
От начала разработчики Google отказались от типичного использования мощностей нескольких серверов, производительность которых уменьшается при пиковых нагрузках, и начали использовать возможности распределенных в сети компьютеров.
Поисковый движок Google проводит серии одновременных расчетов длительностью доли секунды и использует технологию Pagerank для изучения всей структуры ссылок Интернета и объективного определения важнейших страниц путем расчета уравнения из больше 500 переменных и 2 миллиардами сроков. Поисковик Google анализирует качественное содержание страниц - шрифты, подразделы, точное местоположение каждого слова, плюс содержание соседних страниц для обеспечения максимальной релевантности результатов поиска.
В компании Google создана технология поиска для беспроволочных устройств с моментальным превращением HTML в форматы для режимов WAP, І-mode, J-SKY и Ezweb.
Результатом многолетнего развития поисковой системы Google стало появление национальных поисковых сервисов: поддерживается разноязычный интерфейс и алгоритму поиска адаптируются к локальным особенностям. Когда поисковый сервис Google стартовал в Китае, то, несмотря на многочисленные сложности, связанные со своеобразной трактовкой свободы слова китайскими властями (Google.com не доступный китайским пользователям приблизительно 10% времени; Google News совсем не работает, Google Images доступный лишь время от времени), сервис работает и набирает популярность.
Google обеспечивает поиск по гипертекстовым документам, которые находятся в разных языковых зонах, - украинской, российской, английской, немецкой и др. Поисковая система Google имеет собственные под домены для большинства стран, например, для Украины - google.com., для России - google.ru. Это одна из наибольших поисковых баз в мире.
ПРЕИМУЩЕСТВА
- Использование механизма Pagerank, который отображает "важность" сайта и влияет на выдачу результатов поиска. У Pagerank похожий на индекс цитирования как у Яндекса (он тоже зависит от количества и качества ссылок на ресурс). Но в отличие от Яндекса, влияние Pagerank в Google не настолько значительное, потому люди в Google находят именно то, что и ищут.
- Google ищет не только гипертекстовые файлы (html), но и файлы, в формате PDF, DOC, Postscript, Corel Word Perfect и др.
- Поисковая система Google имеет возможность поиска изображений. При этом в запросах можно указать желаемый размер, глубину цвета, формат файла.
- В отличие от многих поисковиков, работы Google индексируют все страницы, а не лишь самые главные.
- Все страницы Google кэше (заносит в свою базу), и позволяет пользователю пересматривать документ в кэше Google, не открывая его в первоисточнике (что обычно есть намного быстрее).
- Google позволяет избрать язык интерфейса, языковые зоны для поиска, количество сообщений при выдаче результатов, но др.
- Пользователи Microsoft Internet Explorer, Mozilla Firefox и Opera, могут установить себе программу Google Toolbar, которая создает новую панель инструментов, что позволяет искать в Google, не заходя на сам сайт.
- Строка поиска в Google можно использовать и как калькулятор. Если ввести (48-26)*21, Google выдаст правильный результат.

- Использование поисковых систем
- Использование полезных ископаемых в химической промышленности
- Использование полезных микроорганизмов
- Использование полемических приёмов
- Использование полиграфа в раскрытии и расследовании преступлений
- Использование полиграфа в расследовании и расскрытии преступлений
- Использование полимерных модификаторов в производстве асфальтобетона
- Использование платформы Java 2 Enterprise Edition для построения корпоративной информационной системы
- Использование побочных продуктов и отходов переработки картофеля
- Использование побочных продуктов металлургии в строительстве
- Использование побочных продуктов переработки зерна в питании
- Использование подвижных игр с целью формирования физических качеств у детей специализированной группы с нарушениями опорно- двигательно
- Использование поддонов в мясо-молочной промышленности
- Использование подземного пространства в городах