Поиск информации в интернете. 2

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

     Одним из основных способов найти информацию в Интернет являются поисковые машины или поисковые сервера, на которых расположено специальное программное обеспечение для осуществления поиска.

     Производится  поиск прежде всего в пространстве web-страниц. Однако, кроме него можно производить поиск интересующих вас теленовостей, адресов электронной почты и даже поиск людей. Последние службы используют различные источники: от телефонных справочников до регистрационных списков пользователей разных служб. Отдельные машины производят поиск файлов.

     Механизм  поиска каждой машины-поисковика представляет собой ноу-хау фирмы. В основном это индексированные базы данных. Но темпы роста числа web- и других документов в сети опережают скорость, с которой обновляются и пополняются базы данных.

     Целью курсовой работы является изучение особенностей поиска информации в Интернет в разных поисковых системах и каталогах по разным типам запросов.

     Для достижения поставленной цели в работе ставятся следующие задачи:

    • обозначить основные теоретические аспекты, связанные с понятием Интернет
    • рассмотреть популярные поисковые системы и каталоги
    • изучить основные способы поиска информации в Интернет
    • научиться формировать простые и расширенные запросы на поиск
    • сопоставить полученные данные по разным типам запросов

     Мы  живём в мире, в котором информационные технологии занимают одну из главных  ролей человеческой жизни. С каждым днём всё больше и больше людей пользуются интернетом, где невозможно обойтись без поиска информации. Именно поэтому проблема поиска в Интернет является актуальной. От правильности сформированного запроса зависит результат поиска. Поэтому так важно научиться составлять запрос грамотно и корректно.

1 ИНТЕРНЕТ И ПРОБЛЕМЫ ПОИСКА ИНФОРМАЦИИ

     Интернет  – самая большая компьютерная сеть в мире, объединяющая многочисленные компьютерные сети по всему земному шару для обмена информацией между ними.

     В настоящее время Интернет объединяет более 150 тысяч компьютерных сетей. Общее количество компьютеров, подключённых к интернет, превышает 30 миллионов. Услуги интернет используют сегодня  более 120 миллионов человек в 170 странах  мира [1].

     Рассматривая  интернет с функциональной точки  зрения, можно дать ещё одно определение: Интернет представляет собой недорогое быстродействующее средство общения с абонентами по всему миру, не имеющая аналогов хранилище информации по любым областям знаний; новую перспективную среду для деловой деятельности.

     Адрес в интернет – это адрес сервера в системе  World Wide Web (WWW) – «всемирная паутина».

     WWW – это глобальная система для работы с информацией в гипермедиа виде. Под гипермедиа понимается объединение текстовой и мультимедиа информации (графика, звук, видео). Гипермедиа документ содержит выделенные элементы, которые являются ссылками на отдельные части документа или другие гипермедиа документы, в том числе и расположенные на различных компьютерах системы WWW [1]

     Для поиска информации в Сети используются специальные  поисковые службы. Обычно поисковая служба — это компания, имеющая свой сервер, на котором работает некая поисковая система. Услуги абсолютного большинства поисковых служб бесплатны, но, тем не менее, по темпам роста сегодня это самый эффективный бизнес в мире. Всего за несколько лет такие службы как Yahoo!, Alta Vista, Inktomi и некоторые другие развились от лабораторных проектов с бюджетом в десяток-другой тысяч долларов до компаний, стоимость которых составляет 10-15 миллиардов долларов. Такого темпа приращения капитала мир еще не знал, особенно для бесплатных (для конечного пользователя) услуг [2].

     Существует  ряд проблем, которые могут возникнуть во время поиска информации в интернет. Одной из самых распространенных – является некорректный запрос.

     Первая  ловушка связана с тем, как  поисковая система трактует группы слов, введённые через пробел. Допустим, мы хотим разыскать Web-страницы, на которых что-то говорится об операционной системе Microsoft Windows. Логично внести в поле поиска слова Microsoft Windows и ждать результата. Но результат может быть обескураживающим. Одни поисковые системы понимают такую запись как Microsoft И Windows – они дают нам то, что мы ищем. Другие могут понимать эту запись как Microsoft ИЛИ Windows – тогда будут разысканы все Web-страницы, на которых встречается либо первое слово, либо второе, либо оба вместе. Нас, конечно, интересуют только те страницы, на которых оба слова встречаются вместе, но их будет практически невозможно найти среди прочих, не нужных нам страниц.

     Например, система Alta Vista по умолчанию считает, что ключевые слова связаны соотношением ИЛИ. Но если вам надо разыскать документы, в которых одновременно содержится как первое, так и второе слово, то перед каждым из них следует поставить знак плюс: +Microsoft +Windows.

     Все основные поисковые системы по умолчанию  между словами ставят оператор И, хотя у системы «Яндекс» есть свои особенности. Там считается, что эти два слова должны одновременно присутствовать не в документе, а в одном предложении. Если достаточно, чтобы они присутствовали в документе, перед каждым словом надо поставить знак  «+», как в системе Alta Vista.

     Роль  прописных букв. Возможно, вас удивит, что «хлеб» = «ХЛЕБ», но «ХЛЕБ» не равно «хлеб». Именно так и обстоит дело в большинстве поисковых систем. Общее правило такое: если клиент ввёл строчные символы, то разыскиваются как строчные, так и прописные символы, но если клиент использовал прописные буквы, то ищется точное совпадение только с прописными буквами.

     Однако  некоторые поисковые системы  имеют отличия. Так, например, в системе  «Рамблер» при индексации все  прописные буквы принудительно  «понижаются до строчных. Это означает, что использовать в запросе прописные буквы в этой системе бесполезно.

     Роль  зарезервированных слов. Зарезервированные слова – это слова, которые не учитываются при обработке запроса. Во время индексации Web-страниц программа выбрасывает их из текста, что значительно уменьшает размеры указателей и сокращает время поиска. К таким словам обычно относятся неинформативные слова: предлоги, союзы, местоимения, артикли и другие слова малого размера. Так, например, если в системе «Яндекс» задать поиск фразы «Всё смешалось в доме Облонских», то будет также разысканы документы, содержащие: Что смешалось в доме Облонских? и Где смешалось? В доме у Облонских?

     В некоторых системах могут быть зарезервированы  слова, которые встречаются исключительно  часто и поэтому не являются информативными. Если, например, система ориентирована на поиск книг, то слово книга для неё не информативное. Слово авто неинформативно для поисковой системы, занимающейся делами автомобильными, а слова компьютер и интернет неинформативны для систем, ориентированных на поиск информации по вычислительной технике.

     Особенно  важно учитывать роль зарезервированных  слов при проведении контекстного поиска. При таком поиске необходимо точное соответствие между тем, что заказал  клиент, и тем, что встречается в Web-документах. Если поисковая система на этапе индексации «зачистила» Web-документы от зарезервированных слов, то с контекстным поиском она справиться не может, разве что только «заглянув» в копии Web-страниц, если таковые у неё хранятся, но на это уходит много времени. Поэтому честный контекстный поиск в поисковых системах – большая редкость [3].

     Стоит также заметить, что поиск в  интернет может привести к платным  сайтам, ложным ссылкам, а также не исключена возможность компьютерных вирусов.

2 ОСНОВНЫЕ СИСТЕМЫ И СРЕДСТВА ПОИСКА ИНФОРМАЦИИ

2.1 Поисковая система

     Поисковая система – это специально созданная программа, которая позволяет находить, определять и индексировать информацию в Интернете. Некоторые серверы могут иметь свои метапоисковые системы.

     Среди наиболее известных поисковых систем можно назвать англоязычные:

     Alta Vista (http://www.altavista.com/)

     Google (http://www.google.com/)

     Yahoo! (http://www.yahoo.com/)

     Cреди русскоязычных:

     Aport (http://www.aport.com/)

     Rambler (http://www.rambler.ru/)

     Yandex (http://www.yandex.ru/)

     Среди белорусскоязычных:

     Tut (http://www.tut.by/)

     Open (http://www.open.by/)

     Zubr (http://www.zubr.com/)

     Далее следуют поисковые машины, расположенные на специализированных серверах. Если вы знаете тему своего поиска и такой специализированный сервер, то поиск становится более продуктивным. Например, существуют  серверы, собирающие информацию о трудоустройстве вообще. А есть специализированные сервера, подбирающие информацию только о вакансиях для программистов. Если первые представляют вам несколько десятков ссылок, то вторые – несколько сотен, часто структурированные в списки, в которых легко ориентироваться.

     Некоторые серверы могут иметь свои поисковые системы. Они содержат много информации и проводят поиск по своим документам. Наконец, крупный сайт может иметь свой маленький поисковый механизм, который ищет нужные слова на своих страницах [4].

     Изначально многие поисковые узлы выполняли роль машин поиска. Они предоставляли возможности автоматического поиска по ключевым словам. Параллельно с ними существовали узлы – каталоги, на которых можно было искать информацию вручную, путешествуя по многочисленным иерархически выстроенным разделам. Поисковые машины, по мере роста своей популярности, расширили набор сервисов, и вместе с функциями поиска стали предлагать каталоги, бесплатную электронную почту, хостинг, рейтинги, чат, новости, журналы, фотографии, анекдоты и почее. Подобные узлы стали называть не просто поисковыми машинами, а порталами.

     Портал  – узел в Интернете, который вместе с услугами поисковой машины предлагает собственный информационный контент. На таком узле могут предоставляться дополнительные услуги. Порталы содержат, как правило, собственный каталог частопосещаемых ресурсов.

     Существуют  также каталоги. Каталог – систематизированный набор ссылок на ресурсы в Интернете, составляемый чаще всего вручную. Ссылки сопровождаются описаниями и могут быть снабжены рейтингами. Некоторые каталоги имеют встроенное средство поиска, обеспечивающее быстрый выход на нужную информацию.

     В каталоге ссылки размещаются по определённой иерархической системе, которая  напоминает системный каталог в  обычной библиотеке.

     Каталоги  существуют не только в составе поисковых  машин, но и в виде отдельных узлов [9].

     Персональный  Интернет-поиск. Система персонального, или пользовательского, интернет-поиска (Custom Search Engine) – это сервис, позволяющий создать и настроить специализированный поисковик, который учитывает в результатах ваши личные предпочтения и тематические интересы, другими словами – контекст поиска. В простейшем случае такой поиск осуществляется по набору указанных пользователем сайтов, более сложные варианты подразумевают тонкую настройку выдачи результатов, автоматическое добавление тематических сайтов в персональный индекс и организацию совместной работы над поисковиком группы единомышленников. Ценой небольшой потери в широте охвата персональный поиск даёт возможность заметно улучшить точность.

     В настоящее время для использования  рекомендуются проекты Google Custom Search Engine и Flexum. Другие общественные платформы персонального поиска уступают лидерам и не отличаются качественной работой с русскоязычными ресурсами [4].

2.2 Специализированные  поисковые службы

     Известно, что даже самые мощные из поисковых  серверов охватывают в лучшем случае не более 15% всей сети. А сеть растёт и растёт. Один из выходов из этого  положения – создание специализированных поисковых служб. Их можно разделить по тем же направлениям, что и классификационные каталоги: Культура и искусство, Бизнес, Наука, Здоровье и медицина. А внутри них могут тоже возникать по мере развития сети свои специализированные службы поиска. И, естественно, нужен будет поисковик по этим службам. Но самое главное – не допускать того, чтобы организовали и возглавили всё это государственные структуры. Тогда застой будет обеспечен. Рынок сам определит, какие поисковики нужны, а какие – нет.

     Если  обратиться к поисковым серверам в области культуры, то самый заметный из них – www.culturefinder.com. Здесь можно заказать билеты на спектакли и представления.

     Для того, чтобы выбрать, смотреть ли спектакль на открытой площадке или в помещении, нужно знать прогноз погоды. Для этого существует поисковый сервер www.weather.com

     Если  погода совсем неважная, то можно устроить концерт на дому: поискать слова песен, а заодно и ноты и спеть самим. Для этого сначала нужно найти на сайте www.lyrics.ch слова песен. На сервере www.song.homepage.ru можно найти тексты песен на русском и их ноты.

     Видеодиски  DVD и видеокассеты можно найти на сервере www.videoseeker.com

     Для тех, кто хочет заработать деньги существует множество поисковых  серверов в области бизнеса. Один из них – www.forworld.com

     На  сервере www.healthfinder.com можно получить информацию о здоровье [5].

2.3 Метапоискавая система

     К метапоисковым системам относится поисковые серверы, которые позволяют производить одновременный поиск сразу по нескольким поисковым системам. Они принимают от пользователя запрос и размещают его сразу на нескольких поисковых серверах. Потом они собирают поступившую от них информацию, обобщают ее, структурируют, рафинируют (очищают) и передают клиенту. Увеличенное время исполнения запроса компенсируется улучшенным качеством результатов поиска.

     Первое  время крупные поисковые системы  спокойно смотрели на существование «под собой» метапоисковых систем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаются запреты на метапоиск. А если говорить точнее, крупные поисковые системы начали заниматься им сами, привлекая ресурсы коллег на взаимовыгодной основе [2].

     К числу метапоисковых систем относятся:

     www.dogpile.com

     www.37.com

     www.meta360.com

     www.search.com

     www.isleuth.com

     В каком пространстве производится поиск? Прежде всего в пространстве web-страниц. Однако, кроме него можно производить поиск интересующих вас теленовостей, адресов электронной почты и даже поиск людей. Последние службы используют различные источники: от телефонных справочников до регистрационных списков пользователей разных служб. Отдельные машины производят поиск файлов.

     Механизм  поиска каждой машины-поисковика представляет собой ноу-хау фирмы. В основном это индексированные базы данных. Но темпы роста числа web- и других документов в сети опережают скорость, с которой обновляются и пополняются базы данных. До недавнего времени эти базы обновлялись каждой службой самостоятельно, вручную или с помощью программ-пауков. В настоящее время нередки случаи разделения труда, когда поисковые серверы привлекают клиентов бесплатным поиском и собирают деньги с рекламодателей, а базы данных покупают у других специализированных компаний.

     Начинают  применяться и новые, так называемые, интеллектуальные технологии (SMART-технологии). В таких случаях учитывают, например, данные рейтинговых служб. В других для поиска используют векторные методы индексации новых документов и поиска информации в векторном пространстве, которые легко распараллеливаются и выполняются значительно быстрее [6].

     Преимуществом метапоисковых средств является то, что объединяются достоинства  и возможности всех поисковых  машин. Кроме того, пользователю не нужно изучать язык запросов каждого  поискового механизма.

     К недостаткам можно отнести не очень быстрый поиск, т.к. необходимо координировать поступление результатов от нескольких серверов. Проблемы, возникшие на одном из серверов, могут приостановить вывод результатов [9].

3 ПОПУЛЯРНЫЕ ПОСКОВЫЕ СИСТЕМЫ И КАТАЛОГИ

     Поисковая система – это специально созданная программа, которая позволяет находить, определять и индексировать информацию в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Uniset Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковой машиной. Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами.

     Как правило, работа поисковой системы  состоит из двух этапов. Поисковый робот (паук) постоянно обходит сеть и собирает информацию с веб-страниц (индексирует их). Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача – список ссылок на документы (веб-страницы), соответствующие запросу [7].

3.1 Международные поисковые системы и каталоги

     AltaVista (http: //www. altavista.com/)

     По  количеству индексированных Web-страниц Alta-Vista – одна из крупнейших (но не самая крупная, как это иногда считается) поисковых систем мира. Огромный объем охвата Web-пространства и мощный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуатацию в декабре 1995 и долгое время считалась молодой, но бурно развивающейся. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поисковую службу – Ask Jeeves [2].

     К сожалению, сегодня нет никаких  оснований, чтобы пользоваться её услугами. Рано проведя акционирование, Alta Vista сегодня вынуждена больше заботится об интересах акционеров, чем о развитии. Для нас это означает, что индексацию новых ресурсов система тормозит, причём принудительно, а обновлением старых ресурсов не занимается. Её указатели безнадёжно устарели, а изобилие рекламных баннеров на станицах поиска никак не способствует скорости работы (рис. 3.1) [3].

Рис. 3.1 Поисковая система Alta-Vista

     Google (http://www.google.com/)

     Появившись  лишь в конце 1999 года, но очень быстро стал завоёвывать популярность. Его база содержит более 200 миллионов адресов документов Сети. В день Google обрабатывает около 10 миллионов запросов. Алгоритмы его работы включают обработку всех метатегов с учётом веса каждого ключевого слова. В нём применены, вероятно, наиболее совершенные на сегодняшний день алгоритмы установления степени релевантности запрошенным ключевым словам поиска [5].

     Служба  Google известна ещё и тем, что при генерации списка  ссылок в первую очередь выдает ссылки на те Web-страницы, к которым из других документов ведет наибольшее количество ссылок. Это дает очень интересный эффект. На большинстве поисковых систем совершенно бесполезно искать информацию по таким тривиальным словам как Cars (Автомобили), Internet, WWW, Games (Игры). Поиск по этим словам вернет столько ссылок, что среди них невозможно найти самые полезные. Служба Google при проведении поиска по тривиальным словам дает отличные результаты, поскольку руководствуется мнением других пользователей, ранее осуществлявших подобный поиск [2].

     В то же время данный поисковый сервер очень динамичен: задавая один и  тот же набор ключевых слов в течение  недели, и через каждые два-три  дня первые места среди найденных  страниц будут меняться, и это означает, что данный поисковик всё время «работает» с ними. И последнее: Google в большей степени оценивает не относительные, а абсолютные адреса ссылок между различными страницами внутри одного сайта. Так что не стоит лениться, нужно всякий раз писать полный адрес (рис. 3.2) [5].

Рис. 3.2 Поисковая система Google

     Yahoo! (http://www.yahoo.com/)

     Это легенда Интернета и одно из самых  известных имён (brand name). Одно только загадочное для русского уха название уже вызывает интерес и споры то ли это крик североамериканских индейцев, заплутавших в лабиринтах Интернета, то ли ещё что-нибудь необычное [6].

     Yahoo! – одна из старейших и наиболее популярных поисковых служб. Её каталог был запущен в эксплуатацию еще в 1994 году аспирантами Стэндфорского университета. Секрет успеха Yahoo! – в человеческом факторе. На службу работают около 150 редакторов, неустанно улучшающих и пополняющих множество тематических разделов огромного каталога. Пользователи могут самостоятельно в присылать сведенья о своих web-страницах для регистрации. В каталоге содержатся данные по одному миллиону Web-узлов. Если поиск по собственному каталогу не дает результата, привлекаются ресурсы поискового указателя Inktomi и Alta Vista [2].

     Из  особенностей заметим, что, пользуясь  командами + - простого списка, Yahoo! не поддерживает операторы and, or ( ), near. В соответствии с последними внесениями Yahoo! превращается в портал, предоставляя другие услуги с основной страницы (рис.3.3) [6].

Рис. 3.3 Поисковая система Yahoo!

     Fast Search (http://www.alltheweb.com/)

     Эта система, принадлежащая норвежской компании, ранее называлась All The Web. Несмотря на то, что она была запущена совсем недавно (в мае 1999 года.), перед ней ставится задача обогнать конкурентов в полноте коллекций ссылкой на Web-страницы [2].

     Создатели системы поставили перед ней  глобальную цель – создать самый  крупный и самый быстрый указатель в мире. Эта цель была достигнута в считанные месяцы. Система первой взяла 300-миллионный рубеж всего через четыре месяца после начала работы, а в 2000 году приблизилась к отметке 600 миллионов Web-страниц [3].

     Такая скорость формирования каталогов позволяет предположить, что система использует новые технологии обработки данных. Объём данных столь велик, что каждый главный каталог обслуживает своя поисковая система [6]. При этом скорость поиска системы составляет доли секунды и нет никакой рекламы (рис.3.4) [3].

Рис. 3.4 Поисковая система Fast Search

     Northern Light (http://www.northernlight.com/)

     Начал работать с 1997 года. Имеет базу данных, содержащую 150 миллионов адресов и охватывает 16% содержимого всей сети. По сравнению с другими поисковыми серверами, он осуществляет самые мягкие методы борьбы со спамом, т.е. он очень доверчив [5].

     Имеет приличный указатель, приближающийся к 300 миллионам Wеb-страниц, и предпринимает заметные усилия по поддерживанию его актуальности. Эта система идеальна для проведения научных исследований благодаря тому, что сочетает индексацию и каталогизацию. После поиска по ключевым словам, система не только выдаёт обширные списки ссылок на найденные ресурсы, но и формирует набор папок, в которых результаты поиска располагаются по отдельным категориям. Кроме того, в системе есть специальный раздел каталожного типа, который называется Special Editions. Он ведётся вручную, и в нём можно найти готовые подборки материалов по актуальным проблемам.