Поиск информации в сети Интернет. 2
Балтийская государственная академия
рыбопромыслового флота
ИПЭМ
Реферат по дисциплине
«Информационные технологии»
на тему: «Поиск информации в сети Интернет».
Выполнил: Липковский И.И.,
студент группы У-22
Проверил: Н.Б.Розен
Калининград
2012
- Введение
С кaждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.
Чтобы найти нужную
информацию, необходимо найти её адрес.
Для этого существуют специализированные
поисковые сервера (роботы индексов
(поисковые системы), тематические Интернет-каталоги,
системы мета-поиска, службы поиска
людей и т.д.). В данном мастер-классе
раскрываются основные технологии поиска
информации в Интернет, предоставляются
общие черты поисковых
2. Технологии поиска
Web-технология World Wide Web (WWW) считается
специальной технологией
В решении данной проблемы на помощь приходят
поисковые инструменты.
2.1 Поисковые инструменты
Поисковые инструменты - это
особое программное обеспечение, основная
цель которого – обеспечить наиболее
оптимальный и качественный поиск
информации для пользователей Интернета.
Поисковые инструменты
- Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.
- Поиск информации по запросу пользователя.
- Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.
Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:
- Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
- Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.
- Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", , ~), математические символы (*, +, ?).
Схема поиска информации проста.
Пользователь набирает ключевую фразу
и активизирует поиск, тем самым
получает подборку документов по сформулированному
(заданному) запросу. Этот список документов
ранжируется по определенным критериям
так, чтобы вверху списка оказались
те документы, которые наиболее соответствуют
запросу пользователя. Каждый из поисковых
инструментов использует различные
критерии ранжирования документов, как
при анализе результатов
Таким образом, если указать
в строке поиска для каждого поискового
инструмента одинаковой конструкции
запрос, можно получить различные
результаты поиска. Для пользователя
имеет большое значение, какие
документы окажутся в первых двух-трех
десятках документов по результатам
поиска и на сколько эти документы
соответствуют ожиданиям
Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.
Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.
Освоение критериев уточнения
запроса и приемов расширенного
поиска, позволяет увеличивать
Таблица 1
Простой запрос |
account |
merchant account |
internet merchant account |
"merchant account" |
"internet merchant account" |
Расширенный запрос |
internet merchant account and online payments |
internet merchant near gov* |
internet merchant near education |
Расширенный запрос с использованием математических символов |
+internet +merchant +account |
internet ~merchant ~gov* |
internet ~merchant ~governor |
Internet ~merchant ~(governor account) |
Простой запрос дает некоторое
количество ссылок на документы, т.к. в
список попадают документы, содержащие
одно из слов, введенных при запросе,
или простое словосочетание (см.
таблицу 1). Оператор and позволяет указать
на то, что в содержании документа
должны быть включены все ключевые
слова. Тем не менее, количество документов
может быть все еще велико, и
их просмотр займет достаточно времени.
Поэтому в ряде случаев гораздо
удобнее применить контекстный
оператор near, указывающий, что слова
должны располагаться в документе
в достаточной близости. Использование
near значительно уменьшает
Наиболее развитый сервис
поиска русскоязычной информации предоставляет
поисковый сервер Яndex. В Яndex можно просто написать
по-русски фразу, описывающую то, что Вы
хотите найти, и система проанализирует
и обработает Ваш запрос, а затем постарается
найти все, что относится к заданной теме.
Вы можете, используя специальные операторы,
составить строку, поясняющую поисковой
системе, каким Вашим требованиям должна
отвечать интересующая Вас информация.
Некоторые из операторов языка запросов
Яndex можно посмотреть здесь: http://help.yandex.ru/
Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.
Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.
[http://www.seonews.ru/
Способы поиска в Интернете
Интернет в целом и Всемирная паутина, в частности, предоставляют абоненту доступ к тысячам серверов и миллионам Web-страниц, на которых хранится невообразимый объем информации. Как не потеряться в этом "информационном океане"? Для этого необходимо научиться искать и находить нужную информацию в сети.
Как уже было сказано, существуют три основных способа поиска информации в Интернете.
1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.
2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помошыо можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке, то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.
3. Обращение к поисковому серверу (поисковой системе). Использование поисковых серверов - наиболее удобный способ поиска информации. Информация может размещаться на веб-серверах, на ftp-серверах, в блогах, в новостях, в книгах, в словарях, в товарах, на географических картах, в справочниках адресов организаций, среди афиш театров и музеев, в телепрограммах, в каталогах, в Википедии, в архивах Интернета, в пиринговых сетях, в базах данных, в веб-закладках или в рейтинговых системах. Поэтому лучше заранее определиться где мы начнём свой поиск.
- Источники информации;
- Поиск по блогам;
- Поиск в новостях;
- Новости Google;
- Яндекс.Новости;
- Поиск книг и в книгах;
- Поиск в словарях;
- Поиск в картинках;
- Поиск в товарах;
- Поиск по карте;
- Поиск адресов;
- Поиск афиши;
- Поиск по объявлениям;
- Поиск информации о погоде;
- Поиск телепрограммы;
- Поиск в каталогах;
- Поиск в Википедии;
- Поиск в архивах Интернета;
- Поиск через пиринговые системы;
- Поиск в базах данных;
- Поиск в интернет-версиях правовых систем;
- Сервис закладок;
- Поиск через рейтинговые системы;
- Поиск звуков в FindSounds.com.
Методы поиска зависят от того, как мы ответили на два первых вопроса. Поиск может осуществляться в поисковых индексах, через размещение собственной публикации по определенной теме, через экспертов и т.д.
- Карты поиска информации;
- Поисковые индексы;
- Язык запросов в поисковых индексах;
- Собственная публикация как источник информации;
- Поиск через экспертов;
- Поиск на сайтах правовых систем;
- Поисковые системы:
- Google;
- Yahoo!;
- Апорт;
- Rambler;
- Яндекс;
- @MAIL.RU;
- ru.msn.com;
- Nigma.ru ;
- AltaVista;
- Quintura;
- Microsoft Live Search;
- Специализированные поисковики.
- Bing
- Ask.com
- GigaBits.com
- Taggalaxy.de
- FindSounds.com
- KM.RU
- informationrecuperation.
blogspot.com
[Е.Н. Кикоть, Н.Б. Розен «Информационные технологии в коммерческой деятельности (на примере рыбной отрасли)]
Поисковые серверы
Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.
Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети.
Язык запросов поисковой системы
Группа ключевых слов, сформированная по определенным правилам - с помощью языка запросов, называется запросом к поисковому серверу. Языки запросов к разным поисковым серверам очень похожи. Подробнее об этом можно узнать, посетив раздел "Помощь" нужного поискового сервера. Рассмотрим правила формирования запросов на примере поисковой системы Яndex.
Синтаксис оператора |
Что означает оператор |
Пример запроса |
пробел или & |
Логическое И (в пределах предложения) |
лечебная физкультура |
&& |
Логическое И (в пределах документа) |
рецепты && (плавленый сыр) |
| |
Логическое ИЛИ |
фото | фотография | снимок | фотоизображение |
+ |
Обязательное наличие слова в найденном документе |
+быть или +не быть |
( ) |
Группирование слов |
(технология | изготовление) (сыра | творога) |
~ |
Бинарный оператор И НЕ (в пределах предложения) |
банки ~ закон |
~~ |
Бинарный оператор И НЕ (в пределах документа) |
путеводитель по Парижу ~~ (агентство | тур) |
/(n m) |
Расстояние в словах (минус (-) - назад, плюс (+) - вперед) |
поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов |
" " |
Поиск фразы |
"красная шапочка" Эквивалентно: красная /+1 шапочка |
&&/(n m) |
Расстояние в предложениях (минус (-) - назад, плюс (+) - вперед) |
банк && /1 налоги |
Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:
1. Не искать информацию только по одному ключевому слову.
2. Лучше не вводить
ключевые слова с прописной
буквы, так как это может
привести к тому, что не будут
найдены те же слова,
3. Если в итоге поиска
вы не получили никаких
Современные поисковые системы
предоставляют возможность
2.2 Поисковые машины (search engines)
Машины веб-поиска - это
сервера с огромной базой данных
URL-адресов, которые автоматически
обращаются к страницам WWW по всем этим
адресам, изучают содержимое этих страниц,
формируют и прописывают
Более того, роботы поисковых
систем переходят по встречаемым
на страницах ссылкам и
Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.
Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:
- определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?
- обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию.Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса — принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел "Help" ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).
- используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.
- чтобы исключить документы, содержащие определенные термины, используйте знак "-" перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". И для того, чтобы, наоборот, в результаты поиска обязательно включались определенные ссылки, используйте символ "+". Так, чтобы найти ссылки о продаже именно автомобилей, Вам нужен запрос "продажа+автомобиль". Для увеличения эффективности и точности поиска, используйте комбинации этих символов.
- каждая ссылка в списке результатов поиска содержит сниппет – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответсвие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.
- помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система – это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.
К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.
Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.
2.3 Каталоги (directories)
Каталог Интернет-ресурсов –
это постоянно обновляющийся
и пополняющийся иерархический
каталог, содержащий множество категорий
и отдельных web-серверов с кратким
описанием их содержимого.Способ поиска
по каталогу подразумевает «движение
вниз по ступенькам», то есть движение
от более общих категорий к
более конкретным. Одним из преимуществ
тематических каталогов является то,
что пояснения к ссылкам дают
создатели каталога и полностью
отражают его содержание, то есть дает
Вам возможность точнее определить,
насколько соответствует
Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/.
На главной странице данного сайта расположен тематический рубрикатор,
с помощью которого пользователь попадает в рубрику со ссылками на интересующую его продукцию.
Кроме того, некоторые тематические каталоги позволяют искать по ключевым словам. Пользователь вводит необходимое ключевое слово в строку поиска
и получает список ссылок с
описаниями сайтов, которые наиболее
полно соответствуют его
В нашем примере в каталоге
также имеется возможность
Другие примеры русскоязычных
каталогов:
Каталог@Mail.ru
Weblist
Vsego.ru
Cреди англоязычных каталогов можно выделить:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com
2.4 Подборки ссылок
Подборки ссылок – это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно отвечающую Вашим интересам, необходимо ходить по ним самостоятельно, дабы составить собственное мнение.
В качестве примера приведем Подборку ссылок "Сокровища Интернет" АО "Релком"
Пользователь, нажимая на любую из заинтересовавших его рубрик
· СОДЕРЖАНИЕ
Автомобилистам
- Астрономия и астрология
- Ваш дом
- Ваши питомцы
- Дети - цветы жизни
- Досуг
- Города в Сети Internet
- Здоровье и медицина
- Информационные агентства и службы
- Краеведческий музей и т.д.,
попадает на подборку со ссылками
на полезные Интернет-ресурсы
Автомобилистам
- Автомобильная электроника.
- Музей автомото старины.
- Коллегия Правовой Защиты Автовладельцев.
- Sportdrive.
Преимуществом такого вида поисковых инструментов является их целенаправленность, обычно подборка включает в себя редкие интернет ресурсы, подобранные конкретным веб-мастером или хозяином интернет странички.
2.5 Базы данных адресов ( addresses database)
Базы данных адресов – это
специальные поисковые сервера,
которые обычно используют классификации
по роду деятельности, по выпускаемой
продукции и оказываемым
Крупнейшей англоязычной базой
данных адресов можно назвать: http://
представляет собой рубрикатор со множеством поддиректорий, таких как: Find Person, Phone Numbers, Name Search и другие.
Попадая в данные поддиректории, пользователь обнаруживает ссылки на сайты, которые и предлагают интересующую его информацию.
Широко доступных и
2.6 Поиск в архивах Gopher (Gopher archives)
Gopher – это взаимосвязанная система серверов (Gopher-пространство), распределенная по Интернет.
В пространстве Gopher собрана богатейшая
литературная библиотека, однако материалы
недоступны для просмотра в удаленном
режиме: пользователь может только
просматривать иерархически организованное
оглавление и выбирать файл по названию.
С помощью специальной
До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов Интернет. В сети EUnet/Relcom активного развития серверы Gopher не получили, и сегодня о них практически никто не вспоминает.
2.7 Система поиска FTP файлов (FTP Search)
Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher.
Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search:
FileSearch ищет файлы на FTP-серверах
по именам самих файлов и
каталогов. Если Вы ищете
[http://www.dist-cons.ru/
2.8 Система поиска в конференциях Usenet News
USENET NEWS – это система телеконференций
сообщества сетей Интернет. На
Западе этот сервис принято
называть новостями. Близким
С точки зрения абонента телеконференции, USENET представляют из себя доску объявлений, в которой есть разделы, где можно найти статьи на любую тему - от политики до садоводства. Эта доска объявлений доступна через компьютер, подобно электронной почте. Не отходя от компьютера, можно читать или помещать статьи в ту или иную конференцию, найти полезный совет или вступать в дискуссии. Естественно, статьи занимают место на компьютерах, поэтому не хранятся вечно, а периодически уничтожаются, освобождая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является сервер Google Groups (Google Inc.).
Группы Google – это бесплатное интерактивное
сообщество и служба групп обсуждений,
которая предлагает самый обширный
в Интернете архив сообщений
сети Usenet (более миллиарда сообщений).
Среди русскоязычных выделяется сервер Всемирная система USENET и телеконференции Relcom. Точно также как и в других поисковых службах, пользователь набирает строку запроса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо подписаться на отобранные конференции в программе работы с новостями. Также имеет место аналогичный российский сервер FidoNet Online: конференции Fido на WWW.
[http://www.dist-cons.ru/
2.9 Системы мета-поиска
Для быстрого поиска в базах сразу нескольких поисковых систем лучше обратиться к системам мета-поиска.
Системы мета-поиска – это поисковые машины, которые посылают Ваш запрос на огромное количество разных поисковых систем, затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет.
Наиболее популярная в мире система мета-поиска Search.com.
Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя почти два десятка поисковых систем, ссылками на которые пестрит весь Интернет.