Поиск информации с помощью поисковых машин

 

Министерство  образования Республики Беларусь 
Учреждение образования «Полоцкий государственный университет» 
 

СОДЕРЖАНИЕ

ВВЕДЕНИЕ ……………………………………………………………………………………….3

  1. ПРИНЦИПЫ И СПОСОБЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
    1. Поиск информации в сети Интернет с помощью поисковых машин ………….…..…6
    2. Поиск информации в сети Интернет с помощью поисковых машин ………………..11
  2. АНАЛИТИЧЕСКИЙ ОБЗОР ДОКУМЕНТОВ ПО ТЕМЕ «НОРМАТИВНОЕ РЕГУЛИРОВАНИЕ БУХГАЛТЕРСКОГО УЧЕТА В РБ»
    1. Описание поисковых процедур ………………………………………………………..13
    2. Аналитический обзор документов по теме «Нормативное регулирование бухгалтерского учета в РБ»……………………………………………………………..14

ЗАКЛЮЧЕНИЕ ………………………………………………………………………………….18

СПИСОК использованных интернет – ресурсов ………………………………..19

 

 

ВВЕДЕНИЕ

 

Интернет – всемирная  информационная компьютерная сеть, представляющая собой объединение множества  региональных компьютерных сетей и  компьютеров, обменивающихся друг с  другом информацией по каналам общественных телекоммуникаций (выделенным телефонным аналоговым и цифровым линиям, оптическим каналам связи и радиоканалам, в том числе спутниковым линиям связи).

Физически структуру Интернет составляют компьютеры самых разных типов. Те из них, которые подключены постоянно и участвуют в передаче данных между другими участниками Сети, называют Узлами. При подключении к Интернету вы становитесь участником телекоммуникационного обмена. Вообще, в телекоммуникационном обмене участвуют:

* Клиент - это компьютер, программа или человек, включенный в телекоммуникационный обмен - основной участник телекоммуникационного обмена.

* Сервер – это компьютер или программа, предоставляющий определенный вид услуг клиентам.

* Провайдер – поставщик  сетевых услуг – лицо, или организация,  предоставляющее услуги по подключению  к компьютерным сетям. В качестве  провайдера выступает некоторая  организация, имеющая модемный  пул для соединения с клиентами  и выхода во всемирную сеть.

* Узел – это компьютер  (или другое техническое устройство), служащий для обеспечения связи  между серверами и клиентами.

Таким образом, основа функционирования Интернет - работа узлов. Несмотря на то, что многие из узлов аппаратно  несовместимы, вся система функционирует  надежно благодаря тому, что каждый узел использует стандартный протокол передачи данных - TCP/IP (Transmission Control Protocol/Internet Protocol).

Согласно протоколу TCP/IP все данные, циркулирующие в информационном поле, разбиты на небольшие блоки и вложены в пакеты. Каждый пакет кроме данных, вложенных в него, имеет заголовок длиной всего 20 байт. Несмотря на такой небольшой размер в этом заголовке содержится и адрес отправителя, и прочая информация, необходимая для правильной сборки пакетов в пункте назначения.

Пакеты переходят с  одного узла на другой и далее пересылаются на другой узел, находящийся "ближе" к адресату. Если пакет передан  неудачно, передача повторяется. Теоретически возможно, что разные сообщения пройдут  разными путями, но все равно достигнут  адресата и будут собраны в  полный документ. Возможно, что некоторые  документы, отправленные из Англии в Австралию, обогнут земной шар с востока на запад, а другие - с запада на восток.

Одной из наиболее популярных служб, возникших на базе сети Интернет, стала "Всемирная паутина" WWW (World Wide Web). Типичная "Web-страница" представляет собой полный экран текстовой  и графической информации, связанной  с некоторым конкретным предметом  или вопросом. Ключевые слова и (или) изображения на такой странице выделены.

Если пользователь выбирает один из таких выделенных элементов, то на экране воспроизводится новая  страница, посвященная выбранному слову  или изображению. Пользователь может, следуя таким ссылкам, продолжить вывод  на экран новых страниц. Программа, которая осуществляет поиск, выборку  и воспроизведение Web-страниц, называется браузером, а компьютеры, хранящие информацию, - Web-серверами.

Концепцию "паутины" разработал в 1990 Т.Бернерс-Ли в Европейском центре ядерных исследований ЦЕРН в Женеве (Швейцария). Он хотел создать систему, которая помогала бы ученым сотрудничать, применяя упрощенные способы создания и использования мультимедиа-информации Совместное пользование информацией, содержащейся в "паутине", стало  возможным благодаря применению для создания Web-страниц общего языка, получившего название гипертекстового  языка описания документов HTML, общего протокола для обмена информацией, названного гипертекстовым транспортным протоколом HTTP, и стандартного формата  адресов (унифицированного указателя  ресурсов) URL. Важным достоинством URL является то, что он может работать с любым  протоколом, а не только с HTTP; отсюда следует, что "Всемирная паутина" спроектирована так, чтобы ее можно  было использовать со всеми существующими  и будущими сетевыми службами.

Спектр пользователей WWW довольно широк. Такие государственные  организации, как НАСА, различные  институты и библиотеки используют WWW для публикации текстовой информации и изображений. Предприятия и  организации размещают в узлах WWW рекламу, информацию о продаже  производимых товараров и принимают  заказы. Для индивидуальных пользователей, располагающих собственными компьютерными  идентификаторами, наиболее увлекательным  представляется создание своих "базовых Web-страниц", открывающих новые  возможности для самовыражения  и совместного пользования информацией.

Целью курсовой работы является изучение сети Интернет, приемов поиска информации в ней по теме «», а  также освоение основ языка HTML и методов создания Web- документов.

В соответствии с указанной  целью, в работе поставлены следующие  задачи:

  1. Ознакомление с всемирной компьютерной сетью Интернет и используемыми в ней технологиями.
  2. Освоение приемов эффективного поиска необходимой информации в сетевых ресурсах.
  3. Получение практического опыта поиска информации по заданной теме.
  4. Освоение языка  HTML и методов создания Web- документов.
  5. Получение практического опыта создания  Web- страниц на основе найденных в сети документов.

 

1. ПРИНЦИПЫ И СПОСОБЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

 

Сложность поиска информации в Интернете обусловлена ее огромным объемом, количеством, многочисленностью и разбросанностью ресурсов, на которых она расположена. Осуществлять поиск информации в Интернете без использования специальных методов и приемов - сложное, а порой даже невозможное занятие.

Именно в связи с  этим для облегчения работы по поиску информации пользователями сети Интернет были созданы специальные поисковые  машины или поисковые системы, которые  осуществляют поиск необходимой  информации во всемирной сети, используя  принципы поиска по ключевым словам и  фразам, которые задаются пользователями сети, осуществляющими поиск необходимой  им информации различного плана.

Принцип работы поисковой  системы достаточно несложен: заданное пользователем в специальной  строке поиска, слово или словосочетание, соответствующее характеру необходимой  информации, анализируется поисковой  системой и по нему находятся соответствия в Интернете, наиболее подходящие под  условия поиска. Работа поисковой  системы, таким образом, заключается  в нахождении подобных заданным, слов и словосочетаний на многочисленных сайтах, расположенных в сети Интернет.

Активное развитие сети Интернет, произошедшее в последнее десятилетие, привело к тому, что результатами поиска необходимой информации, могли  стать десятки тысяч интернет-страниц  и сайтов, содержащих слово или  фразу, внесенную пользователем  в строку запроса. При этом совсем необязательно, что эти страницы или сайты могли соответствовать  по смыслу той информации, которую  искал пользователь сети.

Эти обстоятельства привели  к тому, что разработчиками современных  поисковых систем, стали использоваться абсолютно новые принципы поиска, заложенные в поисковые машины, использующие логические и морфологические инструменты  построения предложений и фраз. Работающие по таким принципам поисковые  системы, имеют возможность отсеивать  ненужную информацию, выбирать из найденной  информации действительно полезную и выдавать в качестве результатов  поиска, преимущественно ту информацию, в которой испытывает потребность  пользователь Интернета, осуществляющий поиск.

Основными способами поиска информации в сети Интернет являются поисковые машины и каталоги информационных ресурсов.

1.1 Поиск информации в сети Интернет с помощью поисковых машин

Поисковая машина представляет собой комплект программ, в основе которого лежат следующие пять:

    1. Spider («паук») – программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает на экране.
    2. Crawler («червяк» или «путешествующий паук») – программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.
    3. Indexer (индексатор) – программа, которая разбирает страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно – текст, выделенный полужирным шрифтом, курсивом и т.д.
    4. Database (база данных) – хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.
    5. Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы и «общается» пользователь.

Первые две программы, работающие «в связке», часто называют поисковой робот (а иногда – HTTP-робот).

Поисковая машина, получив  запрос на поиск, анализирует лишь ту информацию, которую собрала ранее. С одной стороны, это позволяет  резко повысить скорость обработки  запроса на поиск. С другой, ограничивает область поиска внутренними ресурсами  поисковой системы, которые, во-первых, ограничены (ни одна поисковая машина не в состоянии загрузить в  свою базу данных информацию со всех узлов  Сети), во-вторых, уже в какой-то степени  устарели. Ситуация в Интернет изменяется очень быстро. Если «паук» с целью  обновления информации об уже проиндексированных однажды Web-страницах «заползает» на них раз в два месяца, пользователь рискует получить в результатах запроса ссылку на уже несуществующую Web-страницу.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой  машиной называется индексация, а  сама база данных поисковой машины, в которой хранится собранная  информация, - индекс.

Глубина индексации может  быть разной. Полные тексты документов, размещенных на странице, в базу данных копируют не все поисковые  роботы – некоторые ограничиваются лишь заголовками. Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (их часто называют ключевые слова). Таких страниц может быть очень много. Задача поисковой машины – отобрать те из них, которые в наибольшей степени отвечают запросу пользователя (т.е. ревалентны ему) и указать ссылки на них в числе первых.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая  машина обращается к уже собранной  и хранящейся тут же, у нее «под рукой», информации. Анализируя собранные  данные, поисковая машина выполняет  индексацию базы данных, в процессе которой каждому слову ставится в соответствие его «координаты» - номер документа, в котором имеется  данное слово, а зачастую и позиция  слова в документе (номер предложения  и номер слова в нем).

Алгоритмом поиска можно  назвать метод, руководствуясь которым  поисковая машина принимает решение, включать, или не включать ссылку на страницу либо документ в результаты поиска.

Самый простой поиск, который  вообще может осуществить любой  неподготовленный пользователь Интернета - это поиск по ключевым словам. После  выполнения запроса браузер выдаст список страниц сайтов, в котором  встречаются данные ключевые слова. Если список не умещается на одной  странице браузера, список со ссылками продолжится на других страницах. Переход  между страницами прост: в конце  каждой страницы с ответом на запрос находятся номера этих страниц. Выбор  мышью номера страницы автоматически  открывает ее. При этом по ссылкам  можно передвигаться как вперед, так и назад.

Чтобы осуществить расширенный  поиск в Интернет, вначале необходимо познакомиться с регулярными  выражениями. Что это такое и  для чего они нужны? Регулярные выражения  позволяют осуществить поиск  по некоторому шаблону слова или  выражения, в который включается как буквы слова, которые необходимо найти, так и символы, заменяемые другими, произвольными символами.

В регулярных выражениях используются следующие символы:

? - символ, указывающий на  то, что, на месте этого знака  может встречаться любая буква  или цифра, и при том только  одна. Например, регулярному выражению  м?л удовлетворяют слова "мал", "мол" и "мел".

* - символ, указывающий на  то, что на его месте могут  встречаться произвольное число  любых символов, в том числе  пустое множество символов (то  есть вообще ничего). Например, регулярное  выражение "М*" означает любое  слово, начинающееся с прописной  русской буквы "М".

Использование регулярных выражений  позволяет во много раз "сократить  сущности" при поиске ключевых слов

При комбинации запросов, содержащие несколько слов, может возникнуть ситуация, когда требуется найти  не просто ключевые слова, а, например:

чтобы все ключевые слова  присутствовали в тексте найденных  страниц;

чтобы в тексте найденных  страниц присутствовало хотя бы одно слово (этот режим используется при  поиске первоначально);

чтобы в тексте найденных  страниц обязательно присутствовали одни слова, и не встречались другие.

Для написания таких запросов нужно использовать выражения булевой  алгебры: "И", "ИЛИ", "НЕ". Они обозначаются соответственно как "&", "|" и "~". Запросу <выражение 1> & <выражение 2> удовлетворяет  обязательное одновременное присутствие  в ответе обоих выражений. Запросу <выражение 1> | <выражение 2> удовлетворяет  присутствие хотя бы одного выражения  в ответе. И, наконец, запрос <выражение 1>~<выражение 2> выполняется только в случае присутствие первого  выражения и отсутствия в ответе второго выражения.

В некоторых поисковых  машинах предусмотрена опция "поиск  по странам" и "поиск по регионам". Для этого пользователь в специальном  поле формы запроса пишет (или  выбирает) название страны и региона. В этом случае ответы на запрос "фильтруются" по Интернет-адресам серверов, расположенных  в данном регионе.

Некоторые поисковые системы  предоставляют услугу фильтрации содержимого  по типу файлов. Так, по умолчанию поиск  ведется только по Веб-страницам (html-файлам). При включении этого фильтра  также будет осуществляться поиск  в файлах формата Adobe Acrobat (.pdf), Microsoft Word (.doc), Microsoft Excel (.xls), Microsoft PowerPoint (.ppt) и Macromedia Flash (.swf).

В общем случае регистр  написания букв в поисковых словах и операторах значения не имеет. То есть такие слова, как конь и КОНЬ, and и aND воспринимаются поисковыми системами  как одинаковые. Однако, в некоторых  поисковых системах, с целью повышения  качества поиска, регистр слов в  запросе принимае6тся во внимание. Прежде всего, это касается обработки  имен собственных.

Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика.

Т.о. поисковая система  должна провести довольно детальный  анализ каждой страницы, информацию о  которой она заносит в свою базу данных.

Поисковые машины Интернета:

    • Alta Vista http://www.altavista.com/
    • Google http://www.google.ru/
    • Yahoo! http://google.yahoo.com/
    • MSN Search http://search.msn.com/

Поисковые машины Рунета (в  индексе находятся сайты на русском  языке):

    • Яндекс http://www.yandex.ru/
    • Рамблер http://www.rambler.ru/
    • Апорт http://www.aport.ru/
    • Mail.ru http://go.mail.ru/
    • Punto http://www.punto.ru/
    • Google http://www.google.ru/

Недостатки поисковых  машин Рунета.:

Поисковые машины Рунета, например Google, не учитывают морфологию русского языка. Например, слова "диссертация" и "диссертации" считают разными. Отправим в Google http://www.google.ru поисковый запрос "диссертации". Google в результатах поиска выдаст нам 151000 документов. Обратите внимание в результатах поиска на слова, выделенные жирным шрифтом. Именно эти слова Google считает соответствующими поисковому запросу. При запросе "диссертации" Google пропускает слова "диссертация" и считает только слова "диссертации».

Информация о сайте  может быть занесена не во все поисковые  машины Рунета.

По определенному поисковому запросу поисковая система выдает в результатах поиска только одну страницу с сайта, наиболее релевантную (соответствующую) поисковому запросу.

Достоинства поисковых машин  Рунета.

Важной характеристикой  поисковой машины является способность  переиндексировать сайт, т.е. обновлять  в своем индексе информацию о  сайте. Обычно робот-паук поисковой  системы повторно заходит на сайт через 1-2 недели после первой индексации. Мощная поисковая машина обходит  всю сеть за неделю (т.е. за месяц  поисковая система переиндексирует  сайт 3-4 раза). При этом составляется весьма свежий и довольно подробный  индекс. При каждом новом цикле  обхода индекс обновляется, и старые недействительные адреса удаляются.

По умолчанию в результатах  поискового запроса поисковая машина показывает по одной странице с каждого  сайта, соответствующего поисковому запросу. В противном случае вместо 1283 страниц  пользователю пришлось бы перебирать все 74095 с целью отбора нужной информации.

 

1.2 Поиск информации в сети Интернет с помощью каталогов информационных ресурсов

Каталоги информационных ресурсов представляют собой систематизированные  группы адресов, объединенные, как правило, по тематике. В отличие от подборок ссылок имеется механизм поиска. Но работа поисковых механизмов ограничивается поиском в кратких аннотациях сайтов.

Поисковые каталоги похожи на предметные каталоги общественных библиотек. На начальной странице каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список ресурсов, рекомендованных для просмотра. Существует огромное количество каталогов. Один из наиболее популярных каталогов в России находится по адресу http://list.mail.ru/.

Помимо каталогов общего профиля, в Сети достаточно много  специализированных каталогов.

Информация о сайтах в  каталоги может вноситься вручную, как авторами сайта через механизм регистрации, так и модераторами – ведущими рубрик каталога.

Кроме основных разделов многие каталоги имеют дополнительные, в  которых сайты классифицированы по другому основанию: региону, алфавиту, популярности.

Каталоги могут быть

- специализированными, и  включать только ссылки на  сайты определенной, узкой тематики. Подобные каталоги удобны для  поиска информации по конкретной  тематике.

- универсальными. Они позволяют  производить поиск по различным  темам. Информация сгруппирована  по разделам. Каждый раздел имеет  несколько подразделов.

К удобству применения каталогов  можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую  ветвь каталога. Так же с помощью  каталогов удобно искать информацию на общие темы (природа, искусство, компьютеры, медицина и т.д.). Чем удобен поиск в каталоге? Любой каталог имеет рубрикатор. Таким образом, информация в определенной степени отсортирована. Каждый адрес снабжен аннотацией представленных материалов. При решении достаточно стандартной поисковой задачи именно каталог, а не поисковая машина оказываются более приемлемыми для начала поиска. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает Вам возможность точнее определить, насколько соответствует содержание сервера цели Вашего поиска. Однако объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать.

Крупнейшим поисковым  каталогом мира сегодня считается  каталог Yahoo! Он предоставляет более 1,5 млн. ссылок к ресурсам Интернета, при этом охватывая чуть более  тысячной доли всего Web-пространства. Данные, которые заносятся в каталог, проходят «ручную обработку». Сегодня на Yahoo! работают 200 редакторов, ежедневно просматривающих пространство Интернета в поисках наиболее ценных ресурсов по темам, вызывающим общественный интерес.Каталог не замусоривает свои рубрики ссылками на страницы-однодневки. Пользователей всегда раздражают ссылки, указывающие на давно несуществующие ресурсы, поэтому Yahoo! скрупулезно подходит к формированию своих разделов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем его ресурсов крайне мал.

 

2. АНАЛИТИЧЕСКИЙ ОБЗОР ДОКУМЕНТОВ ПО ТЕМЕ «НОРМАТИВНОЕ РЕГУЛИРОВАНИЕ БУХГАЛТЕРСКОГО УЧЕТА В РБ»

2.1 Описание поисковых  процедур

Поиск с помощью каталогов.

Чтобы найти сайты по определенной теме, необходимо «пройтись» по дереву каталога, постепенно сужая область  поиска. Самое главное – изначально определить, в каком разделе начинать поиск.

Если не удалось найти сайты на интересующую тему в одном разделе, необходимо продолжите поиск в смежном.

В силу того, что разные каталоги по-разному формируются, имеют разную идеологию построения, необходимо использовать для поиска информации сразу несколько  каталогов ресурсов.

Практически все каталоги содержат поисковый механизм, позволяющий  искать информацию по ключевым словам или фразам в описаниях и даже содержимом сайтов.

В качестве примера попробуем  найти с помощью каталога «Лист.Ру» сайт Министерства Финансов. Предположим, что сайт Министерства Финансов находится в одном разделе с Финансами. В верхней части страницы расположены подразделы. В скобках рядом с названием указано, сколько сайтов содержит подраздел. Можно начать чтение списка всех сайтов этого раздела с этой страницы, но можно выбрать необходимый подраздел.

Далее мы можем выбрать, что  является предметом нашего интереса для просмотра – сайты из каталога или тематические рассылки. Далее указан важный нюанс – сортировка: по оценке гидов, алфавиту, популярности, дате. Выбрав вариант сортировки, мы можем значительно упростить поиск.

Есть и другой способ. Фраза, которую укажем в строке поиска – «Министерство Финансов». На главной странице каталога в строку поиска вводим запрос. Обязательно необходимо указать область поиска – «Каталог» - для поиска в содержимом каталога. Искомый сайт находится первым и вторым в списке подраздела. Появление сайта в результатах поиска дважды объясняется тем, что он внесен в разные разделы и имеет там разные названия.

Поиск с помощью поисковых  машин.

Необходимо подобрать  ключевые слов и ввести их в строке поиска.

 

2.2 Аналитический обзор документов по теме «Нормативное регулирование бухгалтерского учета в РБ»

Рассмотрим некоторые  документы, найденные по теме:

http://www.pravo.by/webnpa/text.asp?RN=v19403321 ЗАКОН РЕСПУБЛИКИ БЕЛАРУСЬ «О бухгалтерском учете и отчетности» от 18 октября 1994 г. № 3321-XII

Настоящий Закон определяет правовые и методологические основы организации и ведения  бухгалтерского учета, устанавливает  требования, предъявляемые к составлению  и представлению бухгалтерской  отчетности, регулирует взаимоотношения  по вопросам бухгалтерского учета и  отчетности в Республике Беларусь.

В «ЗАКОНЕ» устанавливаются:

    1. Сфера действия настоящего Закона
    2. Основные понятия, применяемые в настоящем Законе, и их определения
    3. Законодательство Республики Беларусь о бухгалтерском учете и отчетности
    4. Основные задачи бухгалтерского учета и отчетности
    5. Государственное регулирование бухгалтерского учета и отчетности
    6. Организация бухгалтерского учета. Учетная политика организации
    7. Главный бухгалтер, его права и обязанности
    8. Основные требования к ведению бухгалтерского учета
    9. Первичные учетные документы
    10. Регистры бухгалтерского учета
    11. Определение стоимости активов и обязательств при принятии их на бухгалтерский учет. Переоценка активов и обязательств
    12. Инвентаризация активов и обязательств
    13. Состав бухгалтерской отчетности
    14. Представление бухгалтерской отчетности
    15. Публикация бухгалтерской отчетности
    16. Хранение документов бухгалтерского учета и отчетности
    17. Ответственность за нарушение законодательства Республики Беларусь о бухгалтерском учете и отчетности
    18. Международные договоры
Поиск информации с помощью поисковых машин