Поисковые системы Internet. Структура и принципы работы

 

Факультет     Экономический

Кафедра        Информационные системы

 

 

КУРСОВАЯ РАБОТА

На тему: Поисковые системы Internet. Структура и принципы работы.

По дисциплине: Информационные технологии в управлении

 

                                                       

 

 

 

 

Дата сдачи_______________

Дата защиты_____________

Оценка___________________

 

 

 

 

 

 

 

 

 

 

 

Ставрополь, 2014

ОГЛАВЛЕНИЕ

 

Исходные данные…………………………………………………………………2

Введение………………………………………………………………………..….4

Глава I. Характеристика компьютерной сети Интернет………………………..5

           1.1.История создания Интернета………………………… ……………...5

           1.2. Понятие Интернета…………………………………………….….….6

           1.3. Структура Интернета…………………………………………………8

           1.4. Протоколы сети Интернет……………………………….....………...9 Глава II. Понятие поисковых систем………………..............................…….....13

         2.1. Определение  поисковых систем……………………………..….....13

          2.2. Классификация поисковых систем…………………………….…...16

           2.3. Структура поисковых систем ………………………………..……..23

          2.4. Принципы работы поисковых систем ………………………….….24

          2.5. Перспективы развития поисковых систем …………...……………26

Заключение……………………………………………………………………….30

Список использованных информационных источников……………………...31

Приложение А……………………………………………………………………32

 

 

 

 

 

 

 

 

 

 

 

ВВЕДЕНИЕ

 

Сегодня множество людей открывают для  себя существование глобальных сетей, объединяющих компьютеры во всем мире в единое информационное пространство, которое называется Internet. Что это такое, определить непросто. С технической точки зрения Internet – это объединение транснациональных компьютерных сетей, работающих по различным протоколам, связывающих всевозможные типы компьютеров, физически передающих данные по всем доступным типам линий - от витой пары и телефонных проводов до оптоволокна и спутниковых каналов.

Если  ранее сеть использовалась исключительно  в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределенного доступа к ресурсам. Сеть Internet, служившая когда-то исключительно исследовательским и учебным группам, чьи интересы простирались вплоть до доступа к суперкомпьютерам, становится все более популярной в деловом мире.

 

     Быстрота, дешевая глобальная связь, удобство для проведения совместных работ, доступные  программы, уникальная база данных сети Internet – все это привлекает различные  компании. Они рассматривают глобальную сеть как дополнение к своим собственным локальным сетям.

 

     В архивах свободного доступа сети Internet можно найти информацию практически  по всем сферам человеческой деятельности, начиная с новых открытий в различных областях науки до прогноза погоды на завтра или курса иностранной валюты на сегодня.

Объектом и предметом исследования являются компьютерная сеть Интернет.

 Цель работы: сформировать информационно-наглядное представление о поисковых системах. Дать характеристику поисковых систем и их видов, показать их важность.

 

 

ГЛАВА  I ХАРАКТЕРИСТИКА КОМПЬЮТЕРНОЙ СЕТИ ИНТЕРНЕТ

 

    1. История создания Интернета

 

В 1961 году Defence Advanced Research Agensy (DARPA) по заданию министерства обороны США приступило к проекту по созданию экспериментальной сети передачи пакетов. Эта сеть, названная ARPANET, предназначалась первоначально для изучения методов обеспечения надежной связи между компьютерами различных типов. Многие методы передачи данных через модемы были разработаны в ARPANET. Тогда же были разработаны и протоколы передачи данных в сети - TCP/IP. TCP/IP - это множество коммуникационных протоколов, которые определяют, как компьютеры различных типов могут общаться между собой.      

Эксперимент с ARPANET был настолько успешен, что  многие организации захотели войти  в эту сеть, с целью использования  ее для ежедневной передачи данных. И в 1975 году ARPANET превратилась из экспериментальной  сети в рабочую сеть. Ответственность за администрирование сети взяло на себя Defence Communication Agency (DCA), в настоящее время называемое Defence Information Systems Agency (DISA). Но развитие ARPANET на этом не остановилось. Протоколы TCP/IP продолжали развиваться и совершенствоваться.      

В 1971-1972 годах вышел первый стандарт для протоколов TCP/IP, вошедший в Military Standarts (MIL STD), т.е. в военные стандарты, и  все, кто работал в сети, обязаны  были перейти к этим новым протоколам. Для облегчения этого перехода DARPA обратилась с предложением к руководителям фирмы Berkley Software Design - внедрить протоколы TCP/IP в Berkeley(BSD) UNIX. С этого и начался союз UNIX и TCP/IP.      

Спустя  некоторое время TCP/IP был адаптирован  в обычный, то есть в общедоступный стандарт, и термин Internet вошел во всеобщее употребление.  В 1983 году из ARPANET выделилась MILNET, которая стала относиться к Defence Data Network (DDN) министерства обороны США. Термин Internet стал использоваться для обозначения единой сети: MILNET плюс ARPANET. И хотя в 1991 году ARPANET прекратила свое существование, сеть Internet существует, ее размеры намного превышают первоначальные, так как она объединила множество сетей во всем мире. Число хостов, подключенных к сети Internet с 4 компьютеров в 1969 году выросло до 150 миллионов в 2002 году.  Хостом в сети Internet называются компьютеры, работающие в многозадачной операционной системе (Unix, VMS), поддерживающие протоколы TCP\IP  и предоставляющие пользователям какие-либо сетевые  услуги.

 

    1. Понятие Интернет

 

Internet - глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 500 миллионов абонентов в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7-10%. Магистральная скорость всего за несколько лет выросла с 56 Кбит/с до 100 Мбит/с. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям  во всем  мире, одна с другой.      

Фактически Internet состоит из множества локальных  и глобальных сетей, принадлежащих  различным компаниям и предприятиям, связанных между собой различными линиями связи. Internet можно представить себе в виде мозаики сложенной из небольших сетей разной величины, которые активно взаимодействуют одна с другой, пересылая файлы, сообщения и т.п.      

Сейчас  в сети Internet используются практически все известные линии связи от низкоскоростных телефонных линий до высокоскоростных цифровых спутниковых каналов. Операционные системы, используемые в сети Internet, также отличаются разнообразием. Большинство компьютеров сети Internet работают под ОС Unix или MS Windows. Широко представлены также специальные маршрутизаторы сети типа NetBlazer или Cisco, чья ОС напоминает ОС Unix.      

В настоящее время Internet испытывает период подъема, во многом благодаря активной поддержке со стороны правительств европейских стран и США. Ежегодно в США выделяется около 1-2 миллионов долларов на создание новой сетевой инфраструктуры. Исследования в области сетевых коммуникаций финансируются также правительствами Великобритании, Швеции, Финляндии, Германии. Однако, государственное финансирование - лишь небольшая часть поступающих средств, т.к. все более заметной становится "коммерцизация" сети. Ожидается, что 80-90% средств будет поступать из частного сектора.      

С понижением цен на персональные компьютеры возросло количество посетителей Internet, и естественно многие предприятия и организации не могли обойти данный факт стороной. Сейчас в сети можно не только найти нужную информацию, но и купить все: от булавки до автомобиля. Хотя,  многие зарубежные онлайновые магазины категорически отказываются работать с Россией. Так же посредством Internet можно получить не только общее образование, что широко практикуется в США, но и сертификаты узких специальностей.      

Кроме того, Internet предоставляет уникальные возможности дешевой, надежной и  конфиденциальной глобальной связи по всему миру. Это оказывается очень удобным для фирм имеющих свои филиалы по всему миру, транснациональных корпораций и структур управления. Обычно, использование инфраструктуры Internet для международной связи обходится значительно дешевле прямой компьютерной связи через спутниковый канал или через телефон.      

Развитие  общения через Internet дает неограниченные возможности для связи людей по всему миру, что дает эффект «стирания расстояний».  

 

 

    1. Структура Интернета

 

В настоящее время в Интернете существует достаточно большое количество сервисов, обеспечивающих работу со всем спектром ресурсов. Наиболее известными среди них являются:

  1. сервис DNS, или система доменных имен, обеспечивающий возможность использования для адресации узлов сети мнемонических имен вместо числовых адресов;

  1. электронная почта (E-mail), обеспечивающая возможность обмена сообщениями одного человека с одним или несколькими абонентами;

  1. сервис IRC, предназначенный для поддержки текстового общения в реальном времени (chat);

  1. телеконференции, или группы новостей (Usenet), обеспечивающие возможность коллективного обмена сообщениями;

  1. сервис FTP — система файловых архивов, обеспечивающая хранение и пересылку файлов различных типов;

  1. сервис Telnet, предназначенный для управления удаленными компьютерами в терминальном режиме;

  1. World Wide Web (WWW, W3, «Всемирная паутина») — гипертекстовая (гипермедиа) система, предназначенная для интеграции различных сетевых ресурсов в единое информационное пространство;

  1. Потоковое мультимедиа.

Перечисленные выше сервисы относятся к стандартным. Это означает, что принципы построения клиентского и серверного программного обеспечения, а также протоколы взаимодействия сформулированы в виде международных стандартов. Следовательно, разработчики программного обеспечения при практической реализации обязаны выдерживать общие технические требования.

Наряду со стандартными сервисами существуют и нестандартные, представляющие собой оригинальную разработку той или иной компании. В качестве примера можно привести различные системы типа Instant Messenger, системы интернет-телефонии, трансляции радио и видео и т. д. Важной особенностью таких систем является отсутствие международных стандартов, что может привести к возникновению технических конфликтов с другими подобными сервисами.

Для стандартных сервисов также стандартизируется и интерфейс взаимодействия с протоколами транспортного уровня. В частности, за каждым программным сервером резервируются стандартные номера TCP- и UDP-портов, которые остаются неизменными независимо от особенностей той или иной фирменной реализации как компонентов сервиса, так и транспортных протоколов. Номера портов клиентского программного обеспечения так жестко не регламентируются. Это объясняется следующими факторами:

  1. во-первых, на пользовательском узле может функционировать несколько копий клиентской программы, и каждая из них должна однозначно идентифицироваться транспортным протоколом, то есть за каждой копией должен быть закреплен свой уникальный номер порта;

  1. во-вторых, клиенту важна регламентация портов сервера, чтобы знать, куда направлять запрос, а сервер сможет ответить клиенту, узнав адрес из поступившего запроса.

 

    1. Протоколы сети Интернет

 

Основное, что отличает Internet от других сетей - это ее протоколы - TCP/IP. Вообще, термин TCP/IP обычно означает все, что связано  с протоколами взаимодействия между  компьютерами в Internet.

Он охватывает целое семейство протоколов, прикладные программы, и даже саму сеть. TCP/IP - это технология межсетевого взаимодействия, технология internet. Свое название протокол TCP/IP получил от двух коммуникационных протоколов (или протоколов связи). Это Transmission Control Protocol (TCP) и Internet Protocol (IP). Несмотря на то, что в сети Internet используется большое число других протоколов, сеть Internet часто называют TCP/IP-сетью, так как эти два протокола, безусловно, являются важнейшими.

 

      Как и в другой сети в Internet существует 7 уровней взаимодействия между компьютерами: физический,  логический, сетевой, транспортный, уровень сеансов связи, представительский  и прикладной уровень. Соответственно каждому уровню взаимодействия соответствует набор протоколов, т.е. правил взаимодействия.

 

      Протоколы физического уровня определяют вид  и характеристики линий связи  между компьютерами. В Internet используются практически все известные в  настоящее время способы связи  от простого провода (витая пара) до волоконно-оптических линий связи (ВОЛС).

 

      Для каждого типа линий связи разработан соответствующий протокол логического  уровня, занимающийся управлением передачей  информации по каналу. К протоколам логического уровня для телефонных линий относятся протоколы SLIP (Serial Line Interface Protocol) и PPP (Point to Point Protocol). Для связи по кабелю локальной сети - это пакетные драйверы плат ЛВС.

 

      Протоколы сетевого уровня отвечают за передачу данных между устройствами в разных сетях, то есть занимаются маршрутизацией пакетов в сети. К протоколам сетевого уровня принадлежат IP (Internet Protocol) и ARP (Address Resolution Protocol).

 

      Протоколы транспортного уровня управляют  передачей данных из одной программы  в другую. К протоколам транспортного уровня принадлежат TCP (Transmission Control Protocol) и UDP (User Datagram Protocol).

 

      Протоколы уровня сеансов связи отвечают за установку, поддержание и уничтожение  соответствующих каналов. В Internet этим занимаются уже упомянутые TCP и UDP протоколы, а также протокол UUCP (Unix to Unix Copy Protocol).

 

      Протоколы представительского уровня занимаются обслуживанием прикладных программ. К программам представительского уровня принадлежат программы, запускаемые, к примеру, на Unix-сервере, для предоставления различных услуг абонентам. К таким программам относятся: telnet-сервер, FTP-сервер, Gopher-сервер, NFS-сервер, NNTP (Net News Transfer Protocol), SMTP (Simple Mail Transfer Protocol), POP2 и POP3 (Post Office Protocol) и т.д.  К протоколам прикладного уровня относятся сетевые услуги и программы их предоставления.

 

Выводы по главе:

 

1. В настоящее время подключиться к Интернету можно через спутники связи, радио-каналы, кабельное телевидение, телефон, сотовую связь, специальные оптико-волоконные линии или электропровода. Всемирная сеть стала неотъемлемой частью жизни в развитых и развивающихся странах. В течение пяти лет Интернет достиг аудитории свыше 50 миллионов пользователей. Другим средствам коммуникации требовалось гораздо больше времени для достижения такой популярности.

2. Интернет —всемирная система объединённых компьютерных сетей для хранения и передачи информации. Часто упоминается как Всемирная сеть и Глобальная сеть, а также просто Сеть[2]. Построена на базе стека протоколов TCP/IP. На основе Интернета работает Всемирная паутина и множество других систем передачи данных.

3. На каждой почтовой подстанции определяется следующая подстанция, куда будет далее направлена корреспонденция, т.е. намечается дальнейший путь (маршрут) - этот процесс называется маршрутизацией. Для осуществления маршрутизации каждая подстанция имеет таблицу, где адресу пункта назначения соответствует указание почтовой подстанции, куда следует посылать далее этот конверт. Их сетевые аналоги называются таблицами маршрутизации. Эти таблицы рассылаются почтовым подстанциям централизовано соответствующим почтовым подразделением.

4. Протокол — это, образно говоря, «язык», используемый компьютерами для обмена данными при работе в сети. Чтобы различные компьютеры сети могли взаимодействовать, они должны «разговаривать» на одном «языке», то есть использовать один и тот же протокол. Проще говоря, протокол — это правила передачи данных между узлами компьютерной сети. Систему протоколов Интернет называют «стеком протоколов TCP/IP».

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ГЛАВА II ПОНЯТИЕ ПОИСКОВЫХ СИСТЕМ

 

2.1 Определение поисковых систем

 

На ранней стадии разработки интернета был список веб-серверов под редакцией Тима Бернерса-Ли, размещённый на веб-сервереЦЕРН. Остался один снимок списка в 1992 года, но поскольку всё больше веб-серверов переходило в онлайн, центральный список больше не мог поддерживаться на высоком уровне. На сайте NCSAо новых серверах объявили под заголовком «Что нового!».

Первым инструментом, используемым для поиска в Интернете, был Арчи, что расшифровывается как архив. Он был создан в 1990 году Аланом Эмтэджем, Биллом Хиланом и Дж. Питером Дойчем, студентами в области информатики вуниверситете Макгилла в Монреале. Программа создавала доступную для поиска базу данных имён всех файлов, расположенных на общедоступных анонимных FTP-серверах; однако, Арчи не индексировал содержание этих сайтов, так как объем данных был небольшой и их можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, созданного в 1991 году Марком П. Маккэхилом в университете Миннесоты, привело к двум новым поисковым программам,Veronica и Jughead. Как Арчи, они искали имена файлов и заголовки, сохраненные в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Летом 1993 года не существовало ни одной поисковой системы для веб-сети, хотя многочисленные специализированные каталоги поддерживались вручную.

Оскар Нирштрасс в Женевском университете написал ряд сценариев на Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это сформировало основу дляW3Catalog, первой примитивной поисковой системы сети, выпущенной 2 сентября 1993 года.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем изМассачусетского технологического института в июне 1993 года. Цель Wandex состояла в том, чтобы измерить размер всемирной паутины. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Aliweb не использовал поискового робота, но вместо этого зависел от получения уведомления от администраторов веб-сайтов на наличие на каждом объекте индексного файла в определенном формате.

JumpStation , созданный в декабре 1993 года Джонатоном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота и использовал веб-форму в качестве интерфейса. Таким образом, это был первый инструмент поиска в Интернете, который сочетал три существенных функции поисковой системы. Из-за ограниченных ресурсов, доступных на платформе, где система была запущена, её индексация и, следовательно, поиск были ограничены названиями и заголовками, найденными в полученных роботом веб-страницах.

Первой полнотекстовой  поисковой системой стала «WebCrawler», запущенная в 1994 году. В отличие от своих предшественниц она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, который получил широкое распространение.

Вскоре появилось множество других конкурирующих поисковых машин, таких, как «Magellan», «Excite», «Infoseek», «Inktomi» , «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги объединялись или добавляли к себе поисковых роботов с целью улучшение поиска.

В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo . В 2005 году в России при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала с визуальной кластеризацией.

Поисковые системы участвовали в «Пузыре доткомов» конца 1990-х. Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые выключили публичные поисковые движки и стали работать только с корпоративным сектором, например, Northern Light.

В 1996 году Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключил сделки сразу с пятью крупнейшими поисковыми системами. За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape .

Поисковая система — это программное обеспечение, состоящее из базы данных документов, снабженной пользовательским интерфейсом, которое разработано для поиска информации во всемирной паутине. Пользуясь поисковой системой, пользователи составляют свои собственные поисковые запросы с ключевыми словами, а не используют заданные системой пути поиска.

Результаты поиска обычно представлены в серии результатов, часто называемых страницами результатов поисковой системы. Информация может быть совокупностью веб-страниц, изображений и других типов файлов. Основная задача поисковой системы заключается в выборе наилучшего возможного подмножества в ответ на конкретный запрос, то есть множества документов, которые наиболее соответствуют тому, что ищет пользователь (обычно в порядке убывания релевантности). Полноценность поисковой системы зависит от релевантности результатов, которые она предоставляет.

По методам поиска и обслуживания поисковые системы разделяют на четыре типа: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. Сам механизм поиска состоит из трёх ключевых частей: поисковый робот, индексатор, поисковик.

По состоянию на 2014 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России Яндекс обгоняет Google больше, чем на 10 %.

Поисковые системы созданы, чтобы находить и выдавать пользователю релевантную информацию, но есть понятие пузырь фильтров. Оно объясняет почему пользователь может не получить некоторую информацию. Так же стоит учитывать факт влияния различных факторов, таких как политические, экономические или социальные.

 

2.2 Классификация поисковых систем

На сегодняшний день всемирная сеть Интернет насчитывает огромное множество поисковых систем во всех странах мира, из них всех можно выделить несколько самых крупных и пользующихся наибольшей популярностью среди пользователей:

Google - лидер поисковых машин Интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в Интернете. Сейчас регистрирует ежедневно около 50 миллионов поисковых запросов индексирует более 8 миллиардов веб-страниц.

Была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином  и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение «авторитетности» конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа относится к так называемым статическим факторам и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска.

Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешно гопозиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большимзначением PageRank, информация о которых в поисковой базе обновляетсяежедневно, однако значение PageRank пересчитывается только во время Googledance. Нормированное значение PageRank для конкретного документа, загруженногов браузер, можно узнать, скачав и установив Google ToolBar — специальную панельинструментов для работы с этим поисковиком. Не смотря на то, что в поисковикеимеется форма для бесплатного добавления страницы в базу, Google предпочитаетсам находить новые документы по ссылкам с уже известных и не будетиндексировать добавленную через форму страницу, если в его базе не найдется ниодной страницы, ссылающейся на нее.

Yahoo - одна из самых первых поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994году заложено в него «онлайновая» составляющая, ее«приклеил» Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно из новшеств поисковой системы Yahoo — панель задач для браузера Firefox. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более200 миллионов адресов электронной  почты по всему миру, анонсировал  запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом e-mail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. «Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности», — объясняет Эрик Петерсон, аналитик компании Jupiter Research.

Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. «Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер», — обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5%мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

Яндекс — на сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. История компании «Яндекс» началась в 1990 году с разработки поискового программного обеспечения в компании «Аркадия». За два года работ были созданы две информационно-поисковые системы — Международная Классификация Изобретений, 4 и5 редакция, а также Классификатор Товаров и Услуг. Обе системы работали локально под DOS и позволяли проводить поиск, выбирая слова из заданного словаря, с использованием стандартных логических операторов. В1993 году«Аркадия» стала подразделением компании CompTek. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Поисковые системы Internet. Структура и принципы работы