АСОИиУ с точки зрения поисковых систем. Персонификация информации

Федеральное государственное автономное

образовательное учреждение

высшего профессионального  образования

«СИБИРСКИЙ  ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»

 

Институт  космических и информационных технологий

Кафедра Информатики

 

 

 

 

 

 

 

 

 

 

РЕФЕРАТ

 

АСОИиУ с  точки зрения поисковых систем. Персонификация информации

 

 

 

 

 

 

 

 

 

 

 

 

         Преподаватель                                                              П.В. Зеленков

                                                              подпись, дата                          инициалы, фамилия

 

         Студент          030902199                                              И.Ю. Макаренко

                                               номер зачетки                подпись, дата                           инициалы, фамилия

 

 

 

 

 

 

 

 

Красноярск 2012 

СОДЕРЖАНИЕ

 

Введение3

1 Информационно – поисковые системы5

2 Персонификация информации11

2.1 Индексация 11

2.2 Навязывание 12

2.3 Составление списка результатов14

2.4 Персонифицированные алгоритмы18

Заключение20

Список использованных источников21

 

Введение

 

В результате автоматизации операций, пользователи часто ошибочно полагают, что поисковые системы выдают нейтральные результаты, не подверженные никакому стороннему влиянию. Однако, как и любая другая медиа компания, поисковые системы совершенно определенно контролируют выбор пользователя, что ведет к "навязанным" результатам поиска (данный феномен так и называется - "навязывание поисковыми системами").

За последние несколько лет поисковые системы стали одной из главных сил нашей информационной экономики. Они помогают пользователям самостоятельно производить миллионы (и даже миллиарды) поисков в день. При таком широком охвате, поисковые системы имеют значительное влияние на формирование поведения пользователя и его восприятие. Получается, что выбор, который делают поисковые системы при сборе, обработке и представлении информации, влияет и на общество в целом. 

Обычно поисковые системы автоматизируют центральные операции, включая те процессы, которые используются для сбора данных и их сортировки в порядке представления пользователю. И эта автоматизация придает поисковым системам эффект объективности и правдоподобия. 

Получается, что машины, а не люди оценивают информацию, создавая впечатление, что поисковые системы не подвержены продуманному структурному представлению данных, которое свойственно любому другому медиа проекту. Результаты маркетинговых исследований обычно только усиливают это ощущение объективности и независимости от внешних факторов.

К сожалению, данный романтический взгляд на поисковые системы не соответствует действительности. Поисковики - тоже медиа компании, а, как и любые другие медиа компании, в поисковые системы заложен определенный "плановый подбор информации", сформированный таким образом, чтобы удовлетворять своих пользователей. В результате этого, некоторый контент систематически ставится приоритетным, создавая, таким образом, феномен, называющийся "навязыванием" поисковыми системами.

 

1 Информационно – поисковые системы

 

Информационно-поисковая  система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными.

Информационно-поисковые системы в АСУ должны обеспечивать обработку чрезвычайно больших массивов информации, включающих сотни и тысячи документов. Поэтому создание таких систем часто требует очень больших трудовых затрат. Так, разработка только перечней используемых понятий ( дескрипторов), их эквивалентности, подчинения и связи между ними, сводимых в специальные словари-тезаурусы объемом в десятки тысяч слов, требует 3 - 5 лет работы крупных коллективов специалистов.

В зависимости  от объекта хранения и типа запроса  различают два вида информационного  поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается  в подходе к семантике документов. В документальных системах описывается  смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические  системы предполагают накопление и  поиск в массиве документов со строго регламентированной структурой. Такая структура является или  результатом предварительной интеллектуальной обработки документов при вводе  информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных  по содержанию и структуре, но это  разнообразие всегда конечно.

В то же время между документальными  и фактографическими системами  нет непреодолимой разницы. Нередко  реальные ИПС представляют собой  пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют  еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая  система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных  для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный  предмет или тема которого в целом соответствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае — между документом и информационным запросом) — релевантностью. Релевантность — это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержанию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное  обеспечение — это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение — это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение — это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение — это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение — это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также  делят на составные части (подсистемы) по функциональному признаку, когда  каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов  поиска, выдача документов и др. Такие  части получили название функциональных подсистем.

Важные  понятия в информационном поиске — документ и запрос. Документ определяется как средство закрепления любым  способом на специальном материале  любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос  представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья  часть информационного обеспечения  — так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов — аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

Проблема оценки эффективности  поиска является комплексной проблемой, включающей как теоретическую, так  и практическую сторону. Главные  из функциональных (технических) показателей  ИПС, базирующихся на релевантности, —  это полнота и точность, которые  основываются на разделении документов на релевантные и нерелевантные, а также на выданные и не выданные.

 

2 Персонификация информации

 

Представители поисковых систем часто утверждают, что их центральные операции полностью  автоматизированы и свободны от вмешательства  человека. Однако данная характеристика неверна. Наоборот, работники поисковых  систем делают множество редакционных изменений в том, какие данные собирать и в каком порядке  представлять их пользователю. 

 

2.1 Индексация

 

Поисковые системы не индексируют всю доступную  информацию в Интернете. Намеренно  или нет, программы поисковых  систем пропускают некоторые веб-страницы полностью, или включают в поиск  только часть веб-страницы.

В процессе индексации поисковые системы ассоциируются  со сторонними метаданными (данными  о данных) с обрабатываемой веб-страницы. Например, поисковые системы могут  использовать в результатах поиска независимые описания веб-сайтов. 

Поисковые системы могут индексировать  опорный текст (текст, используемый другими источниками при создании гиперссылки к сайту). Это приводит к тому, что веб-сайт появляется в  результатах поиска к термину, который  никогда не использовал (и против которого может быть даже владелец сайта). 

И, наконец, однажды проиндексировав, поисковые  системы могут исключить веб-страницы из списка сайтов, по которым производится поиск. Это происходит по разным причинам, начиная от нарушения квази-объективных  технических требований поисковика и заканчивая простым непостоянством. 

 

2.2 Навязывание

 

Специальные заказы на расположение в списке результатов  поиска оказывают влияние как  на пользователей, так и на веб-издателей. Обычно из всего списка пользователи просматривают только несколько  верхних ссылок. Получается, сайты, расположенные в верхней части  списка имеют наибольший процент  посещаемости, и чем ниже расположена  ссылка, тем хуже у сайта рейтинг  по кликам. Следовательно, несмотря на то, что поисковая система может  выдавать сотни и даже тысячи результатов  на один запрос, подавляющее большинство  ссылок игнорируется пользователем. Соответственно, веб-издатели отчаянно хотят оставаться в верхних строчках списка результатов  поиска. 

 С  точки зрения самой поисковой  системы, расположение ссылок  в списке результатов поиска  определяет восприятие пользователем  поискового опыта. Например, если  верхние ссылки не удовлетворяют  целям пользователя, поиск считается  неудачным. Итак, чтобы максимально  увеличить успешный опыт поиска, алгоритмы составления списков  результатов поиска ориентированы  на интересы большинства пользователей.  В свою очередь, интересы меньшинства  (и, соответственно, сайты, отвечающие  им), обслуживаются самыми последними  ссылками списка.

"Навязывание"  результатов поиска необходимо  и желательно.

Перед тем, как разобраться с проблемой "навязывания" поисковыми системами результатов  поиска, мы должны понять, почему "навязывание" является проблемой, требующей решения. "Hавязывание" результатов поиска является неизбежным следствием планового отбора сайтов в базы данных поисковых систем. Как и любая другая медиа компания, поисковые системы просто не могут пассивно и нейтрально перераспределять сторонний контент (в данном случае, контент веб-изданий). Если поисковые системы не будут регулярно реорганизовывать и целенаправленно отбирать контент, они будут неизбежно переполнены спамом, мошенническими акциями и сайтами непристойного содержания. И тогда поисковые системы больше не будут представлять ценности для пользователя.

На самом  деле пользователи (как и другие медиа потребители), ожидают от поисковых  систем упорядочения данных из общей  массы информации. Для того, чтобы  предотвратить анархию и сохранить  доверие к себе, поисковые системы  должны контролировать свои базы данных. В свою очередь, любой плановый отбор  неизбежно создает эффект некоторого навязывания.

К счастью, рыночные отношения ограничивают масштабы навязывания результатов поиска.

Пользователи  обычно возлагают серьезные надежды  на поисковые системы: им кажется, что  поисковые системы должны уметь  читать их мысли и выражают свои поисковые намерения в нескольких ключевых словах. Поисковые системы, которые разочаровывают пользователей (либо не выдавая подходящих результатов, либо спрятав их за сотнями не отвечающих запросу ссылками) все чаще игнорируются пользователями. Этому способствует огромное количество конкурирующих  поисковиков и отсутствие препятствий  при выборе поисковой системы.

В результате, при каждом неудачном поиске, пользователи начинают пробовать различные поисковые  системы, и давление конкурентов  заставляет снизить процент "навязывания". Если "навязывание" начинает снижать  релевантность результатов поиска, пользователи приступают к исследованию альтернативных поисковиков. И это  случается даже в тех случаях, когда пользователи даже не подозревают  о "навязывании". Между тем, распространение  поисковых систем означает, что они  могут представлять разные сегменты рынка, то есть некоторые из них могут  быть направлены на интересы меньшинства  пользователей. Силы рынка не могут  полностью контролировать развитие поисковых систем, но все равно  они играют не последнюю роль.

На самом  деле, сложно представить, как вмешательство  на законодательном уровне улучшит  ситуацию. Во-первых, потому, что данное урегулирование неизбежно приведет и к другим нормативам - что пользователи должны видеть, или должны хотеть увидеть. Но чем одно "навязывание" может  стать лучше другого?

Во-вторых, в случае, когда урегулирование продвигает одни сайты за счет других, новый  вид списка может также не удовлетворить  запросы пользователей. Определить релевантность по очень ограниченным данным (например, ключевое слово без  контента) - сложный процесс, и поисковые  системы ежедневно пытаются найти  пути решения этой проблемы. Законодательное  урегулирование вряд ли сможет сделать  больше, чем силы рынка для определения  релевантности результатов поиска. Например, многие сайты, получившие государственную  поддержку, могут оказаться не отвечающими  требованиям пользователя.

Несортированные и даже бесполезные результаты могут  убедить пользователя в том, что  подходящую информацию найти невозможно, и, как следствие, разочаровать в  поисковых системах. В таком случае, государственное вмешательство  может драматически снизить ценность поисковых систем в глазах пользователя. Каковы бы ни были последствия "навязывания", последствия государственного вмешательства  могут оказаться гораздо хуже.

 

2.3 Составление  списка результатов

 

Чтобы упорядочить  результаты поиска, поисковые системы  используют сложные запатентованные  алгоритмы построения списков. Алгоритмы  построения списка игнорируют необходимость  в индивидуальной классификации  терминов, используемых пользователями. Однако эти алгоритмы не исключают  человеческий фактор в процессе построения списка. Факторы, включенные в алгоритм и влияющие на принципы построения списка, как раз отражают редакцию, произведенную человеком. 

Представители поисковых систем утверждают, сгенерированные  алгоритмом результаты поиска, не имеют  стороннего влияния, но существуют доказательства обратного. Поисковые системы делают дополнительные исправления к общему списку, а также иногда изменяют результаты поиска, предоставленные  на запрос по определенным ключевым словам.

Рассмотрим  следующие примеры: 

  • Некоторые поисковые системы заблокировали поисковые термины, содержащие ключевое слово phpBB 
  • Как результат поиска слова "Jaw" в течение периода, включающего, как минимум, Ноябрь 2005 года (момент, когда наблюдался данный феномен), Google выдавал спонсорскую ссылку, в которой говорилось:"Оскорбительные Результаты Поиска: Мы тоже обеспокоены данными результатами. Пожалуйста, прочитайте нашу заметку здесь." Ссылка перенаправляла на "объяснительную" страницу. 
  • По сообщениям, Ask.com заблокировали результаты на запросы, содержащие слова, типа: педофилия, секс с детьми, детский секс и разврат. 
  • Google были вынуждены убрать несколько веб-сайтов из списков результатов поиска по требованию Церкви Сайентологии (512 (c)(3)). Однако, внизу страницы поиска появлялась следующая заметка: "По жалобе, полученной от Церкви Сайентологии, на основе the U.S. Digital Millennium Copyright Act, мы убрали 2 результата с данной страницы. Если вы желаете, можете ознакомиться с документом DMCA, который и стал причиной того, что вы не видите эти результаты на Chillingeffects.org."

Для того, чтобы определить сайты, удовлетворяющие  интересы как можно большего числа  пользователей, поисковые системы  используют рейтинги популярности в  алгоритмах построения списка. Например, RageRank, измеритель популярности в Google, рассматривает  дополнительные ссылки как признак  посещаемости. Однако учитываются они  неодинаково. Ссылки с более популярных сайтов считаются существенными  признаками, а с менее известных - оцениваются ниже. 

Кроме того, что в составлении списка результатов  поиска учитываются интересы большинства  пользователей, коммерческое продвижение  сайтов играет не последнюю роль. Неравноправная схема построения списка на основе все того же RageRank приводит к тому, что экономически сильные сайты  более доступны пользователям. Этому  существует простое объяснение: сайты, бюджет которых позволяет широкомасштабные рекламные кампании, имеют гораздо  больше ссылок в сети.

Естественно, алгоритмы построения списков, базирующиеся на рейтингах популярности сайтов, только поддерживают сложившуюся в  сети экономическую иерархию. Веб-сайты, которые относятся к экономической  элите, получают идеальное расположение в списках результатов поиска, и, следовательно, большую посещаемость.

В дальнейшем происходит процесс самопродвижения  сайта: каждый раз появляясь в  верхней строчке списка, он только упрочивает свои позиции. И наоборот, сайты, которым сразу не доступна широкая реклама, практически не имеют возможности приблизиться к верхним строчкам и вынуждены  оставаться на задворках списка.

Многие  обозреватели считают этот эффект несправедливым и предлагают следующие варианты решения проблемы: 

  • Увеличить прозрачность работы поисковых систем. Поисковые системы скрывают свои алгоритмы построения списков. Это делается с целью снизить последствия работы спамеров. Однако данная секретность не позволяет пользователям и обозревателям оценить уровень "навязывания". Для упрощения этой задачи, необходимо, чтобы поисковые системы приоткрыли завесу тайны с ключевых алгоритмов. Подобная дополнительная информация о работе поисковиков может иметь два мнимых плюса: Во-первых, она может помочь пользователям выбрать наиболее подходящую поисковую систему среди огромного числа конкурирующих систем. Во-вторых, даст возможность пользователям определить уровень релевантности результатов поиска. 
  • Создать общественно финансируемые поисковые системы. Вопрос финансирования всегда оставался спорным. Однако, для того, чтобы снизить расходы на поиск информации, поисковые системы должны финансироваться государством, а не частными организациями. И уже существуют предложения по созданию государственных поисковых систем. 
  • Изменить требования к построению списка результатов поиска. Существует вариант заставлять поисковые системы приближать к началу списка те сайты, которые традиционно занимают последние позиции. По меньшей мере пять судебных исков было подано с требованием заставить поисковые системы изменить схему построения списка, чтобы повысить посещаемость их сайтов. 

Не только истцы, но и некоторые  академики поддерживают изменение  требований к построению списков  результатов поиска. Например, защитник компании Randey et al. предложил "схему  случайного построения списка", согласно которой, сайты-аутсайдеры получат  дополнительное преимущество, хотя бы изредка появляясь в верхних  строчках списка и, соответственно, станут более доступны пользователям. 

Другой пример: представители Pasquale считают, что когда пользователю кажется, что полученная информация нерелевантна, должна существовать альтернативная ссылка.

 

2.4 Персонифицированные алгоритмы

 

На сегодняшний  день поисковые системы используют обобщающие алгоритмы построения списка для того, чтобы выдавать однородные результаты пользователям с самыми разнообразными поисковыми целями. Обобщающие алгоритмы усугубляют последствия "навязывания" поисковых систем. Это происходит следующим образом: 

  • Алгоритмы создают эффект победителя (сайты, располагающиеся на верхних позициях результатов поиска) и проигравшего (сайты на нижней границе поиска). 
  • Алгоритмы предоставляют условно-оптимальные результаты пользователям, представляющим интересы меньшинства. 

Эти последствия можно снизить  при переходе поисковых систем с  обобщающих алгоритмов к персонифицированным  алгоритмам построения списка. При  помощи персонифицированных алгоритмов, пользователи будут получать результаты максимально приближенные к его  интересам. Итак разным пользователям  будут предоставляться различные  результаты в ответ на одинаковые запросы. Например, в Google доступна следующая  опция: результаты отбираются на основе прошлого опыта пользователя, исходя из выбираемых им ссылок в списке.

Персонифицированные алгоритмы построения списка представляют один из важнейших  шагов к релевантности результатов  поиска. У обобщающих алгоритмов существуют внутренние ограничения их потенциальной  релевантности, и даже дальнейшее усовершенствование обобщающих алгоритмов приведет лишь к незначительным улучшениям. Персонифицированные  алгоритмы выходят за пределы  этих ограничений, оптимизируя релевантность  поиска индивидуально, таким образом  проделывая огромную работу по "чтению мыслей" пользователя.

Персонифицированные алгоритмы снижают  эффект "навязывания" поисковиков. Смысл персонифицированных алгоритмов заключается в том, что, вместо единственного "победителя", для каждого пользователя будет свои, специально подобранные ссылки, находящиеся в верхних строчках результатов поиска. Следовательно, и конкуренция в борьбе за топ-позиции значительно снизится. В свою очередь, пользователи будут получать результаты, на которые повлияли их личные предпочтения больше, чем предпочтения авторов алгоритмов. Персонифицированные алгоритмы также снизят важность рейтинга популярности сайтов при поиске. Таким образом, практически исчезнет и структурное навязывание, вызванное использованием этих рейтингов при построении списка.

АСОИиУ с точки зрения поисковых систем. Персонификация информации