АСОИиУ с точки зрения поисковых систем. Персонификация информации
Федеральное государственное автономное
образовательное учреждение
высшего профессионального образования
«СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»
Институт космических и информационных технологий
Кафедра Информатики
РЕФЕРАТ
АСОИиУ с точки зрения поисковых систем. Персонификация информации
Преподаватель
Студент
030902199
Красноярск
2012
СОДЕРЖАНИЕ
Введение3
1 Информационно – поисковые системы5
2 Персонификация информации11
2.1 Индексация 11
2.2 Навязывание 12
2.3 Составление списка результатов14
2.4 Персонифицированные алгоритмы18
Заключение20
Список использованных источников21
Введение
В результате автоматизации операций, пользователи часто ошибочно полагают, что поисковые системы выдают нейтральные результаты, не подверженные никакому стороннему влиянию. Однако, как и любая другая медиа компания, поисковые системы совершенно определенно контролируют выбор пользователя, что ведет к "навязанным" результатам поиска (данный феномен так и называется - "навязывание поисковыми системами").
За последние несколько лет поисковые системы стали одной из главных сил нашей информационной экономики. Они помогают пользователям самостоятельно производить миллионы (и даже миллиарды) поисков в день. При таком широком охвате, поисковые системы имеют значительное влияние на формирование поведения пользователя и его восприятие. Получается, что выбор, который делают поисковые системы при сборе, обработке и представлении информации, влияет и на общество в целом.
Обычно поисковые системы автоматизируют центральные операции, включая те процессы, которые используются для сбора данных и их сортировки в порядке представления пользователю. И эта автоматизация придает поисковым системам эффект объективности и правдоподобия.
Получается, что машины, а не люди оценивают информацию, создавая впечатление, что поисковые системы не подвержены продуманному структурному представлению данных, которое свойственно любому другому медиа проекту. Результаты маркетинговых исследований обычно только усиливают это ощущение объективности и независимости от внешних факторов.
К сожалению, данный романтический взгляд на поисковые системы не соответствует действительности. Поисковики - тоже медиа компании, а, как и любые другие медиа компании, в поисковые системы заложен определенный "плановый подбор информации", сформированный таким образом, чтобы удовлетворять своих пользователей. В результате этого, некоторый контент систематически ставится приоритетным, создавая, таким образом, феномен, называющийся "навязыванием" поисковыми системами.
1 Информационно – поисковые системы
Информационно-поисковая система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными.
Информационно-поисковые системы в АСУ должны обеспечивать обработку чрезвычайно больших массивов информации, включающих сотни и тысячи документов. Поэтому создание таких систем часто требует очень больших трудовых затрат. Так, разработка только перечней используемых понятий ( дескрипторов), их эквивалентности, подчинения и связи между ними, сводимых в специальные словари-тезаурусы объемом в десятки тысяч слов, требует 3 - 5 лет работы крупных коллективов специалистов.
В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС.
Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.
Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).
Главное,
сущностное, различие между документальным
и фактографическим поиском заключается
в подходе к семантике
Фактографические
системы предполагают накопление и
поиск в массиве документов со
строго регламентированной структурой.
Такая структура является или
результатом предварительной
В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.
Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.
Информационно-поисковая
система документального типа представляет
собой упорядоченную
Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.
Информационное обеспечение — это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.
Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.
Программное обеспечение — это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.
Техническое обеспечение — это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.
Технологическое обеспечение — это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.
Кадровое (или штатное) обеспечение — это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).
ИПС также
делят на составные части (подсистемы)
по функциональному признаку, когда
каждая подсистема выполняет определенную
функцию в технологическом
Важные понятия в информационном поиске — документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.
Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.
Третья
часть информационного
Важнейшей
компонентой информационно-
Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, — это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и не выданные.
2 Персонификация информации
Представители поисковых систем часто утверждают, что их центральные операции полностью автоматизированы и свободны от вмешательства человека. Однако данная характеристика неверна. Наоборот, работники поисковых систем делают множество редакционных изменений в том, какие данные собирать и в каком порядке представлять их пользователю.
2.1 Индексация
Поисковые системы не индексируют всю доступную информацию в Интернете. Намеренно или нет, программы поисковых систем пропускают некоторые веб-страницы полностью, или включают в поиск только часть веб-страницы.
В процессе
индексации поисковые системы
Поисковые
системы могут индексировать
опорный текст (текст, используемый
другими источниками при
И, наконец,
однажды проиндексировав, поисковые
системы могут исключить веб-
2.2 Навязывание
Специальные заказы на расположение в списке результатов поиска оказывают влияние как на пользователей, так и на веб-издателей. Обычно из всего списка пользователи просматривают только несколько верхних ссылок. Получается, сайты, расположенные в верхней части списка имеют наибольший процент посещаемости, и чем ниже расположена ссылка, тем хуже у сайта рейтинг по кликам. Следовательно, несмотря на то, что поисковая система может выдавать сотни и даже тысячи результатов на один запрос, подавляющее большинство ссылок игнорируется пользователем. Соответственно, веб-издатели отчаянно хотят оставаться в верхних строчках списка результатов поиска.
С
точки зрения самой поисковой
системы, расположение ссылок
в списке результатов поиска
определяет восприятие
"Навязывание" результатов поиска необходимо и желательно.
Перед тем, как разобраться с проблемой "навязывания" поисковыми системами результатов поиска, мы должны понять, почему "навязывание" является проблемой, требующей решения. "Hавязывание" результатов поиска является неизбежным следствием планового отбора сайтов в базы данных поисковых систем. Как и любая другая медиа компания, поисковые системы просто не могут пассивно и нейтрально перераспределять сторонний контент (в данном случае, контент веб-изданий). Если поисковые системы не будут регулярно реорганизовывать и целенаправленно отбирать контент, они будут неизбежно переполнены спамом, мошенническими акциями и сайтами непристойного содержания. И тогда поисковые системы больше не будут представлять ценности для пользователя.
На самом
деле пользователи (как и другие
медиа потребители), ожидают от поисковых
систем упорядочения данных из общей
массы информации. Для того, чтобы
предотвратить анархию и
К счастью,
рыночные отношения ограничивают масштабы
навязывания результатов
Пользователи
обычно возлагают серьезные надежды
на поисковые системы: им кажется, что
поисковые системы должны уметь
читать их мысли и выражают свои
поисковые намерения в
В результате,
при каждом неудачном поиске, пользователи
начинают пробовать различные поисковые
системы, и давление конкурентов
заставляет снизить процент "навязывания".
Если "навязывание" начинает снижать
релевантность результатов
На самом деле, сложно представить, как вмешательство на законодательном уровне улучшит ситуацию. Во-первых, потому, что данное урегулирование неизбежно приведет и к другим нормативам - что пользователи должны видеть, или должны хотеть увидеть. Но чем одно "навязывание" может стать лучше другого?
Во-вторых,
в случае, когда урегулирование продвигает
одни сайты за счет других, новый
вид списка может также не удовлетворить
запросы пользователей. Определить
релевантность по очень ограниченным
данным (например, ключевое слово без
контента) - сложный процесс, и поисковые
системы ежедневно пытаются найти
пути решения этой проблемы. Законодательное
урегулирование вряд ли сможет сделать
больше, чем силы рынка для определения
релевантности результатов
Несортированные и даже бесполезные результаты могут убедить пользователя в том, что подходящую информацию найти невозможно, и, как следствие, разочаровать в поисковых системах. В таком случае, государственное вмешательство может драматически снизить ценность поисковых систем в глазах пользователя. Каковы бы ни были последствия "навязывания", последствия государственного вмешательства могут оказаться гораздо хуже.
2.3 Составление списка результатов
Чтобы упорядочить результаты поиска, поисковые системы используют сложные запатентованные алгоритмы построения списков. Алгоритмы построения списка игнорируют необходимость в индивидуальной классификации терминов, используемых пользователями. Однако эти алгоритмы не исключают человеческий фактор в процессе построения списка. Факторы, включенные в алгоритм и влияющие на принципы построения списка, как раз отражают редакцию, произведенную человеком.
Представители поисковых систем утверждают, сгенерированные алгоритмом результаты поиска, не имеют стороннего влияния, но существуют доказательства обратного. Поисковые системы делают дополнительные исправления к общему списку, а также иногда изменяют результаты поиска, предоставленные на запрос по определенным ключевым словам.
Рассмотрим следующие примеры:
- Некоторые поисковые системы заблокировали поисковые термины, содержащие ключевое слово phpBB
- Как результат поиска слова "Jaw" в течение периода, включающего, как минимум, Ноябрь 2005 года (момент, когда наблюдался данный феномен), Google выдавал спонсорскую ссылку, в которой говорилось:"Оскорбительные Результаты Поиска: Мы тоже обеспокоены данными результатами. Пожалуйста, прочитайте нашу заметку здесь." Ссылка перенаправляла на "объяснительную" страницу.
- По сообщениям, Ask.com заблокировали результаты на запросы, содержащие слова, типа: педофилия, секс с детьми, детский секс и разврат.
- Google были вынуждены убрать несколько веб-сайтов из списков результатов поиска по требованию Церкви Сайентологии (512 (c)(3)). Однако, внизу страницы поиска появлялась следующая заметка: "По жалобе, полученной от Церкви Сайентологии, на основе the U.S. Digital Millennium Copyright Act, мы убрали 2 результата с данной страницы. Если вы желаете, можете ознакомиться с документом DMCA, который и стал причиной того, что вы не видите эти результаты на Chillingeffects.org."
Для того, чтобы определить сайты, удовлетворяющие интересы как можно большего числа пользователей, поисковые системы используют рейтинги популярности в алгоритмах построения списка. Например, RageRank, измеритель популярности в Google, рассматривает дополнительные ссылки как признак посещаемости. Однако учитываются они неодинаково. Ссылки с более популярных сайтов считаются существенными признаками, а с менее известных - оцениваются ниже.
Кроме того,
что в составлении списка результатов
поиска учитываются интересы большинства
пользователей, коммерческое продвижение
сайтов играет не последнюю роль. Неравноправная
схема построения списка на основе
все того же RageRank приводит к тому,
что экономически сильные сайты
более доступны пользователям. Этому
существует простое объяснение: сайты,
бюджет которых позволяет
Естественно,
алгоритмы построения списков, базирующиеся
на рейтингах популярности сайтов,
только поддерживают сложившуюся в
сети экономическую иерархию. Веб-сайты,
которые относятся к
В дальнейшем происходит процесс самопродвижения сайта: каждый раз появляясь в верхней строчке списка, он только упрочивает свои позиции. И наоборот, сайты, которым сразу не доступна широкая реклама, практически не имеют возможности приблизиться к верхним строчкам и вынуждены оставаться на задворках списка.
Многие обозреватели считают этот эффект несправедливым и предлагают следующие варианты решения проблемы:
- Увеличить прозрачность работы поисковых систем. Поисковые системы скрывают свои алгоритмы построения списков. Это делается с целью снизить последствия работы спамеров. Однако данная секретность не позволяет пользователям и обозревателям оценить уровень "навязывания". Для упрощения этой задачи, необходимо, чтобы поисковые системы приоткрыли завесу тайны с ключевых алгоритмов. Подобная дополнительная информация о работе поисковиков может иметь два мнимых плюса: Во-первых, она может помочь пользователям выбрать наиболее подходящую поисковую систему среди огромного числа конкурирующих систем. Во-вторых, даст возможность пользователям определить уровень релевантности результатов поиска.
- Создать общественно финансируемые поисковые системы. Вопрос финансирования всегда оставался спорным. Однако, для того, чтобы снизить расходы на поиск информации, поисковые системы должны финансироваться государством, а не частными организациями. И уже существуют предложения по созданию государственных поисковых систем.
- Изменить требования к построению списка результатов поиска. Существует вариант заставлять поисковые системы приближать к началу списка те сайты, которые традиционно занимают последние позиции. По меньшей мере пять судебных исков было подано с требованием заставить поисковые системы изменить схему построения списка, чтобы повысить посещаемость их сайтов.
Не только истцы, но и некоторые академики поддерживают изменение требований к построению списков результатов поиска. Например, защитник компании Randey et al. предложил "схему случайного построения списка", согласно которой, сайты-аутсайдеры получат дополнительное преимущество, хотя бы изредка появляясь в верхних строчках списка и, соответственно, станут более доступны пользователям.
Другой пример: представители Pasquale считают, что когда пользователю кажется, что полученная информация нерелевантна, должна существовать альтернативная ссылка.
2.4 Персонифицированные алгоритмы
На сегодняшний день поисковые системы используют обобщающие алгоритмы построения списка для того, чтобы выдавать однородные результаты пользователям с самыми разнообразными поисковыми целями. Обобщающие алгоритмы усугубляют последствия "навязывания" поисковых систем. Это происходит следующим образом:
- Алгоритмы создают эффект победителя (сайты, располагающиеся на верхних позициях результатов поиска) и проигравшего (сайты на нижней границе поиска).
- Алгоритмы предоставляют условно-оптимальные результаты пользователям, представляющим интересы меньшинства.
Эти последствия можно снизить
при переходе поисковых систем с
обобщающих алгоритмов к персонифицированным
алгоритмам построения списка. При
помощи персонифицированных
Персонифицированные алгоритмы построения
списка представляют один из важнейших
шагов к релевантности
Персонифицированные алгоритмы снижают
эффект "навязывания" поисковиков.
Смысл персонифицированных

- Асортимент, изготовление, потребление водки. Новые бренды
- Асортимент килимів та килимових виробів
- Асортимент продукції музичних інструментів. Гітари
- Асортимент продукції музичних інструментів. Гітари
- Асортимент сировини тваринного походження
- Асортимент та класифікація гастрономічної продукції з риби, що виготовляється на міні підприємствах
- Асортимент та технологія халви
- А.Смит и его вклад в экономическую теорию
- А.Смит концепция контроля и расчет оплаты труда
- А. Смит - представитель классической школы экономической науки
- А.Смитт
- Асноўныя ідэі працы Ады Лавлейс "Заўвагі перакладчыка"
- Асноўныя канцэпцыi ўтварэння ВКЛ i фармiравання яго тэрыторыi. Знешняя палiтыка ВКЛ
- Асоби вимірювання витрат та кількості речовини