Документирование на формальных (искусственных) языках



Федеральное агентство по образованию

ГОУ ВПО «Нижневартовский государственный гуманитарный университет»

Гуманитарный факультет

Отделение управления

Кафедра документоведения и всеобщей истории

 

 

 

 

 

 

Документирование на формальных (искусственных) языках

(Курсовая работа)

 

 

 

 

 

 

 

 

 

Студентки 52 группы ДиДОУ

ОЗО

Булыгиной Екатерины Сергеевны

 

Научный руководитель:

А.В. Савельева

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижневартовск

2012

Содержание

 

 

Ввседение                                                                                                                                                          3

1. Понятие, свойства и функции искусственных языков                                          5

2. Классификация искусственных языков                                                                                    10

3. Системы записи информации на формальных языках                                          13

3.1. Кодирование информации                                                                                    13

3.2. Стенография                                                                                                                              18

3.3. Шифрование информации                                                                                    20

Заключение                                                                                                                                            23

Список литературы                                                                                                                              25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

В настоящее время документ представляет собой информацию, заключенную в типизированный формат, содержащую обязательные реквизиты и правила расположения текста. Он может нести в себе не только сведения о ситуации и событиях, но и о развертывающихся процессах (мониторинг и консалтинг), а также о предвидении того, что ожидается (проекты и экспертиза). Так осуществляется адресная передача информации, полномочий, прав и обязанностей, гарантий и инструкций, распоряжений и отчетов, писем и ответов на них. И хотя эта сфера считается рутинной, нудной канцелярщиной без нее невозможна координация деятельности и управление ею, принятие полномочными лицами оптимальных решений и неустанный контроль за их исполнением, своевременное отслеживание социальных процессов и состояний.

Информатизация вызывает резкое возрастание количества документов и интенсивности их оборота. Человеческий мозг и ручной труд не в состоянии угнаться за их темпами.

Процесс обработки документа и он сам обретают черты виртуальности. Электронный образ невозможно потрогать, на нем нельзя поставить печать и привычно передать из рук в руки. На авансцену делового общения уверенно выходят планетарный Интернет и корпоративно-ведомственный Интранет. Несколько нажатий на клавиши, и сообщение мгновенно доставляется на файл адресата, каким бы далеким он ни был.

Сетевые технологии, помимо оперативности поиска документов, втрое сокращают потребность в бумаге и расходных материалах, на 80% уменьшают нужду в архивных хранилищах.

Превращение делового мира в электронный делает доступ к документу не зависящим от его автора и адресата. Он становится достоянием ответственных лиц организации, и прежде всего ее руководства. Иными словами, традиционно диктаторская «власть стола» уступает место гораздо более демократичной «власти файла».

Согласно статье 2 Федерального закона «Об информации, информатизации и защите информации» документ - это зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать.

Носитель - это материальный объект, используемый для закрепления и хранения на нем речевой, звуковой или изобразительной информации, в том числе в преобразованном виде. В древности в качестве материального носителя для создания документов использовали различные материалы:  глиняные таблички, папирус, береста, пергамент. В течение многих веков и в настоящее время наиболее распространенным носителем документной информации является бумага.

Наряду с бумагой сейчас широко используются и новые носители - магнитные, позволяющие использовать для документирования технические, в том числе автоматизированные, средства.

Документирование - регламентированный процесс записи информации на бумаге или ином носителе, обеспечивающий ее юридическую силу.

Создание документов или документирование может осуществляться на естественном языке или на искусственных языках с использованием новых носителей информации.

При документировании на естественном языке создаются текстовые документы, содержащие речевую информацию, зафиксированную любым типом письма или любой системой звукозаписи.

При документировании на искусственных языках создаются документы на машинных носителях.

В обществе документы являются основными носителями управленческой, научной, технической, статистической и иной социально значимой информации. Фиксация, отображение информации в документе обеспечивает ее сохранение и накопление, возможность передачи во времени и пространстве, ее многократное использование, возможность обращаться к информации спустя много времени после ее создания.

1. Понятие, свойства и функции искусственных языков

Искусственный язык - знаковая система, создаваемая специально для использования в тех областях, где применение естественного языка менее эффективно или невозможно. Сконструированные языки различаются по специализации и назначению, а также по степени сходства с естественными языками. Восприятие, хранение и передача информации в форме знаков означают использование какого-либо языка.

Выделяют следующие разновидности искусственных языков:

      Сконструированный язык, искусственный язык общения;

      Формальный язык.

Сконструированные языки

Первично понятие искусственного языка применялось именно к сконструированным языкам. Позже понятие стало вызывать возражения лингвистов в отношении размытости области определения.

Термин «искусственный язык» прилагается также к подсистемам (или модификациям) естественных языков, которые отличаются от других подсистем большей степенью сознательного воздействия человека на их формирование и развитие. При таком понимании к искусственным языкам относят, с одной стороны, литературные языки (в противоположность диалектам), а с другой - профессиональные и  тайные языки (в противоположность общенародному языку). Наибольшей искусственностью отличаются такие литературные языки, которые представляют собой более или менее произвольный синтез ряда существующих диалектов. В этих случаях антитеза «искусственное - естественное» приравнивается к противопоставлению сознательного и стихийного.

В некоторых лингвистических концепциях искусственными признаются все человеческие языки на том основании, что они выступают как продукт человеческого творчества и в этом смысле противостоят естественным коммуникации животных. Антитеза «искусственное -естественное» тем самым сближается с антитезой «социальное - биологическое».

Изучение искусственных языков, как в собственном смысле, так и в приложении к искусственно упорядоченным подсистемам естественных языков позволяет осознать общие принципы устройства и функционирования языка вообще, расширяют теоретические представления о таких свойствах языка, как системность, коммуникативная пригодность, стабильность и изменчивость, а также о пределах сознательного воздействия человека на язык, степени и типах его формализации и оптимизации.

Формальные языки

Специализированными искусственными языками различного назначения являются символические языки науки (языки математики, логики, лингвистики, химии и др.) и языки человеко-машинного общения (алгоритмические, или языки программирования, языки операционных систем, управления базами данных, информационных, запросно-ответных систем и т. п.). Общим признаком специализированных искусственных языков является формальный метод их описания (определения) путем задания алфавита (словаря), правил образования и преобразования выражений (формул) и семантики, т. е. способа содержательной интерпретации выражений. Несмотря на формальный метод определения, эти языки в большинстве своем не являются закрытыми системами, т. к. правила образования слов и выражений допускают рекурсию. Поэтому, как и в естественных языках, словарь и количество порождаемых текстов потенциально бесконечны.

Началом создания и применения специализированных искусственных языков можно считать использование в Европе с 16 в. буквенной  нотации и символов операций в математических выражениях; в 17-18 вв. был создан язык дифференциального и интегрального исчисления, в 19-20 вв.- язык математической логики. Элементы символических языков лингвистики создаются в 30—40-е гг. 20 в. Символические языки науки являются формальными системами, предназначенными для представления знаний и манипулирования ими в соответствующих предметных областях (существуют и независимые от предметных областей языки представления знаний), т. е. в них реализуются ограниченное число функций языка (металингвистическая, репрезентативная), в то же время они выполняют функции, не свойственные естественному языку (например, служить средством логического вывода).

Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена информация.

Искусственные языки создаются людьми для специальных целей либо для определенных групп людей: язык математики, морской семафор, язык программирования. Характерной особенностью искусственных языков является однозначная определенность их словаря, правил образования выражений и правил придания им значений.

Любой язык - и естественный и искусственный - обладает набором определенных правил. Они могут быть явно и строго сформулированными (формализованными), а могут допускать различные варианты их использования.

Формализованный (формальный) язык - язык, характеризующийся точными правилами построения выражений и их понимания. Он строится в соответствии с четкими правилами, обеспечивая непротиворечивое, точное и компактное отображение свойств и отношений изучаемой предметной области (моделируемых объектов).

В отличие от естественных языков формальным языкам присущи четко сформулированные правила семантической интерпретации и синтаксического преобразования используемых знаков, а также то, что смысл и значение знаков не изменяется в зависимости от каких-либо прагматических обстоятельств (например, от контекста).

Большинство формальных языков (созданных конструкций) строится по следующей схеме: сначала выбирается алфавит, или совокупность исходных символов, из которых будут строиться все выражения языка; затем описывается синтаксис языка, то есть правила построения осмысленных выражений. Буквами в алфавите формального языка могут быть и буквы алфавитов естественных языков, и скобки, и специальные знаки и т.п. Из букв, по определенным правилам можно составлять слова и выражения. Осмысленные выражения получаются в формальном языке, только если соблюдены определенные в языке правила образования. Для каждого формального языка совокупность этих правил должна быть строго определена и модификация любого из них приводит чаще всего к появлению новой разновидности (диалекта) этого языка.

Формальные языки широко применяются в науке и технике. В процессе научного исследования и практической деятельности формальные языки обычно используются в тесной взаимосвязи с естественным языком, поскольку последний обладает гораздо большими выразительными возможностями. В то же время формальный язык является средством более точного представления знаний, чем естественный язык, а следовательно, средством более точного и объективного обмена информацией между людьми.

Формальные языки часто конструируются на базе языка математики. Веком бурного развития различных формальных языков можно считать XX век.

С точки зрения информатики, среди формальных языков наиболее значительную роль играют формальный язык логики (язык алгебры логики) и языки программирования.

Искусственные языки науки и естественный язык взаимно дополняют друг друга. Искусственные языки более универсальны в своей области и обладают формой, более подобной своему содержанию. Однако искусственные языки практически ничего не могут сказать вне сферы своей компетенции, в то время как естественный язык способен сказать понемногу обо всем. Не надо думать, что можно было бы обойтись без искусственных языков, и их использование - результат лишь некоторого удобства. Есть много вещей, о которых либо вообще нельзя сказать, либо удается сказать очень приблизительно и неадекватно средствами естественного языка. В этом смысле овладение тем или иным искусственным языком – языком физики, математики, логики - оказывается во многом процессом приобретения нового органа понимания и выражения, этот момент нельзя недооценивать особенно в современном научном познании, насыщенном сложнейшими искусственными языковыми системами. Если различные естественные языки можно было бы называть синтаксическими (синтаксис – правила построения знаков языка), т.к. они различаются не столько смыслами, сколько звуковыми и письменными оболочками этих смыслов, в связи с чем давно возможен достаточно хороший перевод между такими языками; то разнообразие искусственных языков математики и других наук представляет из себя пример семейства семантических языков (семантика - наука об отношении знаков и их содержания), существенно различающихся системами выражаемых ими смыслов. Для перевода таких языков между собой необходим некоторый семантический гиперязык, способный объединить в себе смысловые пространства и подобные им знаковые формы различных искусственных языков. В наибольшей мере такой язык присутствует в современной математике, но, по-видимому, и его ресурсов пока существенно не хватает для переводов с языка одной частной науки на язык другой. Создание такого гиперязыка - это во многом проблема создания более универсального смысла, который еще отсутствует в современной науке. Другим возможным источником синтетического гиперязыка является философия, но до сих пор она слишком мало взаимодействовала с искусственными языками других наук, пытаясь максимально обходиться средствами естественного языка.

 

 

 

 

2. Классификация искусственных языков

Различают следующие виды искусственных языков:

      Языки программирования и компьютерные языки - языки для автоматической обработки информации с помощью ЭВМ.

      Информационные языки - языки, используемые в различных системах обработки информации.

      Формализованные языки науки - языки, предназначенные для символической записи фактов и теорий математики, логики, химии и других наук.

      Языки несуществующих народов, созданные в беллетристических или развлекательных целях. Наиболее известны: эльфийский язык, придуманный Дж. Толкином, и клингонский язык из фантастического сериала «Star Trek».

      Международные вспомогательные языки - языки, создаваемые из элементов естественных языков и предлагаемые в качестве вспомогательного средства межнационального общения.

Идея создания международного языка зародилась в XVII - XVIII веках в результате постепенного уменьшения международной роли латыни. Первоначально это были преимущественно проекты рационального языка, освобождённого от логических ошибок живых языков и основанного на логической классификации понятий. Позднее появляются проекты по образцу и материалам живых языков. Первым таким проектом был универсалглот, опубликованный в 1868 году в Париже Жаном Пирро. Проект Пирро, предвосхитивший многие детали позднейших проектов, остался не замеченным общественностью. Следующим проектом международного языка стал волапюк, созданный в 1880 немецким языковедом И. Шлейером. Он вызвал весьма большой резонанс в обществе. А наиболее известным искусственным языком стал эсперанто (Л. Заменгоф, 1887) - единственный искусственный язык, получивший широкое распространение и объединивший вокруг себя довольно многих сторонников международного языка.

Из искусственных языков наиболее известны: бейсик-инглиш, волапюк, идо, интерлингва, латино-сине-флексионе, логлан, ложбан, новиаль, окциденталь, словио, эсперанто.

Также есть языки, которые специально были разработаны для общения с внеземным разумом. Например - линкос.

По цели создания искусственные языки можно разделить на следующие группы:

      Философские и логические языки - языки, имеющие четкую логическую структуру словообразования и синтаксиса: ложбан, токипона, Арахау.

      Вспомогательные языки - предназначены для практического общения: эсперанто, интерлингва, словио.

      Артистические или эстетические языки - создаются для творческого и эстетического удовольствия: квенья.

      Также язык создается для постановки эксперимента, например для проверки гипотезы Сепира-Уорфа (о том, что язык, на котором говорит человек, ограничивает сознание, загоняет его в определённые рамки).

По своей структуре проекты искусственного языка могут быть разделены на следующие группы:

      Априорные языки - на основе логических или эмпирических классификаций понятий: ифкуиль, логлан, ложбан, ро, сольресоль.

      Апостериорные языки - языки, построенные преимущественно на основе интернациональной лексики: интерлингва, окциденталь

      Смешанные языки - слова и словообразование частично заимствованы из неискусственных языков, частично созданы на основе искусственно придуманных слов и словообразовательных элементов: волапюк, идо, эсперанто, нэо.

Число носителей искусственных языков можно назвать лишь приблизительно, ввиду того, что систематического учета носителей не ведётся.

По степени практического употребления искусственные языки делят на проекты, получившие широкое распространение: идо, интерлингва, эсперанто. Такие языки, как и национальные языки, называют «социализованными», среди искусственных их объединяют под термином плановые языки. Промежуточное положение занимают такие проекты искусственного языка, которые имеют некоторое количество сторонников, например, логлан (и его потомок ложбан), словио и другие. Большинство искусственных языков имеет единственного носителя - автора языка (по этой причине их более корректно называть «лингвопроектами», а не языками).

Изучение искусственных языков как в собственном смысле, так и в приложении к искусственно упорядоченным подсистемам естественных языков позволяет осознать общие принципы устройства и функционирования языка вообще, расширяют теоретические представления о таких свойствах языка, как системность, коммуникативная пригодность, стабильность и изменчивость, а также о пределах сознательного воздействия человека на язык, степени и типах его формализации а оптимизации.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Системы записи информации на формальных языках

3.1. Кодирование информации.

Кодирование информации применяют для унификации формы представления данных, которые относятся к различным типам, в целях автоматизации работы с информацией.

Кодирование - это выражение данных одного типа через данные другого типа. Например, естественные человеческие языки можно рассматривать как системы кодирования понятий для выражения мыслей посредством речи, к тому же и азбуки представляют собой системы кодирования компонентов языка с помощью графических символов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

      длиной - число позиций в коде;

      структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования, которые образуют:

      классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

      регистрационную систему кодирования, не требующую предварительной классификации объектов.

Кодирование текстовой информации.

Текстовую информацию кодируют двоичным кодом через обозначение каждого символа алфавита определенным целым числом. С помощью восьми двоичных разрядов возможно закодировать 256 различных символов. Данного количества символов достаточно для выражения всех символов английского и русского алфавитов.

В первые годы развития компьютерной техники трудности кодирования текстовой информации были вызваны отсутствием необходимых стандартов кодирования. В настоящее время, напротив, существующие трудности связаны с множеством одновременно действующих и зачастую противоречивых стандартов.

Для английского языка, который является неофициальным международным средством общения, эти трудности были решены. Институт стандартизации США выработал и ввел в обращение систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).

Для кодировки русского алфавита были разработаны несколько вариантов кодировок:

1) Windows-1251 - введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение;

2) КОИ-8 (Код Обмена Информацией, восьмизначный) - другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет;

3) ISO (International Standard Organization - Международный институт стандартизации) – международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.

Ограниченный набор кодов (256) создает трудности для разработчиков единой системы кодирования текстовой информации. Вследствие этого было предложено кодировать символы не 8-разрядными двоичными числами, а числами с большим разрядом, что вызвало расширение диапазона возможных значений кодов. Система 16-разрядного кодирования символов называется универсальной - UNICODE. Шестнадцать разрядов позволяет обеспечить уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков.

Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки очень долго не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, так как в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше. В конце 1990-х гг. технические средства достигли необходимого уровня, начался постепенный перевод документов и программных средств на систему кодирования UNICODE.

Кодирование графической информации.

Существует несколько способов кодирования графической информации.

При рассмотрении черно-белого графического изображения с помощью увеличительного стекла заметно, что в его состав входит несколько мельчайших точек, образующих характерный узор (или растр). Линейные координаты и индивидуальные свойства каждой из точек изображения можно выразить с помощью целых чисел, поэтому способ растрового кодирования базируется на использовании двоичного кода представления графических данных. Общеизвестным стандартом считается приведение черно-белых иллюстраций в форме комбинации точек с 256 градациями серого цвета, т. е. для кодирования яркости любой точки необходимы 8-разрядные двоичные числа.

В основу кодирования цветных графических изображений положен принцип разложения произвольного цвета на основные составляющие, в качестве которых применяются три основных цвета: красный (Red), зеленый (Green) и синий (Blue). На практике принимается, что любой цвет, который воспринимает человеческий глаз, можно получить с помощью механической комбинации этих трех цветов. Такая система кодирования называется RGB (по первым буквам основных цветов). При применении 24 двоичных разрядов для кодирования цветной графики такой режим носит название полноцветного (True Color).

Каждый из основных цветов сопоставляется с цветом, дополняющим основной цвет до белого. Для любого из основных цветов дополнительным будет являться цвет, который образован суммой пары остальных основных цветов. Соответственно среди дополнительных цветов можно выделить голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). Принцип разложения произвольного цвета на составляющие компоненты используется не только для основных цветов, но и для дополнительных, т. е. любой цвет можно представить в виде суммы голубой, пурпурной и желтой составляющей. Этот метод кодирования цвета применяется в полиграфии, но там используется еще и четвертая краска - черная (Black), поэтому эта система кодирования обозначается четырьмя буквами - CMYK. Для представления цветной графики в этой системе применяется 32 двоичных разряда. Данный режим также носит название полноцветного.

Приуменьшении количества двоичных разрядов, применяемых для кодирования цвета каждой точки, сокращается объем данных, но заметно уменьшается диапазон кодируемых цветов. Кодирование цветной графики 16-разрядными двоичными числами носит название режима High Color. При кодировании графической цветной информации с применением 8 бит данных можно передать только 256 оттенков. Данный метод кодирования цвета называется индексным.

Кодирование звуковой информации.

В настоящий момент не существует единой стандартной системы кодирования звуковой информации, так как приемы и методы работы со звуковой информацией начали развиваться по сравнению с методами работы с другими видами информации самыми последними. Поэтому множество различных компаний, которые работают в области кодирования информации, создали свои собственные корпоративные стандарты для звуковой информации. Но среди этих корпоративных стандартов выделяются два основных направления.

В основе метода FM (Frequency Modulation) положено утверждение о том, что теоретически любой сложный звук может быть представлен в виде разложения на последовательность простейших гармонических сигналов разных частот. Каждый из этих гармонических сигналов представляет собой правильную синусоиду и поэтому может быть описан числовыми параметрами или закодирован. Звуковые сигналы образуют непрерывный спектр, т. е. являются аналоговыми, поэтому их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняется с помощью специальных устройств - аналого-цифровых преобразователей (АЦП). Обратное преобразование, которое необходимо для воспроизведения звука, закодированного числовым кодом, производится с помощью цифроаналоговых преобразователей (ЦАП). Из-за таких преобразований звуковых сигналов возникают потери информации, которые связаны с методом кодирования, поэтому качество звукозаписи с помощью метода FM обычно получается недостаточно удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с окраской, характерной для электронной музыки. При этом данный метод обеспечивает вполне компактный код, поэтому он широко использовался в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.

Основная идея метода таблично-волнового синтеза (Wave-Table) состоит в том, что в заранее подготовленных таблицах находятся образцы звуков для множества различных музыкальных инструментов. Данные звуковые образцы носят название сэмплов. Числовые коды, которые заложены в сэмпле, выражают такие его характеристики, как тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые компоненты среды, в которой наблюдается звучание, и другие параметры, характеризующие особенности звучания. Поскольку для образцов применяются реальные звуки, то качество закодированной звуковой информации получается очень высоким и приближается к звучанию реальных музыкальных инструментов, что в большей степени соответствует нынешнему уровню развития современной компьютерной техники.

Документирование на формальных (искусственных) языках