Кодирование звуковой информации. 3
Содержание:
Введение 3
- Кодирование звуковой информации 4
- Компьютерное представление звуковой информации4
- Аналого-цифровой преобразователь4
- одмешивание псевдослучайного сигнала6
2.3. Кодирование оцифрованного звука перед его записью на носитель7
2.4. Цифро-аналоговый преобразователь9
2.5. Теорема Котельникова10
3. Помехоустойчивое и канальное кодирование11
4. Основные звуковые форматы12
5. Цифровые синтезаторы музыкальных звуков14
6. Анализ музыкальных инструментов14
7. Синтез музыкальных звуков17
8. Обработка звука17
Заключение19
Список
литературы20
Введение
Мир наполнен самыми разнообразными звуками: тиканье часов и гул моторов, завывание ветра и шелест листьев, пение птиц и голоса людей. О том, как рождаются звуки и что они собой представляют люди начали догадываться очень давно. Еще древнегреческий философ и ученый - энциклопедист Аристотель, исходя из наблюдений, объяснял природу звука, полагая, что звучащее тело создает попеременное сжатие и разрежение воздуха. Так, колеблющаяся струна то разряжает, то уплотняет воздух, а из-за упругости воздуха эти чередующиеся воздействия передаются дальше в пространство - от слоя к слою, возникают упругие волны. Достигая нашего уха, они воздействуют на барабанные перепонки и вызывают ощущение звука.
На
слух человек воспринимает упругие
волны, имеющие частоту где-то в
пределах от 16 Гц до 20 кГц (1 Гц - 1 колебание
в секунду). В соответствии с этим
упругие волны в любой среде,
частоты которых лежат в
Колебание, которое имеет наиболее низкую частоту, называют основным тоном, другие - обертонами.
Тембр - разное количество обертонов, присущих тому или иному звуку, которое придает ему особую окраску. Отличие одного тембра от другого обусловлено не только числом, но и интенсивностью обертонов, сопровождающих звучание основного тона. Именно по тембру мы легко можем отличить звуки рояля и скрипки, гитары и флейты, узнать голос знакомого человека.
Музыкальный звук можно характеризовать тремя качествами: тембром, т. е. окраской звука, которая зависит от формы колебаний, высотой, определяющейся числом колебаний в секунду (частотой), и громкостью, зависящей от интенсивности колебаний.
Компьютер
широко применяют в настоящее
время в различных сферах. Не стала
исключением и обработка
- Кодирование звуковой информации.
Из курса физики известно, что звук является волной, т.е. колебанием среды. В повседневной жизни средой является воздух, но на самом деле это необязательное условие. К примеру, звук хорошо распространяется по поверхности земли и в одной среде. Напротив, в вакууме и космосе звук не распространяется.
Звуковые колебания легко преобразуются в электрические с помощью микрофона. Сигнал микрофона является очень слабым, но на современном уровне развития техники его усиление не представляет проблемы. Форму полученных колебаний, т.е. зависимость интенсивности сигнала от времени, можно наблюдать на экране осциллографа - электроннолучевого, прибора для наблюдения функциональной связи между двумя или несколькими величинами (параметрами и функциями; электрическими или преобразованными в электрические).
В эпоху аналоговой записи звука, для сохранения полученного электрического сигнала его преобразовывали в ту или иную форму другой физической природы, которая зависела от применяемого носителя.
Например, при изготовлении грампластинок сигнал вызывал механические изменения размеров звуковой дорожки ( с помощью специальной аппаратуры сигнал преобразовался в механические колебания сапфирового резца, который нарезал на слое материала концентрические звуковые канавки).
Для старых киноаппаратов звук на пленку наносился оптическим методом (запись электрических колебаний звуковой частоты, осуществлялась фотографическим способом на движущейся киноплёнке).
Наибольшее распространение в быту получил процесс магнитной звукозаписи (запись производилась с помощью специального устройства - записывающей магнитной головки, создающей переменное магнитное поле на участке движущегося носителя (зачастую магнитной ленты), обладающего магнитными свойствами).
Во
всех случаях интенсивность звука
была строго пропорциональна какой-либо
величине, например, ширине оптической
звуковой дорожки, причем эта величина
имела непрерывный диапазон значений.
- Компьютерное представление звуковой информации.
- . Аналого-цифровой преобразователь
Переход к записи звука в компьютерном виде потребовал принципиально новых подходов. При цифровой записи зависимости интенсивности звука от времени возникает принципиальная трудность: исходный сигнал непрерывен (т.е. его параметр может принимать любе значение в пределах некоторого интервала), а компьютер способен хранить в памяти только дискретные (параметр может принимать только конечное число значений в пределах некоторого интервала). Отсюда следует, что в процессе сохранения звуковой информации она должна быть “оцифрована”, т.е. из аналоговой непрерывной формы переведена в цифровую дискретную. Данную функцию выполняет специальный блок, входящий в состав звуковой карты компьютера, который называется АЦП -- аналого-цифровой преобразователь.
Основные принципы работы АЦП:
- АЦП производит дискретизацию записываемого звукового сигнала по времени. Это означает, что измерение уровня интенсивности звука в определенные фиксированные моменты времени (чаще всего через равные временные промежутки). Частоту, характеризующую периодичность измерения звукового сигнала, принято называть частотой дискретизации. Её выбор в значительной степени зависит от частотного спектра сохраняемого сигнала: существует специальная теорема Найквиста, согласно которой частота оцифровки звука должна как минимум в 2 раза превышать максимальную частоту, входящую в состав спектра сигнала. Считается, человек слышит звук частотой не более 20 000 Гц = 20 кГц, поэтому для высококачественного воспроизведения звука верхнюю границу обычно с некоторым запасом принимают равной 22 кГц. Частота при таких требованиях должна быть не ниже 44 кГц. Такая частота чаще всего используется, при записи музыкальных компакт-дисков. Однако часто такое высокое качество не требуется, и частоту дискретизации можно значительно снизить. Например, при записи речи вполне достаточно частоты 8 кГц. Результат при этом получается хотя и не блестящий, но вполне разборчивый, к примеру такое качество у голоса в телефоне.
Качество воспроизведения тем лучше, чем выше частота дискретизации, но в то же время и объем занимаемое памяти звуковых данных при этом тоже возрастает, так что оптимального “на все случаи” значения частоты не существует и частота всегда выбирается из расчета что более важно качество или объем занимаемой памяти.
- АЦП производит дискретизацию амплитуды звукового сигнала Это следует понимать так, что при измерении имеется “сетка” стандартных уровней (например, 256 или 65 536 -- это количество характеризует глубину кодирования (количество бит на кодировку звука)), и текущий уровень измеряемого сигнала округляется до ближайшего из них. В итоге появляется линейная зависимость между величиной входного сигнала и номером уровня. То есть в том случае, когда, например, громкость возрастает в 2 раза, то ожидается, что и соответствующее ему число возрастет вдвое. Но такое распределение применяется только в простейших случаях. Чаще всего при записи звука используют неравномерные распределения уровней громкости, в основе которых лежит логарифмический закон.
Таким образом, в ходе оцифровки звука мы получаем поток целых чисел, причем величина числа соответствует силе звука в данный момент.
Данный
метод преобразования показывает, что
звук, как и любая другая информация,
для возможности хранения в памяти
компьютера, нуждается в представлении
его в числовом форме и в
последующем переводе в двоичную
систему счисления.
- Подмешивание псевдослучайного сигнала.
Некоторые характеристики АЦП могут быть улучшены путём использования методики подмешивания псевдослучайного сигнала. Она заключается в добавлении к входному аналоговому сигналу случайного шума (белый шум) небольшой амплитуды. Амплитуда шума, как правило, выбирается на уровне половины МЗР. Эффект от такого добавления заключается в том, что состояние МЗР случайным образом переходит между состояниями 0 и 1 при очень малом входном сигнале (без добавления шума МЗР был бы в состоянии 0 или 1 долговременно). Для сигнала с подмешанным шумом вместо простого округления сигнала до ближайшего разряда происходит случайное округление вверх или вниз, причём среднее время, в течение которого сигнал округлён к тому или иному уровню зависит от того, насколько сигнал близок к этому уровню. Таким образом, оцифрованный сигнал содержит информацию об амплитуде сигнала с разрешающей способностью лучше, чем МЗР, то есть происходит увеличение эффективной разрядности АЦП. Негативной стороной методики является увеличение шума в выходном сигнале. Фактически, ошибка квантования размазывается по нескольким соседним отсчётам. Такой подход является более желательным, чем простое округление до ближайшего дискретного уровня. В результате использования методики подмешивания псевдослучайного сигнала мы имеем более точное воспроизведение сигнала во времени. Малые изменения сигнала могут быть восстановлены из псевдослучайных скачков МЗР путём фильтрации. Кроме того, если шум детерминирован (амплитуда добавляемого шума точно известна в любой момент времени), то его можно вычесть из оцифрованного сигнала, предварительно увеличив его разрядность, тем самым почти полностью избавиться от добавленного шума.
Звуковые сигналы очень малых амплитуд, оцифрованные без псевдослучайного сигнала, воспринимаются на слух очень искажёнными и неприятными. При подмешивании псевдослучайного сигнала истинный уровень сигнала представлен средним значением нескольких последовательных отсчётов.
Однако,
в последнее время (2009 год),
в связи с удешевлением 24-битных АЦП, имеющих
даже без dihter’а динамический диапазон
более 120 дБ, что на несколько порядков
превышает полный воспринимаемый человеком
диапазон слуха, данная технология потеряла
актуальность в звукотехнике. При этом,
она используется в ВЧ и СВЧ технике, где
битность АЦП обычно мала из-за высокой
частоты дискретизации.
- Кодирование оцифрованного звука перед его записью на носитель
Для хранения цифрового звука существует много различных способов. Оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени.
Блок оцифрованной аудио информации можно записать в файл без изменений, то есть последовательностью чисел – значений амплитуды. В этом случае существуют два способа хранения информации.
- Первый – PCM (Pulse Code Modulation – импульсно-кодовая модуляция) - способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд. (В таком виде записаны данные на всех аудио CD.)
- Второй – ADPCM (Adaptive Delta PCM – адаптивная относительная импульсно-кодовая модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).
Можно сжать данные так, чтобы они занимали меньший объем памяти, нежели в исходном состоянии. Тут тоже есть два способа.
Кодирование данных без потерь (lossless coding) – способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К нему прибегают в тех случаях, когда сохранение оригинального качества данных особо значимо. Существующие сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия.
Кодирование
данных с потерями (lossy
coding). Здесь
цель – добиться схожести звучания восстановленного
сигнала с оригиналом при как можно меньшем
размере сжатого файла. Это достигается
путем использования алгоритмов, «упрощающих»
оригинальный сигнал (удаляющих из него
«несущественные», неразличимые на слух
детали). Это приводит к тому, что декодированный
сигнал перестает быть идентичным оригиналу,
а является лишь «похоже звучащим». Методов
сжатия, а также программ, реализующих
эти методы, существует много. Наиболее
известными являются MPEG-1 Layer I,II,III (последним
является всем известный MP3), MPEG-2 AAC (advanced
audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF),
MPEGPlus, TAC, и прочие. В среднем, коэффициент
сжатия, обеспечиваемый такими кодерами,
находится в пределах 10-14 (раз). В основе
всех lossy-кодеров лежит использование
так называемой психоакустической модели.
Она занимается этим самым «упрощением»
оригинального сигнала. Степень сжатия
оригинального сигнала зависит от степени
его «упрощения» – сильное сжатие достигается
путем «воинственного упрощения» (когда
кодером игнорируются множественные нюансы).
Такое сжатие приводит к сильной потере
качества, поскольку удалению могут подлежать
не только незаметные, но и значимые детали
звучания.
- Цифро-аналоговый преобразователь
При воспроизведении записанного в компьютерный файл звука производится преобразование в противоположном направлении -- из дискретной цифровой формы представления сигнала в непрерывную аналоговую. Для этого существует соответствующий узел компьютерного устройства, который называется ЦАП – цифро-аналоговый преобразователь.
Процесс реконструкции первоначального аналогового сигнала по имеющимся дискретным данным нетривиален, поскольку никакой информации о форме сигнала между соседними отсчетами не сохранилось. В разных звуковых картах для восстановления звукового сигнала могут использоваться различные способы. Наиболее наглядный и понятный из них является, тот, что по имеющимся соседним точкам рассчитывает некоторую гладкую функцию, проходящую через заданные точки, которая и принимается в качестве формы аналогового сигнала.
Характеристики ЦАП:
- Разрядность – количество различных уровней выходного сигнала, которые ЦАП может воспроизвести. Обычно задается в битах; количество бит есть логарифм по основанию 2 от количества уровней. Например, однобитный ЦАП способен воспроизвести два ( ) уровня, а восьмибитный — 256 ( ) уровней. Разрядность тесно связана с эффективной, которая показывает реальное разрешение, достижимое на данном ЦАП.
- Максимальная частота дискретизации – максимальная частота, на которой ЦАП может работать, выдавая на выходе корректный результат. В соответствии с теоремой Шенона-Найквиста (известной также как теорема Котельникова), для корректного воспроизведения аналогового сигнала из цифровой формы необходимо, чтобы частота дискретизации была не менее, чем удвоенная максимальная частота в спектре сигнала. Например, для воспроизведения всего слышимого человеком звукового диапазона частот, спектр которого простирается до 20 кГц, необходимо, чтобы звуковой сигнал был дискретизован с частотой не менее 40 кГц. Стандарт Audio CD устанавливает частоту дискретизации звукового сигнала 44,1 кГц; для воспроизведения данного сигнала понадобится ЦАП, способный работать на этой частоте. В дешевых компьютерных звуковых картах частота дискретизации составляет 48 кГц. Сигналы, дискретизованные на других частотах, подвергаются передискретизации до 48 кГц, что частично ухудшает качество сигнала.
- Монотонность – свойство ЦАП увеличивать аналоговый выходной сигнал при увеличении входного кода.
- THD+N (суммарные гармонические искажения + шум) – мера искажений и шума вносимых в сигнал ЦАПом. Выражается в процентах мощности гармоник и шума в выходном сигнале. Важный параметр при малосигнальных применениях ЦАП.
- Динамический диапазон – соотношение наибольшего и наименьшего сигналов, которые может воспроизвести ЦАП, выражается в децибелах. Данный параметр связан с разрядностью и шумовым порогом.
- Статические характеристики:
- DNL (дифференциальная нелинейность) характеризует, насколько приращение аналогового сигнала, полученное при увеличении кода на 1 младший значащий разряд (МЗР), отличается от правильного значения;
- INL (интегральная нелинейность) характеризует, насколько передаточная характеристика ЦАП отличается от идеальной. Идеальная характеристика строго линейна; INL показывает, насколько напряжение на выходе ЦАП при заданном коде отстоит от линейной характеристики; выражается в МЗР;
- усиление;
- смещение.
- Частотные характеристики:
- SNDR (отношение сигнал/шум+искажения) характеризует в децибелах отношение мощности выходного сигнала к суммарной мощности шума и гармонических искажений;
- HDi (коэффициент i-й гармоники) характеризует отношение i-й гармоники к основной гармонике;
- THD (коэффициент гармонических искажений) – отношение суммарной мощности всех гармоник (кроме первой) к мощности первой гармоники.
Технические
возможности современных
- Теорема Котельникова
Поскольку
дискретные сигналы широко используют
в настоящее время при передаче
сообщений, а многие реальные сигналы
(электрические сигналы при
если непрерывный сигнал имеет спектр, ограниченный частотой Fмакс, то он может быть полностью и однозначно восстановлен по его дискретным отсчетам, взятым через интервалы времени , т.е. с частотой , где
Fд – частота дискретизации; Fмакс - максимальная частота спектра сигнала.
Теорема Котельникова указывает условия, при которых непрерывный сигнал может быть точно восстановлен по соответствующему ему сигналу с дискретным временем.
Реальные непрерывные сигналы, подлежащие передаче, как правило, имеют спектры, хотя и довольно быстро стремящиеся к нулю с ростом частоты, но все же неограниченные. Такие сигналы могут быть восстановлены по своим дискретным отсчетам лишь приближенно. Но, если выбрать шаг дискретизации достаточно малым, то можно обеспечить пренебрежимо малое значение ошибки восстановления непрерывного сигнала по его переданным отсчетам в дискретные моменты времени.
К примеру, Fмакс для телефонного канала составляет 3,4 кГц. Следовательно, сигнал можно передать отдельными значениями, следующими с частотой 6,8 кГц, т.е. в одну секунду должно передаваться 6,8 тысяч отсчетов. Качество передачи речи при этом оказывается удовлетворительным. Увеличение частоты дискретизации сверх указанного значения допустимо и приводит к незначительному повышению точности восстановления телефонного сигнала.
- Помехоустойчивое и канальное кодирование
Помехоустойчивое кодирование позволяет при воспроизведении
сигнала выявить и устранить (или снизить
частоту их появления) ошибки чтения с
носителя. Для этого при записи к сигналу
полученному на выходе АЦП добавляется
искусственная избыточность (контрольный
бит), которая впоследствии помогает восстановить
поврежденный отсчет. В устройствах записи
звука обычно используется комбинация
из двух или трех помехоустойчивых кодов.
Для лучшей защиты от пакетных ошибок
также применяется перемежние. Каналь
- Основные звуковые форматы
Результаты
дискретизации звуковой информации,
как и все остальные
Формат AU. Этот простой и распространенный формат на системах Sun и NeXT (в последнем случае, правда, файл будет иметь расширение SND). Файл состоит из короткого служебного заголовка (минимум 28 байт), за которым непосредственно следуют звуковые данные. Широко используется в Unix-подобных системах и служит базовым для Java-машины.
Формат WAVE (WAV). Стандартный формат файлов для хранения звука в системе Windows. Является специальным типом другого, более общего формата RIFF (Resource Interchange File Format); другой разновидностью RIFF служат видеофайлы AVI. Файл RIFF составлен из блоков, некоторые из которых могут, в свою очередь, содержать другие вложенные блоки; перед каждым блоком данных помещается четырех символьный идентификатор и длина. Звуковые файлы WAV, как правило, более просты и имеют только один блок формата и один блок данных. В первом содержится общая информация об оцифрованном звуке (число каналов, частота дискретизации, характер зависимости громкости и т.д.), а во втором – сами числовые данные. Каждый отсчет занимает целое количество байт (например, 2 байта в случае 12-битовых чисел, старшие разряды содержат нули). При стерео записи (запись при которой происходит раскладка звука через два (и более) независимых аудиоканала) числа группируются парами для левого и правого канала соответственно, причем каждая пара образует законченный. Такая, казалось бы, излишняя структурированность позволяет программному обеспечению оптимизировать процесс передачи данных при воспроизведении, но, как в подобных случаях всегда бывает, выигрыш во времени приводит к существенному увеличению размера файла.
Формат MP3 (MPEG Layer3). Это один из форматов хранения аудио сигнала, позднее утвержденный как часть стандартов сжатого видео. Поскольку произвольные звуковые данные обратимыми методами сжимаются недостаточно хорошо, приходится переходить к методам необратимым: иными словами, базируясь на знаниях о свойствах человеческого слуха, звуковая информация “подправляется” так, чтобы возникшие искажения на слух были незаметны, но полученные данные лучше сжимались традиционными способами. Такое кодирование называется адаптированным и позволяет экономить на наименее значимых с точки зрения восприятия человека деталях звучания. Приемы, применяемые в MP3, сложны и опираются на достаточно сложную математику, но зато обеспечивают очень значительный эффект сжатия звуковой информации. Технология MP3 является, пожалуй, самой во многих бытовых звуковых устройствах, например, плеерах и сотовых телефонах.
Формат MIDI. Название MID
Формат
MOD. Представляет собой дальнейшее развитие
идеологии MIDI-файлов. Известные как “модули
программ воспроизведения”, они хранят
в себе не только “электронные ноты”,
но и образцы оцифрованного звука, которые
используются как шаблоны индивидуальных
нот. Таким способом достигается однозначность
воспроизведения звука. К недостаткам
формата следует отнести большие затраты
времени при наложении друг на друга шаблонов
одновременно звучащих нот.
- Цифровые синтезаторы музыкальных звуков
Информация, которую несет музыкальный звук, рассказывает о высоте (то есть о том, какая нота звучит) и тембре или типе музыкального инструмента, с помощью которого производится звукоизвлечение (генерация звука). Так же, в структуру музыкального звука исполнитель закладывает свою "импрессию", варьируя силу и резкость начала (атаки) и окончания (затухания), громкость, применяя амплитудное и частотное вибрато.
Как
правило, звук начинается с так называемой
атаки, быстрого нарастания амплитуды
сигнала. Длительность атаки для
разных музыкальных инструментов варьируется
от единиц до нескольких десятков или
даже сотен миллисекунд. После атаки
начинается поддержка, в течение
которой уровень сигнала
Спектр
музыкального сигнала состоит из
последовательности (по оси частот)
узких "колоколов". Причем частоты,
соответствующие максимумам (вершинам)
"колоколов", примерно кратны основному
тону или "фундаментальной" частоте
музыкального звукового сигнала, под
которой понимается частота, соответствующая
человеческому ощущению высоты звука.
- Анализ музыкальных инструментов
Целью анализа музыкальных звуков является изучение их структуры, определение существенных для восприятия человеческим слухом характеристик и использование полученных знаний для синтеза правдоподобно звучащих виртуальных цифровых музыкальных инструментов.
Традиционно для анализа сигналов в частотной области применяется быстрое преобразование Фурье. Данное преобразование позволяет представить любой дискретизированный сигнал, состоящий из N отсчетов в виде суммы N гармонических колебаний вида:
Yk(t)=Ak*sin(2П*Fk*t+Фk),
где k - номер гармоники, целое число от 0 до N-1; Ak - амплитуда k-й гармоники (расположенные на графике в виде вертикальных линий, как на рис. 3, в порядке возрастания k, они и образуют амплитудный спектр сигнала); Fk - частота k-й гармоники; Фk - фаза k-й гармоники; t - время, равное в моменты дискретизации (взятия отсчетов) сигнала

- Кодирование и классификация рыбы
- Кодирование информации
- Кодирование информации
- Кодирование информации
- Кодирование информации
- Кодирование информации
- Кодирование информации
- Кодирование графических данных
- Кодирование графической информации
- Кодирование данных двоичным кодом
- Кодирование звуковой информации
- Кодирование звуковой информации
- Кодирование звуковой информации
- Кодирование звуковой информации