Кодирование и сжатие аудио-информации

Кодирование и сжатие аудио-информации 

  Цифровая запись  и воспроизведение  звука

 

Первой предварительной  операцией, которая производится с  аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :

 

Семплирование и квантизация

  • Следующим комплексом операций является  собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени. Таким образом, происходит замена аналогового сигнала последовательностью его мгновенных значений, отсчитываемых с определенной частотой( семплирование).
  • Согласно теореме Шеннона-Котельникова, значение сигнала будет точно воспроизведено, если частота стробирования по крайней мере в 2 раза выше, чем частота самого сигнала.
  • Для речевого сигнала, ограниченного при телефонной передаче частотой 3400 Гц, частота дискретизации принята равной 8000 имп/с, и, следовательно, период стробирования, т.е. интервал между соседними сканированиями, равняется 125мкс(1 с/8000=125 мкс).
  • Измерение амплитуды в дискретные моменты времени называется квантованием амплитуды, когда кждое значение аплитуды представляется как сумма небольших и равных ее значений, называемых квантами , а сама процедура называется квантизацией.

Оцифровка звукового  сигнала 

Дискретизация аналогового сигнала  во времени

   

Квантование значений амплитуды  

Параметры оцифровки

  • Частота семплирования (частота дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Для качественного преобразования применяют частоты более чем в два раза превышающие верхнюю границу звукового диапазона: 44.1, 48, 96 кГц
  • Разрядность семплирования. Этот параметр указывает, с какой точностью происходят измерения амплитуды аналогового сигнала. В современных преобразователях используется 24-битное кодирование сигнала. Такая разрядность позволяет получить 224=16777216 значений амлитуды, что более чем достаточно для высококачественной оцифровки звука.

Семплирование звука с низкой и повышенной частотой и разрядностью

Методы  сжатия аудио

1. Алгоритмы основанные на дискретизации

Самый простой  метод сжатия звука: весь диапазон значений уровня громкости (в большинстве  случаев это 16-битные значения) приводится к интервалу 0-15 (тогда каждый уровень  громкости можно будет задать 4-мя битами). У стерео-сигнала каждый канал обрабатывается отдельно. Для повышения качества при распаковке  диапазон значений громкости можно приводить обратно к 16-битному виду по нелинейному/адаптивному интерполяционному алгоритму.

2. Восстановление сигнала  по спектру

Зависимость амплитуды колебания от его частоты  в разложении сигнала называется спектром. Сжатие основывается на том, что спектр изменяется медленнее, чем сам сигнал – и, соответственно, лучше сжимается. Однако, этот метод обычно применяется только для сжатия речи, т.к. он выигрывает у других только при очень высоких степенях сжатия и, соответственно, при довольно больших искажениях.

3. Алгоритм MP3.

Этот алгоритм использует особенности человеческого  слуха. Например, человек более чувствителен к средним частотам (нежели к низким и высоким); практически не воспринимает тихий звук, близкий по частоте к громкому, и т.д. Эти особенности восприятия называются психоакустической моделью. После удаления из спектра неслышимых частей звук кодируется алгоритмом, похожим на описанный в п.1; причем - чем лучше слышен звук в данной частотной полосе, тем больше уровней используется. Для работы со стереозвуком существуют 2 режима: обычный, когда каналы обрабатываются отдельно, и JoinedStereo, когда кодируется один канал, а вместо второго - разница между каналами, которая обычно невелика.  

MPEG - Moving Pictures Expert Group.

Экспертная  группа по движущимся изображениям.

Организация была создана в 1988 году и за время  своего существования выпустила  несколько стандартов, оказавших  большое влияние на информационные технологии и современную жизнь в целом.

MPEG1 – первый официальный международный стандарт, посвященный хранению видео и аудио информации в цифровом виде.

Стандарт  состоит из трех частей:

  1. Система. Описывает системную часть формата. Определяет способы мультиплексирования аудио и видео потоков, синхронизацию и формат физического хранения данных.
  2. Видео-канал. Определяет формат и алгоритм кодирования видео-потока и способ восстановления кадров изображения.
  3. Аудио-канал. Определяет формат и алгоритм кодирования аудио-потока и способ восстановления звукового потока.

 Впоследствии, когда формат сжатия аудио,  предложенный в третьей части  стандарта получил самостоятельное  распространение, он стал называться  MP3 (Moving Pictures layer 3).

Аудио параметры MPEG-1

  • 48, 44.1, 32 кГц
  • Mono
  • Dual
  • Стерео
  • Интенсивное стерео
 

Уровни AudioMPEG1 для сжатия стерео сигналов

Номер уровня Коэффициент сжатия Скорость потока данных,

Кбит/с

1 1:4 384
2 1:6…1:8 256…192
3 1:10…1:12 128..112

Оптимальный уровень - 3 со скоростью потока 125 кбит/с и плотностью данных 1Мбит/мин 

MPEG-2 – upgrade MPEG-1

Изменения а  Audio:

  • Появились новые виды частот 16, 22.05, 24 кГц
  • Поддержка многоканальности (5+1)
  • Появился AAC (Advanced Audio Coding) – обеспечивает высокое качество звука скоростью 64 кбит/с на канал.
 

Схема кодирования звука

  1. Банк фильтров – наборы фильтров двух типов: полифазные и фильтры модифицированный алгоритм дискретной косинусной трансформации (Modified Discrete Cosine Transform (MDCT)).
  2. Перцепционная модель – психоакустическая система, выполняющая оптимизацию сжатия звука на основе знаний об устройстве человеческого слухового аппарата, психологии и звуковосприятия.
  3. Кодирование и квантование – состоит из двух вложенных циклов – цикла оценки уровня сигнала(квантования) и цикла контроля шума(помех, вносимых квантованием). Цикл контроля шумов является внешним, в него вложен цикл оценки уровня. Цикл контроля шумов выполняется до тех пор, пока уровень шума не будет соответствовать заданным условиям субъективного качества звука (спектральная похожесть исх. звука и кодир.).
  4. Кодирование аудио-потока – сжатие и кодирование квантов(ячеек, элементов) потока в какой-либо формат хранения или передачи данных. Алгоритм сжатия потока зависит от реализации формата хранения/передачи. Используется алгоритм Хаффмана. Обычно (в различных форматах хранения/передачи) после алгоритма Хаффмана также используются алгоритмы LZIFF(zip), gzip, bzip2.

Методы  сжатия, основанные на психоакустике

  • Обсчет психоакустической модели (маскирования).
  • Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
  • Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.

 
 
 
 
 
 
 
 
 
 
 
 

Перцепционная модель

Психо-акустическая модель построена на основе информации, накопленной о звуковом восприятии, строении человеческого слухового  аппарата и психологии восприятия музыки. Можно сказать, что MP3 построен на «обмане» человеческого уха и мозга, не сохраняя те звуковые картины, которые человек наверняка не заметит. Основными способами «обмана» являются:

  • эффект маскирования – человек не воспринимает тихие звуки на фоне или сразу после громких. Этот эффект можно сравнить с ослеплением – некоторое время необходимо для восстанавления чувствительности;
  • меньший приоритет высоким и низким тонам – человек плохо слышит звуки ниже 200Гц и выше 5КГц;
  • адаптивное смешение каналов (см. ниже);

Кодирование аудио-потока

В стандарте  определено только кодирование потока – нет рекомендаций о форматах файлов хранения или форматах вещания  MP3.

      После квантования, полученные кванты данных по каждому каналу (логическому, т.к. количество каналов в потоке MP3 не обязательно соответствует количеству реальных стереофонических каналов) сжимаются по алгоритму Хаффмана (Huffman).

      Алгоритм  Хаффмана заключается  в замене наиболее часто встречающихся  последовательностей бит в потоке (паттернов) на битовые последовательности меньшей длины. Чем чаще паттерн встречается в потоке, тем короче соответствующая ему последовательность бит. Преимущества алгоритма – высокая скорость и мизерные накладные расходы на размер потока в случае совершенно равномерных данных. В среднем, для классической симфонической музыки, алгоритм дает сжатие порядка 20%.

Полученный  поток сохраняется в зависимости  от формата хранения или передачи. 

Способы сжатия и хранения нескольких звуковых каналов.

  1. Моно;
  2. Стерео (два независимых канала, каждый кодируется и хранится отдельно);
  3. Объединенное стерео (Joint Stereo) – для очень высоких и очень низких частот, расположение источника которых человеческое ухо не может точно определить, оба канала не записывают, а только один - объединенный. Впоследствии, в момент проигрывания такие участки воспроизводятся как моно, но человеческое ухо не может этого заметить.
  4. Mid/Side Stereo - хранится один общий канал и информация о разнице между главным и боковыми. Когда каналы похожи, то за общий можно взять (L+R), а за боковой – (L-R). При проигрывании нетрудно будет вычислить исходные каналы.
 

Схема декодирования звука

  1. Декодирование аудио-потока – извлечение квантов  из формата хранения, распаковка.
  2. Обратное квантование – создание набора спектральных линий для каждого кванта данных каждого канала данных. Здесь не выполняется какого-либо преобразование спектров, смешения каналов и т.д. – все эти операции выполняются банком синтезирующих фильтров.
  3. Синтезирующие фильтры – набор правил, алгоритмов и фильтров, создающих на основании потока спектральных линий несколько(в зависимости от формата) каналов аудио-данных. Количество входящих каналов данных часто отличается от количества исходящих – ото связано со способом кодирования информации о нескольких каналах.
 

Способы кодирования стерео сигнала в рамках MP3

Dual Channel Каждый канал получает половину потока и кодируется отдельно как моносигнал.
Stereo Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу места больше, чем другому
Joint Stereo (MS Stereo) Стереосигнал раскладывается на средний между каналами и разностный. При этом 2-й кодируется с меньшим  битрейтом
Joint Stereo (MS/IS Stereo) Для нескольких частотных диапазонов оставляется только отношение мощностей сигнала в разных каналах
 

Исследование  АЧХ сэмплов, признанных лучшими 

  • Новейший формат Ogg Vorbis в режиме 256 явно недотягивает "по верхам" - урезание частот.
  • "Супер коммерческий" формат LQT передает диапазон частот по верхам немного лучше, чем LAME, но общее качество хуже. Дело в том, что в LQT нет режима чистого стерео - там, всегда Joint-Stereo (кодер сначала сжимает левый канал, а потом кодирует только разницу между левым и правым). Из-за этого и происходит размазка верхов при недостатке битрейта,
  •    LAME - чуть-чуть урезаются верхние частоты, но это терпимо; видимых провалов также не отмечено.
 

Форматы для представления  звука и музыки

Microsoft RIFF (Resource Interchange File Format) WAVE содержит оцифованный звук
SMF (Standard MIDI File) содержит «партитуру»  для MIDI-инструментов
RAW одноканальный формат «чистой оцифровки»
VOC и CMF форматы от Creative Labs
AIFF формат на Macintosh и SGI
AU формат SUN/NeXT
MOD трекерный формат
STM формат Scream Tracker
S3M формат Scream Tracker 3
XM формат Fast Tracker
 

Носители  цифрового звука

  • CD (CD-R, CD-RW)
  • ИКМ-приставка (PCM desk)
  • S-DAT (Stationary head Digital Audio Tape)
  • R-DAT (Rotary head Digital Audio Tape)
  • DASH (Digital Audio stationary Head)
  • ADAT (Alesis DAT)
  • DCC (Digital Compact Cassete)
  • MD (MiniDisc)
 

Превращение канавки в питы

 
 

Схема обработки звука  в ПК

1. С ЦАП/АЦП  на звук карте

 

2. С ЦАП  на периферийных устройствах

 

Передача  голоса по каналам  Интернет

  • Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия, качество передачи постепенно приближается к уровню цифровой телефонии.

Существуют  два алгоритма сжатия звуковой информации, используемых для ip-телефонных переговоров:

1) GSM (global system for mobile communications), коэффициент сжатия 5,         2) DSP-группы (true speech) с коэффициентом сжатия данных 18 (работает при частотах 7.7 кбит/с).

      Добавление  аппаратных средств сжатия информации позволяет сократить необходимую  полосу до 6.72 Кбит/с. Потеря 2-5% пакетов  остается незамеченной, 20% оставляет  разговор понятным.

        Для подключения к сети ip-phone необходима мультимедийная карта, микрофон, динамики (или наушники), 8 Мбайт оперативной памяти, доступ к Интернет и соответствующее программное обеспечение.  

Cтандарты и протоколы для обеспечения передачи звука по ip-каналам

  • Качество передачи звука зависит от загруженности IP-канала.
  • В качестве транспорта используется  протокол UDP
  • К протоколам служащий для обеспечения своевременной доставки данных при работе в реальном времени относятся:
  • RTP (real time protocol),
  • RTCP (real-time control protocol), который является дополнением RTP,
  • RSVP (resource reservation protocol)
 

характеристики  аудио-кодеков, которые  можно использовать в IP-телефонии.

   Кодек      Выходная скорость кодека

   G.711                64 кбит/с

   g.722          48, 56 или 64 кбит/с

   g.728              16 кбит/с

Требования  к системам IP- телефонии

При внедрении ip-телефонии  желательно, чтобы  сетевая инфраструктура обеспечивала:

  • Время задержки в одну сторону менее 100 мсек.
  • Вероятность потери пакета менее 5%.
  • Оборудование должно соответствовать требованиям H.323v2, а механизмы безопасности - стандарту H.235.
 

Пример реализации систем в IP-телефонии

(MVD – Multiflex Voice/WAN модуль, включаемый в маршрутизатор,  например, Cisco-3662). 

 
 

Основы  и стандарты видеотехнологии.

  Основные характеристики и параметры видеосигнала

Ви́део (от лат. Video - дословно «вижу») - под этим термином понимают широкий спектр технологий записи, обработки, передачи, хранения и воспроизведения визуального и аудиовизуального материала.

  • Изобретение телевидения принадлежит русскому инженеру Зворыгину (1932г.)
  • В 1957 году был изобретен первый монитор.
  • Видеоизображение состоит из последовательности статических картинок (кадров).Количество (частота) кадров в секунду - это число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеоматериала и создающих эффект движения объектов на экране.

Развёртка изображения на экране

  • Развёртка видеоматериала может быть прогрессивной или чересстрочной (интерлейс от англ. interlace или интерлейсинг).
  • При прогрессивной развёртке все горизонтальные линии (строки) изображения отображаются одновременно,
  • При чересстрочной развёртке показываются попеременно чётные и нечётные строки (называемые также полями кадра)
  • Чересстрочная развёртка была изобретена для показа изображения на кинескопах с электронно-лучевой трубкой и используется сейчас для передачи видео по «узким» каналам в Системах: PAL, SECAM и NTSC. Новые цифровые стандарты телевидения, например, HDTV предусматривают прогрессивную развёртку.
 

Разрешение  и соотношение  сторон экрана

  • По аналогии с разрешением компьютерных мониторов, любой видеосигнал также имеет разрешение ( resolution), горизонтальное и вертикальное, измеряемое в пикселях.
  • Обычное аналоговое телевизионное разрешение составляет 720×576 пикселей для стандартов PAL и SECAM, при частоте кадров 50 Герц ;
  • и 640×480 пикселей для NTSC, при частоте 60 Герц.
  •            Новый стандарт высокочеткого (high-definition) цифрового телевидения HDTV предполагает разрешения до 1920×1080 при частоте  60 Герц с прогрессивной развёрткой.
  • Разрешение в случае трёхмерного видео измеряется в вокселях - элементах изображения, представляющих точки (кубики) в трёхмерном пространстве. Например, для простого трёхмерного видео используется базовое разрешение 512×512×512.
 

Соотношение ширины и высоты кадра (англ. aspect ratio) - важнейший параметр в любом видеоматериале.

Ещё с 1910 года кинофильмы имели соотношение сторон экрана 4:3 (4 единицы в ширину к 3 единицам в высоту; иногда ещё записывается как 1,33:1 или просто 1,33). Считалось, что зрителю удобнее смотреть фильм на экране такой формы.

             Когда появилось  телевидение, то оно переняло  это соотношение и почти все  аналоговые телесистемы (и, следовательно,  телевизоры) имели соотношение сторон  экрана 4:3.

             Компьютерные мониторы  также унаследовали телевизионный  стандарт сторон. Хотя ещё в  1950-х годах это представление  о 4:3 в корне изменилось. Дело  в том, что поле зрения человека  имеет соотношение отнюдь не 4:3. Ведь у человека 2 глаза, расположенных  на одной горизонтальной линии - следовательно, поле зрения человека приближается к соотношению 2:1.

            Чтобы приблизить форму  кадра к естественному полю зрения человека (и, следовательно, усилить  восприятие фильма), был введён стандарт 16:9 (1,78), почти соответствующий так называемому «Золотому сечению».

            Цифровое телевидение  в основном тоже ориентируется на соотношение 16:9.

            К концу XX века, после ряда дополнительных исследований в этой области, стали появляться даже и  более радикальные соотношения  сторон кадра: 1,85, 2,20 и вплоть до 2,35 (почти 21:9).

Основные  характеристики цветового  сигнала

  • Яркость. При приеме цветового сигнала три раздельные передающие телевизионные трубки (или преобразователя) генерируют напряжения сигналов для красного, зеленого и синего цветов
  • напряжения преобразуются затем в один яркостный и два сигнала цветности.
  • Яркостный сигнал формируется из трех основных цветов. Он сохраняет яркость цвета и рассчитан таким образом, что может быть использован и для передачи черно-белого изображения. Расчет цветовых составляющих для яркостного сигнала основан на цветовой чувствительности человеческого глаза. Основное снижение объема информации в цветном телевидении достигается за счет передачи ограниченного числа насыщенных цветовых тонов, что оказалось возможным благодаря особому свойству цветового зрения, известному под названием трех-компонентности цветовосприятия.

Теория  цветового зрения

  • Ломоносов пришел к выводу, что цветоощущающий (колбочковый) аппарат глаза человека содержит рецепторы (нервные окончания) трех видов.
  • Причем излучения различных волн возбуждают эти рецепторы неодинаково.
  • первый вид окончаний наиболее чувствителен к длинноволновой части видимого спектра (красно-оранжевой),
  • второй  к средневолновой части спектра (зелено-желтой)
  • третий  к коротковолновой (сине-фиолетовой).
  • Естественные краски на экране получатся, если смешать основные цвета в следующем соотношении: 30% красного (R), 59% зеленого (G) и 11% синего (В).
  • При соответствующем сложении цветовых составляющих получим яркостный сигнал Y :

                  Y = 0,3R + 0,59G + 0,11B.

Кривые основных возбуждений(спектральной чувствительности рецепторов) глаза 

Согласно  теории цветового зрения М. В. Ломоносова: . все цвета могут быть получены путем сложения (смешения) трех световых потоков,  например, красного,  зеленого и синего с высокой насыщенностью, называемых основными, или первичными.

Цветность.

  • Сигналы цветности представляют собой разностные сигналы, заданные разностью яркостного сигнала и двух из трех основных цветов.
  • При формировании изображения эти три сигнала можно опять преобразовать в три основных цвета. Сигналы цветности U и V определяются по следующим формулам:

                  U = B-Y,

                   V = R-Y.

  • Разностные сигналы U и V формируют вместе с сигналом Y полный сигнал YUV, который может быть обработан большинством из существующих видеоадаптеров.

Свойства  зрения, благодаря  которым оказалось  возможным существенно  сократить объем  информации о цвете, передаваемой по каналам  связи и воспроизводимой на экране цветного телевизора:

  • Трехкомпонентность цветового зрения распространяется только на относительно крупные наблюдаемые объекты, которые при телевизионной передаче требуют полосы видеочастот от 0 до 0,5 МГц и воспроизводятся трехцветными.

 

  • Цвет объектов средних размеров, воспроизводимых видеочастотами от 0,5 до 1,5 МГц, является смесью только двух цветов: оранжевого и зелено-синего (голубого).

 

  • Мелкие детали, требующие для воспроизведения видеочастоты от 1,5 МГц и выше, различаются  наблюдателями только по яркостным градациям, то есть кажутся черно-белыми. При этом отсутствие окраски мелких деталей незначительно ухудшает субъективное восприятие цветного изображения.

Формат  полного цветного телевизионного сигнала

 

Количество цветов и цветовое разрешение

  • Количество цветов и цветовое разрешение видеосигнала описывается цветовыми моделями:

      - для  телевизионной техники применяется цветовая модель YUV,

Кодирование и сжатие аудио-информации