Кодирование и сжатие аудио-информации
Кодирование и сжатие аудио-информации
Цифровая запись и воспроизведение звука
Первой предварительной операцией, которая производится с аналоговым звуком является фильтрация, в результате которой выделяется требуемый частотный диапазон для соответствующего канала и удаляются помехи. Эта операция производится при помощи низкочастотных, высокочастотных или полосовых фильтров. Амплитудно-частотные характеристики низкочастотного и полосового фильтров :
Семплирование и квантизация
- Следующим комплексом операций является собственно оцифровка, которая состоит из дискретизации сигнала по времени, т.е. разбиении сигнала на временные отрезки с заданным шагом дискретизации и измерения амплитуды сигнала в данные моменты времени. Таким образом, происходит замена аналогового сигнала последовательностью его мгновенных значений, отсчитываемых с определенной частотой( семплирование).
- Согласно теореме Шеннона-Котельникова, значение сигнала будет точно воспроизведено, если частота стробирования по крайней мере в 2 раза выше, чем частота самого сигнала.
- Для речевого сигнала, ограниченного при телефонной передаче частотой 3400 Гц, частота дискретизации принята равной 8000 имп/с, и, следовательно, период стробирования, т.е. интервал между соседними сканированиями, равняется 125мкс(1 с/8000=125 мкс).
- Измерение амплитуды в дискретные моменты времени называется квантованием амплитуды, когда кждое значение аплитуды представляется как сумма небольших и равных ее значений, называемых квантами , а сама процедура называется квантизацией.
Оцифровка звукового
сигнала
Дискретизация аналогового сигнала во времени
Квантование
значений амплитуды
Параметры оцифровки
- Частота семплирования (частота дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Для качественного преобразования применяют частоты более чем в два раза превышающие верхнюю границу звукового диапазона: 44.1, 48, 96 кГц
- Разрядность семплирования. Этот параметр указывает, с какой точностью происходят измерения амплитуды аналогового сигнала. В современных преобразователях используется 24-битное кодирование сигнала. Такая разрядность позволяет получить 224=16777216 значений амлитуды, что более чем достаточно для высококачественной оцифровки звука.
Семплирование звука с низкой и повышенной частотой и разрядностью
Методы сжатия аудио
1. Алгоритмы основанные на дискретизации
Самый простой метод сжатия звука: весь диапазон значений уровня громкости (в большинстве случаев это 16-битные значения) приводится к интервалу 0-15 (тогда каждый уровень громкости можно будет задать 4-мя битами). У стерео-сигнала каждый канал обрабатывается отдельно. Для повышения качества при распаковке диапазон значений громкости можно приводить обратно к 16-битному виду по нелинейному/адаптивному интерполяционному алгоритму.
2. Восстановление сигнала по спектру
Зависимость амплитуды колебания от его частоты в разложении сигнала называется спектром. Сжатие основывается на том, что спектр изменяется медленнее, чем сам сигнал – и, соответственно, лучше сжимается. Однако, этот метод обычно применяется только для сжатия речи, т.к. он выигрывает у других только при очень высоких степенях сжатия и, соответственно, при довольно больших искажениях.
3. Алгоритм MP3.
Этот алгоритм
использует особенности человеческого
слуха. Например, человек более чувствителен
к средним частотам (нежели к низким
и высоким); практически не воспринимает
тихий звук, близкий по частоте к громкому,
и т.д. Эти особенности восприятия называются
психоакустической моделью. После удаления
из спектра неслышимых частей звук кодируется
алгоритмом, похожим на описанный в п.1;
причем - чем лучше слышен звук в данной
частотной полосе, тем больше уровней
используется. Для работы со стереозвуком
существуют 2 режима: обычный, когда каналы
обрабатываются отдельно, и JoinedStereo, когда
кодируется один канал, а вместо второго
- разница между каналами, которая обычно
невелика.
MPEG - Moving Pictures Expert Group.
Экспертная группа по движущимся изображениям.
Организация была создана в 1988 году и за время своего существования выпустила несколько стандартов, оказавших большое влияние на информационные технологии и современную жизнь в целом.
MPEG1 – первый официальный международный стандарт, посвященный хранению видео и аудио информации в цифровом виде.
Стандарт состоит из трех частей:
- Система. Описывает системную часть формата. Определяет способы мультиплексирования аудио и видео потоков, синхронизацию и формат физического хранения данных.
- Видео-канал. Определяет формат и алгоритм кодирования видео-потока и способ восстановления кадров изображения.
- Аудио-канал. Определяет формат и алгоритм кодирования аудио-потока и способ восстановления звукового потока.
Впоследствии,
когда формат сжатия аудио,
предложенный в третьей части
стандарта получил
Аудио параметры MPEG-1
- 48, 44.1, 32 кГц
- Mono
- Dual
- Стерео
- Интенсивное стерео
Уровни AudioMPEG1 для сжатия стерео сигналов
| Номер уровня | Коэффициент сжатия | Скорость потока данных,
Кбит/с |
| 1 | 1:4 | 384 |
| 2 | 1:6…1:8 | 256…192 |
| 3 | 1:10…1:12 | 128..112 |
Оптимальный
уровень - 3 со скоростью потока 125 кбит/с
и плотностью данных 1Мбит/мин
MPEG-2 – upgrade MPEG-1
Изменения а Audio:
- Появились новые виды частот 16, 22.05, 24 кГц
- Поддержка многоканальности (5+1)
- Появился AAC (Advanced Audio Coding) – обеспечивает высокое качество звука скоростью 64 кбит/с на канал.
Схема кодирования звука
- Банк фильтров – наборы фильтров двух типов: полифазные и фильтры модифицированный алгоритм дискретной косинусной трансформации (Modified Discrete Cosine Transform (MDCT)).
- Перцепционная модель – психоакустическая система, выполняющая оптимизацию сжатия звука на основе знаний об устройстве человеческого слухового аппарата, психологии и звуковосприятия.
- Кодирование и квантование – состоит из двух вложенных циклов – цикла оценки уровня сигнала(квантования) и цикла контроля шума(помех, вносимых квантованием). Цикл контроля шумов является внешним, в него вложен цикл оценки уровня. Цикл контроля шумов выполняется до тех пор, пока уровень шума не будет соответствовать заданным условиям субъективного качества звука (спектральная похожесть исх. звука и кодир.).
- Кодирование аудио-потока – сжатие и кодирование квантов(ячеек, элементов) потока в какой-либо формат хранения или передачи данных. Алгоритм сжатия потока зависит от реализации формата хранения/передачи. Используется алгоритм Хаффмана. Обычно (в различных форматах хранения/передачи) после алгоритма Хаффмана также используются алгоритмы LZIFF(zip), gzip, bzip2.
Методы сжатия, основанные на психоакустике
- Обсчет психоакустической модели (маскирования).
- Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
- Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.
Перцепционная модель
Психо-акустическая модель построена на основе информации, накопленной о звуковом восприятии, строении человеческого слухового аппарата и психологии восприятия музыки. Можно сказать, что MP3 построен на «обмане» человеческого уха и мозга, не сохраняя те звуковые картины, которые человек наверняка не заметит. Основными способами «обмана» являются:
- эффект маскирования – человек не воспринимает тихие звуки на фоне или сразу после громких. Этот эффект можно сравнить с ослеплением – некоторое время необходимо для восстанавления чувствительности;
- меньший приоритет высоким и низким тонам – человек плохо слышит звуки ниже 200Гц и выше 5КГц;
- адаптивное смешение каналов (см. ниже);
Кодирование аудио-потока
В стандарте определено только кодирование потока – нет рекомендаций о форматах файлов хранения или форматах вещания MP3.
После квантования, полученные кванты данных по каждому каналу (логическому, т.к. количество каналов в потоке MP3 не обязательно соответствует количеству реальных стереофонических каналов) сжимаются по алгоритму Хаффмана (Huffman).
Алгоритм Хаффмана заключается в замене наиболее часто встречающихся последовательностей бит в потоке (паттернов) на битовые последовательности меньшей длины. Чем чаще паттерн встречается в потоке, тем короче соответствующая ему последовательность бит. Преимущества алгоритма – высокая скорость и мизерные накладные расходы на размер потока в случае совершенно равномерных данных. В среднем, для классической симфонической музыки, алгоритм дает сжатие порядка 20%.
Полученный
поток сохраняется в
Способы сжатия и хранения нескольких звуковых каналов.
- Моно;
- Стерео (два независимых канала, каждый кодируется и хранится отдельно);
- Объединенное стерео (Joint Stereo) – для очень высоких и очень низких частот, расположение источника которых человеческое ухо не может точно определить, оба канала не записывают, а только один - объединенный. Впоследствии, в момент проигрывания такие участки воспроизводятся как моно, но человеческое ухо не может этого заметить.
- Mid/Side Stereo - хранится один общий канал и информация о разнице между главным и боковыми. Когда каналы похожи, то за общий можно взять (L+R), а за боковой – (L-R). При проигрывании нетрудно будет вычислить исходные каналы.
Схема декодирования звука
- Декодирование аудио-потока – извлечение квантов из формата хранения, распаковка.
- Обратное квантование – создание набора спектральных линий для каждого кванта данных каждого канала данных. Здесь не выполняется какого-либо преобразование спектров, смешения каналов и т.д. – все эти операции выполняются банком синтезирующих фильтров.
- Синтезирующие фильтры – набор правил, алгоритмов и фильтров, создающих на основании потока спектральных линий несколько(в зависимости от формата) каналов аудио-данных. Количество входящих каналов данных часто отличается от количества исходящих – ото связано со способом кодирования информации о нескольких каналах.
Способы кодирования стерео сигнала в рамках MP3
| Dual Channel | Каждый канал получает половину потока и кодируется отдельно как моносигнал. |
| Stereo | Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу места больше, чем другому |
| Joint Stereo (MS Stereo) | Стереосигнал раскладывается на средний между каналами и разностный. При этом 2-й кодируется с меньшим битрейтом |
| Joint Stereo (MS/IS Stereo) | Для нескольких частотных диапазонов оставляется только отношение мощностей сигнала в разных каналах |
Исследование АЧХ сэмплов, признанных лучшими
- Новейший формат Ogg Vorbis в режиме 256 явно недотягивает "по верхам" - урезание частот.
- "Супер коммерческий" формат LQT передает диапазон частот по верхам немного лучше, чем LAME, но общее качество хуже. Дело в том, что в LQT нет режима чистого стерео - там, всегда Joint-Stereo (кодер сначала сжимает левый канал, а потом кодирует только разницу между левым и правым). Из-за этого и происходит размазка верхов при недостатке битрейта,
- LAME - чуть-чуть урезаются верхние частоты, но это терпимо; видимых провалов также не отмечено.
Форматы для представления звука и музыки
| Microsoft RIFF (Resource Interchange File Format) WAVE | содержит оцифованный звук |
| SMF (Standard MIDI File) | содержит «партитуру» для MIDI-инструментов |
| RAW | одноканальный формат «чистой оцифровки» |
| VOC и CMF | форматы от Creative Labs |
| AIFF | формат на Macintosh и SGI |
| AU | формат SUN/NeXT |
| MOD | трекерный формат |
| STM | формат Scream Tracker |
| S3M | формат Scream Tracker 3 |
| XM | формат Fast Tracker |
Носители цифрового звука
- CD (CD-R, CD-RW)
- ИКМ-приставка (PCM desk)
- S-DAT (Stationary head Digital Audio Tape)
- R-DAT (Rotary head Digital Audio Tape)
- DASH (Digital Audio stationary Head)
- ADAT (Alesis DAT)
- DCC (Digital Compact Cassete)
- MD (MiniDisc)
Превращение канавки в питы
Схема обработки звука в ПК
1. С ЦАП/АЦП на звук карте
2. С ЦАП на периферийных устройствах
Передача голоса по каналам Интернет
- Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия, качество передачи постепенно приближается к уровню цифровой телефонии.
Существуют два алгоритма сжатия звуковой информации, используемых для ip-телефонных переговоров:
1) GSM (global system for mobile communications), коэффициент сжатия 5, 2) DSP-группы (true speech) с коэффициентом сжатия данных 18 (работает при частотах 7.7 кбит/с).
Добавление
аппаратных средств сжатия информации
позволяет сократить
Для подключения к сети ip-phone необходима
мультимедийная карта, микрофон, динамики
(или наушники), 8 Мбайт оперативной памяти,
доступ к Интернет и соответствующее программное
обеспечение.
Cтандарты и протоколы для обеспечения передачи звука по ip-каналам
- Качество передачи звука зависит от загруженности IP-канала.
- В качестве транспорта используется протокол UDP
- К протоколам служащий для обеспечения своевременной доставки данных при работе в реальном времени относятся:
- RTP (real time protocol),
- RTCP (real-time control protocol), который является дополнением RTP,
- RSVP (resource reservation protocol)
характеристики аудио-кодеков, которые можно использовать в IP-телефонии.
Кодек Выходная скорость кодека
G.711 64 кбит/с
g.722 48, 56 или 64 кбит/с
g.728 16 кбит/с
Требования к системам IP- телефонии
При внедрении ip-телефонии желательно, чтобы сетевая инфраструктура обеспечивала:
- Время задержки в одну сторону менее 100 мсек.
- Вероятность потери пакета менее 5%.
- Оборудование должно соответствовать требованиям H.323v2, а механизмы безопасности - стандарту H.235.
Пример реализации систем в IP-телефонии
(MVD – Multiflex Voice/WAN модуль, включаемый в маршрутизатор, например, Cisco-3662).
Основы и стандарты видеотехнологии.
Основные характеристики и параметры видеосигнала
Ви́део (от лат. Video - дословно «вижу») - под этим термином понимают широкий спектр технологий записи, обработки, передачи, хранения и воспроизведения визуального и аудиовизуального материала.
- Изобретение телевидения принадлежит русскому инженеру Зворыгину (1932г.)
- В 1957 году был изобретен первый монитор.
- Видеоизображение состоит из последовательности статических картинок (кадров).Количество (частота) кадров в секунду - это число неподвижных изображений, сменяющих друг друга при показе 1 секунды видеоматериала и создающих эффект движения объектов на экране.
Развёртка изображения на экране
- Развёртка видеоматериала может быть прогрессивной или чересстрочной (интерлейс от англ. interlace или интерлейсинг).
- При прогрессивной развёртке все горизонтальные линии (строки) изображения отображаются одновременно,
- При чересстрочной развёртке показываются попеременно чётные и нечётные строки (называемые также полями кадра)
- Чересстрочная развёртка была изобретена для показа изображения на кинескопах с электронно-лучевой трубкой и используется сейчас для передачи видео по «узким» каналам в Системах: PAL, SECAM и NTSC. Новые цифровые стандарты телевидения, например, HDTV предусматривают прогрессивную развёртку.
Разрешение и соотношение сторон экрана
- По аналогии с разрешением компьютерных мониторов, любой видеосигнал также имеет разрешение ( resolution), горизонтальное и вертикальное, измеряемое в пикселях.
- Обычное аналоговое телевизионное разрешение составляет 720×576 пикселей для стандартов PAL и SECAM, при частоте кадров 50 Герц ;
- и 640×480 пикселей для NTSC, при частоте 60 Герц.
- Новый стандарт высокочеткого (high-definition) цифрового телевидения HDTV предполагает разрешения до 1920×1080 при частоте 60 Герц с прогрессивной развёрткой.
- Разрешение в случае трёхмерного видео измеряется в вокселях - элементах изображения, представляющих точки (кубики) в трёхмерном пространстве. Например, для простого трёхмерного видео используется базовое разрешение 512×512×512.
Соотношение ширины и высоты кадра (англ. aspect ratio) - важнейший параметр в любом видеоматериале.
Ещё с 1910 года кинофильмы имели соотношение сторон экрана 4:3 (4 единицы в ширину к 3 единицам в высоту; иногда ещё записывается как 1,33:1 или просто 1,33). Считалось, что зрителю удобнее смотреть фильм на экране такой формы.
Когда появилось
телевидение, то оно переняло
это соотношение и почти все
аналоговые телесистемы (и,
Компьютерные
Чтобы приблизить форму кадра к естественному полю зрения человека (и, следовательно, усилить восприятие фильма), был введён стандарт 16:9 (1,78), почти соответствующий так называемому «Золотому сечению».
Цифровое
К концу XX века, после ряда дополнительных исследований в этой области, стали появляться даже и более радикальные соотношения сторон кадра: 1,85, 2,20 и вплоть до 2,35 (почти 21:9).
Основные характеристики цветового сигнала
- Яркость. При приеме цветового сигнала три раздельные передающие телевизионные трубки (или преобразователя) генерируют напряжения сигналов для красного, зеленого и синего цветов
- напряжения преобразуются затем в один яркостный и два сигнала цветности.
- Яркостный сигнал формируется из трех основных цветов. Он сохраняет яркость цвета и рассчитан таким образом, что может быть использован и для передачи черно-белого изображения. Расчет цветовых составляющих для яркостного сигнала основан на цветовой чувствительности человеческого глаза. Основное снижение объема информации в цветном телевидении достигается за счет передачи ограниченного числа насыщенных цветовых тонов, что оказалось возможным благодаря особому свойству цветового зрения, известному под названием трех-компонентности цветовосприятия.
Теория цветового зрения
- Ломоносов пришел к выводу, что цветоощущающий (колбочковый) аппарат глаза человека содержит рецепторы (нервные окончания) трех видов.
- Причем излучения различных волн возбуждают эти рецепторы неодинаково.
- первый вид окончаний наиболее чувствителен к длинноволновой части видимого спектра (красно-оранжевой),
- второй к средневолновой части спектра (зелено-желтой)
- третий к коротковолновой (сине-фиолетовой).
- Естественные краски на экране получатся, если смешать основные цвета в следующем соотношении: 30% красного (R), 59% зеленого (G) и 11% синего (В).
- При соответствующем сложении цветовых составляющих получим яркостный сигнал Y :
Y = 0,3R + 0,59G + 0,11B.
Кривые основных возбуждений(спектральной чувствительности рецепторов) глаза
Согласно теории цветового зрения М. В. Ломоносова: . все цвета могут быть получены путем сложения (смешения) трех световых потоков, например, красного, зеленого и синего с высокой насыщенностью, называемых основными, или первичными.
Цветность.
- Сигналы цветности представляют собой разностные сигналы, заданные разностью яркостного сигнала и двух из трех основных цветов.
- При формировании изображения эти три сигнала можно опять преобразовать в три основных цвета. Сигналы цветности U и V определяются по следующим формулам:
U = B-Y,
V = R-Y.
- Разностные сигналы U и V формируют вместе с сигналом Y полный сигнал YUV, который может быть обработан большинством из существующих видеоадаптеров.
Свойства зрения, благодаря которым оказалось возможным существенно сократить объем информации о цвете, передаваемой по каналам связи и воспроизводимой на экране цветного телевизора:
- Трехкомпонентность цветового зрения распространяется только на относительно крупные наблюдаемые объекты, которые при телевизионной передаче требуют полосы видеочастот от 0 до 0,5 МГц и воспроизводятся трехцветными.
- Цвет объектов средних размеров, воспроизводимых видеочастотами от 0,5 до 1,5 МГц, является смесью только двух цветов: оранжевого и зелено-синего (голубого).
- Мелкие детали, требующие для воспроизведения видеочастоты от 1,5 МГц и выше, различаются наблюдателями только по яркостным градациям, то есть кажутся черно-белыми. При этом отсутствие окраски мелких деталей незначительно ухудшает субъективное восприятие цветного изображения.
Формат полного цветного телевизионного сигнала
Количество цветов и цветовое разрешение
- Количество цветов и цветовое разрешение видеосигнала описывается цветовыми моделями:
- для телевизионной техники применяется цветовая модель YUV,

- Кодирование и шифрование
- Кодирование и шифрование
- Кодирование и шифрование
- Кодирование и шифрование информанции
- Кодирование и шифрование информации
- Кодирование и шифрование информации
- Кодирование и шифрование информации
- Кодирование информации
- Кодирование информации
- Кодирование информации
- Кодирование информации (4)
- Кодирование информации в вычислительных машинах
- Кодирование информации. Кодирование чисел, текста, изображения и звука
- Кодирование информации. Современные методы кодирования