Методы преобразования и передачи звуковых сигналов

На физическом уровне в ISDN применяется кодово-импульсная модуляция с частотой стробирования 8 кГц, что превышает ограничение Найквиста, равное 2*3,3 кГц. Здесь 3,3 кГц – это полоса пропускания канала для классической телефонной сети. Эмпирически определено, что для качественного воспроизведения речи достаточно 4096 уровней квантования сигнала (12 бит АЦП). Такой диапазон обусловлен высокой динамикой сигналов. Поэтому возникает возможность сжимать 12-битные коды в 8-битные, формируя поток данных на уровне 64 Кбит/с. В этом процессе применяется логарифмическое преобразование.

Логарифмическое преобразование встречает проблемы при низких значениях входного сигнала. Ведь логарифм чисел меньше 1 имеет отрицательное значение. Однако функция преобразования должна проходить через точку нуля. В США две логарифмические кривые смещаются к вертикальной оси, в итоге получается функция y ~ log(1 +mx), так называемая m-зависимость [m-law].

В Европе применяется функция y ~ ax в области значений x около нуля и y ~ 1 + log(Ax) при больших значениях x, известная как A-зависимость [a-law].

Для дальнейшего упрощения процесса преобразования реальные кривые аппроксимируются набором отрезков прямых, где угол наклона каждый раз удваивается. На практике функция табулируется (рекомендация G.711) и различия между m- и A-функциями минимальны. Однако при практической связи между Европой и США, например телефонной, требуется m/A-конвертор. Для кодирования применяется симметричный код, где первый бит отображает полярность сигнала.

Иллюстрация функций преобразования сигналов

Рис. 2.4.1. Иллюстрация функций преобразования сигналов.

Дальнейшим развитием схемы PCM стал адаптивный дифференциальный метод кодово-импульсной модуляции (Рис. 2.4.2). В этом методе кодируется не сам уровень сигнала в определенный момент времени ti, а разница между уровнями в моменты времени ti и ti-1. Так как в большинстве случаев сигнал изменяется плавно, что характерно для человеческой речи, число необходимых разрядов АЦП можно значительно уменьшить. Основное различие между PCM и ADPCM (1984 год) заключается в применении адаптивного АЦП и дифференциального кодирования. Адаптивный АЦП отличается от стандартного PCM-преобразователя так, что уровни квантования распределены равномерно (а не логарифмически) в любой момент времени, причем величина квантования изменяется в зависимости от уровня сигнала. Идея адаптивного метода основана на том, что последовательные уровни сигнала в человеческой речи коррелированы. Таким образом, кодированием и передачей только разницы между предсказанным и реальным значениями можно сократить нагрузку на линию и требования к полосе пропускания канала. Однако этот метод имеет свои недостатки: уровень шума, связанный с квантованием сигнала, выше, и при резких изменениях уровня сигнала, которые превышают диапазон АЦП, могут возникать искажения.

Адаптивный преобразователь голоса в код

Рис. 2.4.2. Адаптивный преобразователь голоса в код.

Расширить диапазон преобразования можно, умножая шаг квантования на число, слегка отличное от единицы. При дифференциальном преобразовании на вход кодировщика поступает не сам сигнал, а разница между текущим и предыдущим значениями (рис. 2.4.3).

ADPCM-преобразователь голоса в код для 32кбит/с

Рис. 2.4.3. ADPCM-преобразователь голоса в код для 32кбит/с.

Блок прогнозирования является адаптивным фильтром, использующим предыдущий код для оценки следующего стробирования. На вход кодировщика подается разница между входным сигналом и предсказанием. Чем точнее предсказание, тем меньше бит требуется для кодирования этой разницы. Характер человеческой речи позволяет сократить требования к каналу при использовании адаптивного дифференциального преобразователя.

Для компактных музыкальных дисков (CD) характерны полосы частот 50Гц - 20 кГц, в то время как обычная речь соответствует полосе 50 Гц - 7 кГц. Только звуки типа Ф или С имеют заметные составляющие в высокочастотной части спектра. Для высококачественной передачи речи применяется ADPCM-преобразователь (Adaptive Differential Pulse Code Modulation). В нем звук сначала стробируется с частотой 16 кГц, затем преобразуется в цифровой код с разрешением не менее 14 бит, и после этого подается на квадратурный зеркальный фильтр (QMF), который разделяет сигнал на два субдиапазона (50Гц-4кГц и 4кГц-7кГц). Нижний диапазон кодируется 6 битами (48кбит/с), а верхний - 2 битами (16 Кбит/с). Результаты этих преобразований мультиплексируются, формируя поток данных со скоростью 64 кбит/с.

На CD применяется 16-битное кодирование со стробированием частоты 44,1 кГц, что создает информационный поток 705 Кбит/c. Для стерео сигнала этот поток может удвоиться. Однако на практике сигналы в стереоканалах сильно коррелированы, и можно кодировать и передавать только их разницу. Высокочастотные сигналы каналов суммируются, а для кодирования разницы между каналами используется код их относительной интенсивности. Исследования показали, что для акустического восприятия спектральные детали наиболее важны в области около 2 кГц. С учетом этих особенностей был разработан стандарт MUSICAM, соответствующий стандарту ISO MPEG (Moving Picture Expert Group; стандарт ISO 11172). В MUSICAM звуковой диапазон делится на 32 равных интервала. Логарифмическая чувствительность человеческого уха и эффект маскирования позволяют уменьшить число разрядов кодирования. Эффект маскирования связан с тем, что при наличии звуковых амплитуд высокой интенсивности человеческое ухо становится менее чувствительным к амплитудам близких частот.

Изменение порога чувствительности человеческого уха под влиянием эффекта маскирования.

Рис. 2.4.4. Изменение порога чувствительности человеческого уха под влиянием эффекта маскирования.

При разбивке на субдиапазоны можно учитывать эффект маскирования и передавать только ту информацию, которая не подвержена этому эффекту. Уровень ошибок квантования нужно поддерживать ниже порога маскирования, что позволяет уменьшить информационный поток. Для стробирования высококачественных аудиосигналов применяются частоты 32, 44,1 или 48 кГц. Стандарт предлагает три уровня кодирования звука, которые различаются по сложности и качеству. На первом уровне осуществляется разделение на 32 диапазона и формирование кадров с 384 результатами стробирования. Уровень 2 формирует кадры с 1152 результатами стробирования. Уровень 3 предполагает динамическое разбиение на субдиапазоны и сжатие данных с использованием кодов Хаффмана. Любой декодер может работать на своем или более низком уровне.

Для улучшения передачи низких частот к субдиапазонным фильтрам применяется быстрое преобразование Фурье (FFT). Частота передачи аудиоданных не является постоянной. По результатам измерений, частота редко превышает 110кбит/с, а применение 128кбит/с делает качество воспроизведения сравнимым с CD. Ограничение частоты до 64 Кбит/с приводит к минимальным искажениям.

В следующих таблицах приведены данные о скоростях передачи аудиоданных по цифровым и оптоволоконным каналам. См. также раздел 3.5.6.

Таблица 2.4.1. Скорости передачи данных по цифровым каналам.

ЛинияБыстродействие, Мбит/сЧисло аудио каналов
DS-00,0641
T-11,54424
T-1C3,15248
T-26,31296
T-344,736672

Таблица 2.4.2. Скорости передачи данных по оптическим каналам

Линия OC-xБыстродействие, Мбит/сЧисло аудио каналовSTM-x
151,84672-
3155,5220161
9466,5660483
12622.0880644
241244,16161288
482488,323225616
964976,646451232
1929953,2812902464

Еще одним методом, нацеленным на повышение эффективности преобразования входного аналогового сигнала в код, является дельта-модуляция.