В рамках доклада рассматриваются алгоритмы аудио кодирования на основе гибридной (синусоиды – шум — транзиенты) модели описания сигнала. Проводиться анализ существующих подходов к решению данного вопроса, и предлагается разрабатываемая модель аудио кодера.
Гибридная модель описания сигнала, представленная в [1], позволяет построить на ее основе масштабируемый аудио кодер. Разделение сигнала на три составляющие (синусоидальную, переходную и шумовую) позволяет найти и применить индивидуальную схему сжатия к каждой из них. Общая схема аудио кодера на базе гибридной модели описания сигнала представлена на рисунке 1.
Рисунок 1 – Общая схема аудио кодера на базе гибридной модели описания сигнала
Как видно на приведенной схеме, первым этапом работы кодера является анализ входного аудио сигнала и выделение синусоидальных параметров из него. В качестве анализатора была взята модель получения мгновенных параметров сигнала описанная в [2]. Следующий шаг – сепарация сигнала на синусоидальную составляющую и остаток. На этом этапе проводился поиск энергетических пиков и выделение соответствующих параметров в качестве синусоидальных. На этап анализа переходных компонентов поступает сигнал, являющийся результатом вычитания входного сигнала и синтезированной синусоидальной составляющей. Анализ транзиентных компонентов описан в [1]. Последним звеном параметризации сигнала является анализ шумовой компоненты (финального остатка входного сигнала). Шумовая составляющая моделировалась с помощью линейного предсказания, то есть, происходит поиск спектральной огибающей.
Параметрами синусоидальной составляющей сигнала служат амплитуды, частоты и фазы. В низкоскоростных аудио кодерах информация о фазе сигнала не передается, а вычисляется декодером. Амплитуды, в предлагаемой модели, квантуются с помощью векторного квантования с расщеплением. В экспериментах было использовано пять кодовых книг (КК) по 1024 уровня в каждой, однако можно учесть особенности восприятия аудио сигнала и варьировать количество уровней КК. В силу специфики используемой для анализа модели, для передачи сигнала на скорости менее 10 кбит/с есть возможность зафиксировать информацию о частоте на стороне декодера.
Параметрами, описывающими переходную составляющую, служат атомы [1]. Они представляют собой набор из позиции каждого атома и его вес. В силу того, что значение позиции атома должно передаться в декодер без потерь, эти значения не сжимаются и напрямую передаются. Значение веса, в свою очередь, квантуется скалярно и, затем, передается на сторону декодера.
Шумовая составляющая параметризируется с помощью алгоритма линейного предсказания. Выходные коэффициенты фильтра предсказателя преобразуются в LSF, которые затем квантуются с помощью векторного квантования. Синтезируется данная компонента фильтрацией белого шума фильтром предсказателем с вычисленными ранее коэффициентами. С помощью такой технологии работает современное стоматологическое оборудование.
Для улучшения качества восстановленного сигнала в разрабатываемой модели кодера проводятся эксперименты с использованием в схеме кодирования психоакустической модели.
Список источников:
Авторы:
Герасимович В.Ю.
Петровский А.А. − д.т.н., профессор
Белорусский государственный университет информатики и радиоэлектроники