Компоненты H.323. Федеральный стандарт FS1016

Здесь приведена исчерпывающая информация о компонентах стандарта H.323.

Описание рекомендации

Реализация для TMS320C3x

Звук

Документация

Алгоритм CELP (Code Excited Linear Prediction), основанный на рекомендации FS1016, построен на модели кодирования с использованием процедуры анализа-через-синтез, линейного предсказания и векторного квантования. Для моделирования кратковременного спектра речевого сигнала (формантной структуры) используется фильтр линейного предсказания 10-го порядка. Для формирования сигнала возбуждения используются адаптивная и стохастическая кодовые книги. Вычислительная сложность алгоритма определяется процедурами поиска оптимальных векторов возбуждения по двум кодовым книгам. Таким образом, CELP анализ состоит из трёх основных процедур:

кратковременное линейное предсказание,
долговременный поиск по адаптивной кодовой книге,
поиск по стохастической кодовой книге

CELP синтез состоит из этих же процедур, выполненных в обратном порядке.

Кодер оперирует с кадрами речевого сигнала длиной 30мс (240 отсчётов), дискретизованными с частотой 8КГц. В свою очередь каждый из этих кадров делится на четыре подкадра по 60 отсчётов. Для каждого кадра производится анализ речевого сигнала, и выделяются передаваемые параметры CELP-модели: 10 линейных спектральных пар (несут информацию о коэффициентах фильтра линейного предсказания), индексы и коэффициенты усиления в адаптивной и фиксированной кодовых книгах. Далее это параметры кодируются в битовый поток и передаются в канал.

В декодере эта битовая посылка используется для восстановления параметров сигнала возбуждения и коэффициентов синтезирующего фильтра. Далее восстанавливается речь, путем пропускания сигнала возбуждения через синтезирующий фильтр. Затем для улучшения качества восприятия синтетического сигнала выходной сигнал с фильтра-синтезатора пропускается через постфильтр.

Как уже упоминалось, входной поток речевых отсчётов делится кодером на кадры по 30 мс (240 отсчётов). Кодер производит LPC анализ на фрагменте анализа длиной 240 отсчётов, который перекрывает вторую половину текущего кадра и первую половину следующего кадра. Таким образом, в кодере образуется алгоритмическая задержка в 15 мс. Дополнительные задержки в практическом приложении этого алгоритма возникают по следующим причинам:

процессы кодирования и декодирования требуют некоторого времени;
время передачи по каналу;
задержка мультиплексирования при комбинировании аудиоданных с другими видами данных.

Полное описание алгоритма можно найти в:

Federal Standard 1016, Telecommunications: Analog to Digital Conversion of Radio Voice by 4,800 bit/second Code Excited Linear Prediction (CELP), National Communications System, Office of Technology and Standards, Washington, DC 20305-2010, 14 February 1991.
NCS Technical Information Bulletin 92-1. Details to Assist in Implementation of Federal Standard 1016 CELP.

[наверх] [на главную]

Алгоритм реализован для ЦПОС семейства TMS320C3x фирмы Texas Instruments.

Реализация удовлетворяет следующим требованиям:

функционирует в режиме реального времени;
совместима со всеми ЦПОС в рамках семейства TMS320C3x

Ресурсоемкость реализации

Загрузка процессора
	Кодер	Декодер
Вычислительный ресурс (пиковая загрузка на один канал), млн.оп./с.	19.47	1.51
	20.98

Память
программа, К слов	5.38
таблицы, К слов	2.65
данные, К слов	17.88
Всего, К слов	25.91

[наверх] [на главную]

По следующим звуковым файлам вы сможете оценить качество алгоритма FS1016:

Исходная речь
Речь, упакованная кодером FS1016 и восстановленная декодером FS1016 при нулевых потерях

[наверх] [на главную]

Можно получить подробную документацию по представленным реализациям алгоритма FS1016, описание API реализации, подробные инструкции по встраиванию алгоритма в систему обработки речевых сигналов:
FS1016 для TMS320C3x (формат Word)

[наверх] [на главную]

Использовались материалы сайта http://www.dsp.sut.ru.