Компоненты H.323. Рекомендация ITU-T G.723.1

Здесь приведена исчерпывающая информация о компонентах стандарта H.323.

Описание рекомендации

Реализация для TMS320C54x

Реализация для TMS320C62x

Звук

Документация

Рекомендация ITU-T G.723.1 - это двухскоростной вокодер для мультимедийных коммуникаций, являющийся частью семейства стандартов H.324. Вокодер работает на скоростях 5.3 и 6.3 кбит/с. Большая скорость передачи обеспечивает лучшее качество. Меньшая скорость дает хорошее качество речи и предоставляет разработчикам дополнительные возможности при построении систем. В любой момент на границе кадра допустимо переключение скорости передачи.

Входной речевой сигнал с частотой дискретизации 8 КГц разбивается на кадры длиной 30мс, что соответствует 240 16-битным отсчетам в линейном законе. Дополнительно существует задержка (look ahead), которая составляет 7.5мс, что определяет суммарную алгоритмическую задержку равной 37.5мс. Дополнительные задержки в практическом приложении этого алгоритма возникают по следующим причинам:

процессы кодирования и декодирования требуют некоторого времени;
время передачи по каналу;
задержка мультиплексирования при комбинировании аудиоданных с другими видами данных.

Кодер основывается на принципе линейного предсказания с анализом через синтез и минимизирует взвешенный сигнал ошибки. Кодер оперирует кадрами речевого сигнала длиной 240 отсчетов. Сначала каждый кадр пропускается через фильтр верхних частот для удаления постоянной составляющей, а затем делится на 4 подкадра длиной по 60 отсчетов. Для каждого подкадра вычисляются параметры фильтра линейного предсказания (Linear Prediction Coder Filter) 10-го порядка, а для последнего подкадра эти параметры квантуются с использованием Predictive Split Vector Quantizer (PSVQ). Для передачи декодеру осуществляются преобразование LPC-коэффициентов в вектор линейных спектральных пар (LSP) и его последующее квантование.

Неквантованные LPC-коэффициенты используются для построения кратковременного взвешивающего фильтра, через который пропускается кадр сигнала для получения взвешенного речевого сигнала. Для каждых двух подкадров по схеме с разомкнутой петлей вычисляется период основного тона (open-loop pitch period), лежащий в диапазоне от 18 до 142 отсчетов.

Дальнейшая обработка происходит по подкадрам. Основываясь на ранее вычисленной оценке периода основного тона, строится harmonic noise shaping filter. Для получения импульсного отклика используется комбинированный фильтр, состоящий из синтезирующего LPC-фильтра, формантного взвешивающего фильтра и harmonic noise shaping filter. На основании оценки периода основного тона и импульсного отклика вычисляется предсказатель основного тона 5-го порядке в схеме с замкнутой петлей. Дифференциал вычисляется в небольшой окрестности полученной ранее оценки периода основного тона. Вклад предсказателя периода основного тона вычитается из первоначального целевого вектора. И оценка основного тона, и дифференциал передаются от кодера к декодеру.

Наконец, аппроксимируется непериодическая компонента возбуждения. Для большей скорости используется возбуждение, полученное по схеме MP-MLQ, а для меньшей скорости - по схеме ACELP.

Работа декодера также построена на покадровом принципе. Сначала декодируются индексы квантованных LPC-коэффициентов, затем строится синтезирующий LPC-фильтр. Для каждого подкадра декодируется возбуждение и адаптивной, и фиксированной кодовых книг и подается на синтезирующий фильтр. Адаптивный постфильтр состоит из формантного постфильтра и реверсивного (forward-backward) постфильтра основного тона. Сигнал возбуждения передается на постфильтр основного тона, затем на синтезирующий фильтр, а выход синтезирующего фильтра подается на вход формантного постфильтра. Блок масштабирования усиления сохраняет уровень энергии на входе формантного постфильтра.

В декодере также существует механизм восстановления потерянных кадров, который включается в случае несовпадения контрольного бита. Восстановление основывается на типе последнего полученного кадра и сохраненном контексте декодера.

Помимо "чистой" рекомендации G.723.1, существуют "приложение" (annex) А. Приложение А добавляет в кодер часть классификации входного речевого сигнала. Это, так называемый, VAD - voice activity detector. Классификатор входного сигнала определяет, что в данный момент присутствует на входе - речь или пауза. В моменты пауз битовый поток понижается с 6.3 (или 5.3) кбит/с до 1 кбит/с и менее. В моменты пауз в битовом потоке передается информация о структуре фонового шума, чтобы на стороне декодера у слушателя не возникало дискомфорта от "чистых" пауз между фразами - т.е. присутствует генератор комфортного шума. Более того, информация о паузном кадре передается декодеру только в случае изменения характеристик шума. В противном случае на выходе кодера устанавливается признак такого типа кадра, а на декодер никакой информации не поступает.

Полное описание рекомендации можно найти в документе (или на сайте ITU):

ITU-T Recommendation G.723.1 Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s.

[наверх] [на главную]

Алгоритм реализован для ЦПОС семейства TMS320C54x фирмы Texas Instruments.

Реализация удовлетворяет следующим требованиям:

функционирует в режиме реального времени;
совместима со всеми ЦПОС в рамках семейства TMS320C54x (не используются специфические особенности старших моделей, таких как TMS320C548, TMS320C549 и пр.);
полностью совместима с требованиями стандарта ITU-T G.723.1 (приложение А) - достигнуто побитовое соответствие тестовым векторам;
оттестирована в различных режимах работы в составе реальной системы речевой обработки (ip-телефонном шлюзе)

Ресурсоемкость реализации для TMS320C54x (версия 1.2)

Загрузка процессора
	G.723.1.A кодер 6.3 кбит/с	G.723.1.A декодер 6.3 кбит/с	G.723.1.A кодер 5.3 кбит/с	G723.1.A декодер 5.3 кбит/с
Вычислительный ресурс (пиковая загрузка на один канал), млн.оп./с.	21.20	1.63	17.78	1.65
	22.83		19.43

Память
программа, К слов	8.7
таблицы, К слов	9.2 + 0.1 * N
данные, К слов	1.0 + 0.93 * N
Всего, К слов	18.9 + 1.03 * N

где N - число одновременно реализуемых каналов.

Таким образом, на одном процессоре TMS320C549 с 32 килословами внутренней памяти и мощностью 100MIPS можно реализовать независимую обработку четырех речевых каналов

[наверх] [на главную]

Алгоритм реализован для ЦПОС семейства TMS320C62x фирмы Texas Instruments.

Реализация удовлетворяет следующим требованиям:

функционирует в режиме реального времени;
полностью совместима с требованиями стандарта ITU-T G.723.1 (приложение А) - достигнуто побитовое соответствие тестовым векторам

Ресурсоемкость реализации для TMS320C62x (версия 2.0)

Загрузка процессора

G.723.1.A кодер 6.3 кбит/с
G.723.1.A декодер 6.3 кбит/с
G.723.1.A кодер 5.3 кбит/с
G723.1.A декодер 5.3 кбит/с

Вычислительный ресурс (пиковая загрузка на один канал), МГц
19.73
1.64
14.7
1.55

21.37
16.25

Память

программа, К байт
67.75

таблицы, К байт
37.9

данные, К байт
4.25 + 1.85 * N

Всего, К байт
109.9 + 1.85 * N

где N - число одновременно реализуемых каналов.

Таким образом, на одном процессоре TMS320C6201 мощностью 1600MIPS (200МГц) можно реализовать независимую обработку девяти речевых каналов

[наверх] [на главную]

По следующим звуковым файлам вы сможете оценить качество алгоритма G.723.1.A:

Исходная речь
Речь, упакованная кодером G.723.1.A и восстановленная декодером G.723.1.A при нулевых потерях на скорости 5.3 кбит/с
Речь, упакованная кодером G.723.1.A и восстановленная декодером G.723.1.A при нулевых потерях на скорости 6.3 кбит/с

[наверх] [на главную]

Можно получить подробную документацию по представленным реализациям алгоритма ITU-T G.723.1 (Приложение A), описание API реализаций, подробные инструкции по встраиванию алгоритма в систему обработки речевых сигналов:
ITU-T G.723.1.A для TMS320C54x (формат Word)
ITU-T G.723.1.A для TMS320C62x (формат Word)

[наверх] [на главную]

Использовались материалы сайта http://www.dsp.sut.ru.