|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Компоненты H.323. Рекомендация ITU-T G.723.1
Здесь приведена исчерпывающая информация о компонентах стандарта H.323.
Рекомендация ITU-T G.723.1 (Приложение A) Рекомендация ITU-T G.723.1 - это двухскоростной вокодер для мультимедийных коммуникаций, являющийся частью семейства стандартов H.324. Вокодер работает на скоростях 5.3 и 6.3 кбит/с. Большая скорость передачи обеспечивает лучшее качество. Меньшая скорость дает хорошее качество речи и предоставляет разработчикам дополнительные возможности при построении систем. В любой момент на границе кадра допустимо переключение скорости передачи. Входной речевой сигнал с частотой дискретизации 8 КГц разбивается на кадры длиной 30мс, что соответствует 240 16-битным отсчетам в линейном законе. Дополнительно существует задержка (look ahead), которая составляет 7.5мс, что определяет суммарную алгоритмическую задержку равной 37.5мс. Дополнительные задержки в практическом приложении этого алгоритма возникают по следующим причинам:
Кодер основывается на принципе линейного предсказания с анализом через синтез и минимизирует взвешенный сигнал ошибки. Кодер оперирует кадрами речевого сигнала длиной 240 отсчетов. Сначала каждый кадр пропускается через фильтр верхних частот для удаления постоянной составляющей, а затем делится на 4 подкадра длиной по 60 отсчетов. Для каждого подкадра вычисляются параметры фильтра линейного предсказания (Linear Prediction Coder Filter) 10-го порядка, а для последнего подкадра эти параметры квантуются с использованием Predictive Split Vector Quantizer (PSVQ). Для передачи декодеру осуществляются преобразование LPC-коэффициентов в вектор линейных спектральных пар (LSP) и его последующее квантование. Неквантованные LPC-коэффициенты используются для построения кратковременного взвешивающего фильтра, через который пропускается кадр сигнала для получения взвешенного речевого сигнала. Для каждых двух подкадров по схеме с разомкнутой петлей вычисляется период основного тона (open-loop pitch period), лежащий в диапазоне от 18 до 142 отсчетов. Дальнейшая обработка происходит по подкадрам. Основываясь на ранее вычисленной оценке периода основного тона, строится harmonic noise shaping filter. Для получения импульсного отклика используется комбинированный фильтр, состоящий из синтезирующего LPC-фильтра, формантного взвешивающего фильтра и harmonic noise shaping filter. На основании оценки периода основного тона и импульсного отклика вычисляется предсказатель основного тона 5-го порядке в схеме с замкнутой петлей. Дифференциал вычисляется в небольшой окрестности полученной ранее оценки периода основного тона. Вклад предсказателя периода основного тона вычитается из первоначального целевого вектора. И оценка основного тона, и дифференциал передаются от кодера к декодеру. Наконец, аппроксимируется непериодическая компонента возбуждения. Для большей скорости используется возбуждение, полученное по схеме MP-MLQ, а для меньшей скорости - по схеме ACELP. Работа декодера также построена на покадровом принципе. Сначала декодируются индексы квантованных LPC-коэффициентов, затем строится синтезирующий LPC-фильтр. Для каждого подкадра декодируется возбуждение и адаптивной, и фиксированной кодовых книг и подается на синтезирующий фильтр. Адаптивный постфильтр состоит из формантного постфильтра и реверсивного (forward-backward) постфильтра основного тона. Сигнал возбуждения передается на постфильтр основного тона, затем на синтезирующий фильтр, а выход синтезирующего фильтра подается на вход формантного постфильтра. Блок масштабирования усиления сохраняет уровень энергии на входе формантного постфильтра. В декодере также существует механизм восстановления потерянных кадров, который включается в случае несовпадения контрольного бита. Восстановление основывается на типе последнего полученного кадра и сохраненном контексте декодера. Помимо "чистой" рекомендации G.723.1, существуют "приложение" (annex) А. Приложение А добавляет в кодер часть классификации входного речевого сигнала. Это, так называемый, VAD - voice activity detector. Классификатор входного сигнала определяет, что в данный момент присутствует на входе - речь или пауза. В моменты пауз битовый поток понижается с 6.3 (или 5.3) кбит/с до 1 кбит/с и менее. В моменты пауз в битовом потоке передается информация о структуре фонового шума, чтобы на стороне декодера у слушателя не возникало дискомфорта от "чистых" пауз между фразами - т.е. присутствует генератор комфортного шума. Более того, информация о паузном кадре передается декодеру только в случае изменения характеристик шума. В противном случае на выходе кодера устанавливается признак такого типа кадра, а на декодер никакой информации не поступает. Полное описание рекомендации можно найти в документе (или на сайте ITU):
Многоканальная реализация для ЦПОС семейства TMS320C54x Алгоритм реализован для ЦПОС семейства TMS320C54x фирмы Texas Instruments. Реализация удовлетворяет следующим требованиям:
Ресурсоемкость реализации для TMS320C54x (версия 1.2)
где N - число одновременно реализуемых каналов. Таким образом, на одном процессоре TMS320C549 с 32 килословами внутренней памяти и мощностью 100MIPS можно реализовать независимую обработку четырех речевых каналов Многоканальная реализация для ЦПОС семейства TMS320C62x Алгоритм реализован для ЦПОС семейства TMS320C62x фирмы Texas Instruments. Реализация удовлетворяет следующим требованиям:
Ресурсоемкость реализации для TMS320C62x (версия 2.0)
где N - число одновременно реализуемых каналов. Таким образом, на одном процессоре TMS320C6201 мощностью 1600MIPS (200МГц) можно реализовать независимую обработку девяти речевых каналов Звук По следующим звуковым файлам вы сможете оценить качество алгоритма G.723.1.A:
Документация Можно получить подробную документацию по представленным реализациям алгоритма ITU-T G.723.1 (Приложение A), описание API реализаций, подробные инструкции по встраиванию алгоритма в систему обработки речевых сигналов: Использовались материалы сайта http://www.dsp.sut.ru. |
КОМПОНЕНТЫ H323
НОВОСТИ СВЯЗИ
РЕКОМЕНДУЕМ
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||