G.728は、国際電気通信連合(ITU-T)によって勧告された、16kbpsの
音声符号化方式です。正式名称は「低遅延符号励振線形予測(LD-CELP)を用いた16kbit/s
音声符号化方式」であり、その名の通り、符号化時の遅延を極限まで抑えることを目指して開発されました。
G.728の概要
G.728は、LD-CELP(Low-Delay
Code Excited Linear Prediction)という
音声符号化アルゴリズムを基盤としています。この
アルゴリズムにより、32kbpsのADPCM(Adaptive Differential Pulse Code Modulation)と同等の音質を、より低い
ビットレートで実現しています。特に重要な特徴は、その符号化遅延の短さです。G.728は、符号化遅延をわずか2ms(
サンプリング周波数8kHzで16サンプル)以下に抑えることを目標に仕様が作成され、1992年に勧告されました。
LD-CELPは、CELP(
Code Excited Linear Prediction)を基に、さらに遅延を低減させた
アルゴリズムです。従来のCELPでは、音声データを一定の長さの
フレームに区切り、その
フレーム単位で符号化処理を行っていました。しかし、LD-CELPでは
フレーム単位の処理を避け、代わりに過去のサンプル値から線形予測係数を後ろ向きに計算することで、遅延を大幅に短縮しています。具体的には、LD-CELPは符号化遅延を0.625ms(5サンプル)にまで低減しています。
低遅延化の仕組み
従来の多くの低
ビットレート音声符号化方式では、10msから30ms程度の
フレーム単位で符号化処理を行います。通常のCELPでは、人間の声道を模倣した線形予測フィルターと、
声帯を模倣した適応型/固定型コードブックを用いています。そのため、線形予測係数の計算や最適なコードブック値の探索には、
フレーム単位での処理が不可欠でした。これにより、符号化方式と
フレーム長によって決まる一定の「符号化遅延」が発生していました。例えば、ITU-T G.729の符号化遅延は15ms、G.729.1では48.9375msであり、処理速度をいくら向上させても、この遅延を下回ることはできませんでした。
一方、LD-CELPでは、線形予測係数などのパラメータを過去のサンプル値から後ろ向きに求めます。また、5サンプル単位という短い時間ごとに固定型コードブック探索を行うことで、遅延を最小限に抑えています。さらに、適応型コードブックは使用せず、代わりに50次という高次数の線形予測を行っています。これは、通常のCELPで用いられる10〜16次程度の線形予測よりも遥かに高次です。
G.728の特徴
G.728の主な特徴をまとめると以下のようになります。
符号化遅延の低さ: 0.625ms(5サンプル)という非常に短い遅延を実現しています。
入出力: サンプリング周波数8kHz、64kbpsのA-law/μ-law相当の入出力に対応しています。
固定ビットレート: 16kbpsの固定ビットレートで動作します。
音質: 32kbpsのADPCMと同等の音質を確保しています。
アルゴリズム: CELPの考え方をベースにしつつも、アルゴリズムは大きく異なっています。
G.728は、リアルタイム性の高い音声通信など、低遅延が求められるアプリケーションに最適な音声符号化方式と言えるでしょう。その優れた性能から、様々な分野で活用されています。
参考文献
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
ITU-T Recommendation G.728 (09/1992), Coding of speech at 16 kbit/s using low-delay code excited linear prediction. ITU-T, 1992.
関連項目
音声符号化
線形予測符号
CELP
ITU-T
外部リンク
ITU-T G.728 page
*
C source code for G.728