G.729.1

G.729.1は、ITU-T G.729を基盤として、広帯域音声およびオーディオの符号化を目的としたコーデックです。G.729G.729.A、G.729.Bとの互換性を保ちつつ、8kbpsから32kbpsまでの広い範囲のビットレートをサポートします。

概要



G.729.1は、G.729をコアコーデックとし、複数の符号化方式を階層的に組み合わせることで、ビットレート帯域幅の柔軟性を高めています。入力として、通常の電話回線の2倍の帯域幅にあたる50Hzから7kHz(サンプリング周波数16kHz)の音声・オーディオ信号に対応し、50Hzから4kHzの信号を8kbpsから12kbps、50Hzから7kHzの信号を14kbpsから32kbpsで符号化できます。

このコーデックは、8kbpsから32kbpsまでの12種類のビットレートに対応し、出力されるビット列は12階層の埋め込み構造を持っています。これにより、符号化されたビット列から必要な階層だけを容易に取り出すことが可能で、柔軟なビットレート調整が実現できます。

コア層となる第1層は8kbpsに対応し、G.729と同じ符号化アルゴリズムを使用しており、G.729G.729.A、G.729.Bとの完全な相互運用性を確保しています。第2層は、G.729の拡張として4kbpsを追加します。第3層から第12層は50Hzから7kHzの広帯域音声・オーディオ信号を扱い、2kbpsごとに情報が増加し、それに応じて音質が向上します。

各階層と使用するアルゴリズムの概要は以下の通りです。

第1層(8kbps): ACELP(G.729と同一アルゴリズム)。G.729との互換性。
第2層(4kbps): G.729の拡張。
第3層~第12層(2kbps単位で増加): TDBWE, TDAC。広帯域信号の符号化。

符号化された情報は、第1層から第12層まで順にビット列として並べられ、ビットレート音質の調整は、単純にビット列を切り捨てることで実現できます。

特徴



G.729.1の主な特徴は以下の通りです。

音声と音楽などの一般的なオーディオの両方をサポート。
入出力サンプリング周波数:16kHz/16bit。
8kbpsから32kbpsまでの12種類のビットレートに対応 (50Hz-4kHz: 8-12kbps, 50Hz-7kHz: 14-32kbps)。
12階層の埋め込み構造のビットストリーム。
8kbpsのコア層はG.729G.729.A、G.729.Bと相互運用可能。
フレーム長:20ms、符号化遅延:48.9375ms。
3種類の音声符号化アルゴリズムを階層的に組み合わせ。
RTPを用いてインターネット上で送信するためのデータ形式は、RFC 4749およびRFC 5459で定義。

アルゴリズム



G.729.1は、G.729と同様のアルゴリズムをコアとして、3種類の音声符号化アルゴリズムを階層的に組み合わせた構成となっています。まず、コアアルゴリズムで入力信号を符号化し、符号化できなかった残差部分を他の2つのアルゴリズムで付加情報として追加します。

コアには、音声符号化アルゴリズムの代表的な一つであるACELP(Algebraic Code Excited Linear Prediction)を使用します。これはG.729で用いられているものと同じアルゴリズムで、50Hzから4kHzの入力信号を8kbpsから12kbpsに符号化します。

4kHzから7kHzまでの高周波成分の符号化には、TDBWE(Time-Domain Bandwidth Extension)というパラメータ符号化アルゴリズムを使用します。音声の低域成分に比べると、高域成分は情報量が少ないため、このアルゴリズムでは時間領域周波数領域のエンベロープを粗くパラメータ化して符号化します。コア部分と組み合わせることで、50Hzから7kHzの入力信号を14kbpsで符号化できます。

さらに高ビットレートの場合、コア部分で符号化できなかった信号成分のみを別途符号化し、付加情報として第4層以上に追加します。コア部分で符号化できた成分と本来の信号の差分(4kHz以下の残差信号と4kHzより上の高域成分)は、TDAC(Time-Domain Aliasing Cancellation)という変換予測符号化の手法を用いて符号化されます。

TDACでは、入力信号をMDCT(修正離散コサイン変換)で周波数領域のパラメータに変換した後、18のサブバンドに分割し、サブバンドごとにゲインとスペクトル形状をベクトル量子化します。エネルギーの低いサブバンドなど、聴感上重要度の低いサブバンドには少ないビットを割り当て、情報圧縮を行います。聴感上重要なサブバンドほど低い階層に符号化し、情報の階層化も実現します。例えば、聴感上最も重要なサブバンドの情報は第4層に格納され、重要度の低いサブバンドはそれより高い層に格納されます。

G.729.1は、IPネットワークのようなパケットロスやパケット遅延が多い環境での利用を想定しているため、符号化アルゴリズムの結果とは別に、通信路での情報消失時の音質劣化を抑制するための補助情報も各階層に格納されています。これらの情報は、必要に応じて復号時に使用されます。

脚注



参考文献


Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
ITU-T Recommendation G.729.1 (05/2006), G.729-based embedded variable bit-rate coder:An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729. ITU-T, 2006.
IETF Network Working Group. RFC4749 RTP Payload Format for the G.729.1 Audio Codec. IETF. October 2006.
IETF Network Working Group. RFC5459 G.729.1 RTP Payload Format Update:Discontinuous Transmission (DTX) Support. IETF. January 2009.

関連項目


音声符号化
G.711
G.722
G.722.1
G.722.2
G.723
G.723.1
G.726
G.729

外部リンク


G.729.1'>ITU-T Recommendation G.729.1 - technical specification
Summary of G.729.1 (05/2006)
RFC 4749 - RTP Payload Format for the G.729.1 Audio Codec
RFC 5459 - G.729.1 RTP Payload Format Update: Discontinuous Transmission (DTX) Support

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。