G.719は、ITU-T(国際電気通信連合電気通信標準化部門)によって勧告された、高品質な
音声・オーディオ符号化方式です。正式名称は「Low-complexity, full-band audio coding for high-quality, conversational applications(高品質会話型用途向け低演算量フルバンドオーディオ符号化)」であり、その名の通り、低演算量で高品質な
音声伝送を実現することを目指しています。
概要
G.719は、主にテレビ会議やテレコンファレンスシステムで利用される
音声コーデックであり、従来のG.722.1(
帯域幅7kHz)やG.722.1 Annex C(
帯域幅14kHz)といった
音声符号化方式をさらに高
音質化したものです。この規格は、ポリコム社が提案した「Siren 22」方式と
エリクソン社の提案方式をベースに開発され、両方式の統合を経て2008年6月にITU-Tによって勧告されました。
コーデックの入出力は16ビット長、
サンプリング周波数48kHzで、人間の可聴域である20Hzから20kHzまでのフルバンドの
音声・オーディオ信号を符号化できます。G.719の符号化
アルゴリズムは、知覚符号化の一種である変換符号化に基づいています。具体的には、MDCT(
修正離散コサイン変換)を用いて
周波数領域の係数に変換し、適応ビット割り当てと格子ベクトル
量子化を行います。また、入力信号の変化に応じて時間分解能を調整することで、変化の激しい音に対する
音質向上を図っています。
特徴
G.719には、以下のような特徴があります。
高品質な音声/オーディオの両方をサポート: 20Hzから20kHzまでの広帯域に対応し、音楽などの高音質オーディオの伝送にも利用できます。
低演算量: MP3や
AACなどの他の
音声コーデックと比較して、符号化/復号に必要な演算量が非常に少なく、省電力で動作します。具体的には、
MP3が100
MIPS以上、MPEG4
AAC-LDが130
MIPS以上を必要とするのに対し、G.719は約17.7
MIPS程度で済むとされています。
入出力のサンプリング周波数: 48 kHz/16 bit。
帯域幅: 20 Hz-20 kHz。
幅広いビットレートに対応: 32kbpsから128kbpsまでの20種類のビットレートをサポートしており、ネットワーク環境や用途に応じて選択できます(32-88kbpsは4kbpsステップ、88-128kbpsは8kbpsステップ)。
フレーム長: 20ms、符号化遅延40ms。
RTPによるペイロード形式: インターネット上でのRTPによるG.719のペイロード形式は、RFC 5404で定義されています。
ISOベースメディアファイルフォーマットに対応: ISO/IEC 14496-14(
MPEG-4 Part 12)形式もG.719 ANNEX Aで定義されており、
MP4や3GPなどのファイル形式で使用できます。
G.719は、
MP3や
AACと同様に、MDCT(
修正離散コサイン変換)を用いた変換符号化をベースとしています。以下に符号化と復号の処理手順をまとめます。
符号化
1.
周波数領域への変換: 48kHzで
サンプリングされた信号をMDCTによって
周波数領域のパラメータに変換します。
2.
トランジェント検出: 信号の急激な変化(トランジェント部)を検出し、必要に応じて
フレーム長を5msに短縮して時間分解能を向上させます。
3.
スペクトル平準化: 周波数領域の係数を複数の周波数帯域に分割し、各帯域の平均エネルギーレベル(
ノルム)を推定、
量子化します。次に、MDCT係数を
ノルムで割って
スペクトルを平準化します。
4.
格子ベクトル量子化: 平準化された係数を格子ベクトル
量子化と符号化を行います。
5.
適応ビット割り当て: 推定した
ノルムに基づき、各周波数帯域に最適なビット数を割り当てます。エネルギーレベルの高い帯域には多くのビットを、低い帯域には少ないビットを割り当てることで、効率的な圧縮を実現します。
6.
高速格子ベクトル量子化: 処理に必要な演算量を低減するために、高速格子ベクトル
量子化アルゴリズムを使用します。
7.
雑音レベル調整: 背景雑音のレベルを調整し、符号化されない
周波数領域の雑音を推定するための情報を付加します。
復号
1.
格子復号: 格子ベクトル
量子化された各係数を復号します。
2.
ノルム復号: 符号化された
ノルムを復号します。
3.
スペクトル係数の復号: 復号された
ノルムと
スペクトル係数を用いて、実際のMDCT係数を復元します。
4.
雑音レベル調整: 推定された雑音レベルを用いて、背景雑音を再生します。
5.
時間領域への逆変換: 復元されたMDCT係数を逆MDCTによって
時間領域の信号に変換します。
用途
G.719は、以下のような用途で活用されています。
広音質のIP電話
ビデオ会議システム
音楽ストリーミング
会議システム
オーディオ録音
ボイスメール
ライセンス
G.719を使用するには、ポリコム社と
エリクソン社の両方のライセンスが必要となります。ポリコム社のライセンスには、Siren7(G.722.1関連)とSiren14(G.722.1 Annex C関連)のライセンスが含まれています。
参考文献
ITU-T Recommendation G.719 (06/2008), Low-complexity, full-band audio coding for high-quality, conversational applications.
Polycom Siren 22
G.719: The First ITU-T Standard for Full-Band Audio
RFC5404 RTP Payload Format for G.719
関連項目
音声符号化
オーディオ圧縮
ITU-T
G.722.1
外部リンク
Recommendation G.719 ITU-T 公式ウェブページ
Polycom Siren 22 ポリコム社 Siren 22 ウェブページ