G.719

G.719は、ITU-T(国際電気通信連合電気通信標準化部門)によって勧告された、高品質な音声・オーディオ符号化方式です。正式名称は「Low-complexity, full-band audio coding for high-quality, conversational applications(高品質会話型用途向け低演算量フルバンドオーディオ符号化)」であり、その名の通り、低演算量で高品質な音声伝送を実現することを目指しています。

概要



G.719は、主にテレビ会議やテレコンファレンスシステムで利用される音声コーデックであり、従来のG.722.1(帯域幅7kHz)やG.722.1 Annex C(帯域幅14kHz)といった音声符号化方式をさらに高音質化したものです。この規格は、ポリコム社が提案した「Siren 22」方式とエリクソン社の提案方式をベースに開発され、両方式の統合を経て2008年6月にITU-Tによって勧告されました。

コーデックの入出力は16ビット長、サンプリング周波数48kHzで、人間の可聴域である20Hzから20kHzまでのフルバンドの音声・オーディオ信号を符号化できます。G.719の符号化アルゴリズムは、知覚符号化の一種である変換符号化に基づいています。具体的には、MDCT(修正離散コサイン変換)を用いて周波数領域の係数に変換し、適応ビット割り当てと格子ベクトル量子化を行います。また、入力信号の変化に応じて時間分解能を調整することで、変化の激しい音に対する音質向上を図っています。

特徴



G.719には、以下のような特徴があります。

高品質な音声/オーディオの両方をサポート: 20Hzから20kHzまでの広帯域に対応し、音楽などの高音質オーディオの伝送にも利用できます。
低演算量: MP3AACなどの他の音声コーデックと比較して、符号化/復号に必要な演算量が非常に少なく、省電力で動作します。具体的には、MP3が100MIPS以上、MPEG4 AAC-LDが130MIPS以上を必要とするのに対し、G.719は約17.7MIPS程度で済むとされています。
入出力のサンプリング周波数: 48 kHz/16 bit。
帯域幅: 20 Hz-20 kHz。
幅広いビットレートに対応: 32kbpsから128kbpsまでの20種類のビットレートをサポートしており、ネットワーク環境や用途に応じて選択できます(32-88kbpsは4kbpsステップ、88-128kbpsは8kbpsステップ)。
フレーム長: 20ms、符号化遅延40ms。
RTPによるペイロード形式: インターネット上でのRTPによるG.719のペイロード形式は、RFC 5404で定義されています。
ISOベースメディアファイルフォーマットに対応: ISO/IEC 14496-14(MPEG-4 Part 12)形式もG.719 ANNEX Aで定義されており、MP4や3GPなどのファイル形式で使用できます。

アルゴリズム



G.719は、MP3AACと同様に、MDCT(修正離散コサイン変換)を用いた変換符号化をベースとしています。以下に符号化と復号の処理手順をまとめます。

符号化


1. 周波数領域への変換: 48kHzでサンプリングされた信号をMDCTによって周波数領域のパラメータに変換します。
2. トランジェント検出: 信号の急激な変化(トランジェント部)を検出し、必要に応じてフレーム長を5msに短縮して時間分解能を向上させます。
3. スペクトル平準化: 周波数領域の係数を複数の周波数帯域に分割し、各帯域の平均エネルギーレベル(ノルム)を推定、量子化します。次に、MDCT係数をノルムで割ってスペクトルを平準化します。
4. 格子ベクトル量子化: 平準化された係数を格子ベクトル量子化と符号化を行います。
5. 適応ビット割り当て: 推定したノルムに基づき、各周波数帯域に最適なビット数を割り当てます。エネルギーレベルの高い帯域には多くのビットを、低い帯域には少ないビットを割り当てることで、効率的な圧縮を実現します。
6. 高速格子ベクトル量子化: 処理に必要な演算量を低減するために、高速格子ベクトル量子化アルゴリズムを使用します。
7. 雑音レベル調整: 背景雑音のレベルを調整し、符号化されない周波数領域の雑音を推定するための情報を付加します。

復号


1. 格子復号: 格子ベクトル量子化された各係数を復号します。
2. ノルム復号: 符号化されたノルムを復号します。
3. スペクトル係数の復号: 復号されたノルムスペクトル係数を用いて、実際のMDCT係数を復元します。
4. 雑音レベル調整: 推定された雑音レベルを用いて、背景雑音を再生します。
5. 時間領域への逆変換: 復元されたMDCT係数を逆MDCTによって時間領域の信号に変換します。

用途



G.719は、以下のような用途で活用されています。

音質のIP電話
ビデオ会議システム
音楽ストリーミング
会議システム
オーディオ録音
ボイスメール

ライセンス



G.719を使用するには、ポリコム社とエリクソン社の両方のライセンスが必要となります。ポリコム社のライセンスには、Siren7(G.722.1関連)とSiren14(G.722.1 Annex C関連)のライセンスが含まれています。

参考文献



ITU-T Recommendation G.719 (06/2008), Low-complexity, full-band audio coding for high-quality, conversational applications.
Polycom Siren 22
G.719: The First ITU-T Standard for Full-Band Audio
RFC5404 RTP Payload Format for G.719

関連項目



音声符号化
オーディオ圧縮
ITU-T
G.722.1

外部リンク



Recommendation G.719 ITU-T 公式ウェブページ
Polycom Siren 22 ポリコム社 Siren 22 ウェブページ

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。