VMR-WB

VMR-WB (Variable-Rate Multimode Wideband) について

VMR-WBは、広帯域音声符号化方式の一つで、CDMA2000方式の第三世代携帯電話で広く利用されています。この技術は、従来の音声符号化方式と比較して、より広い周波数帯域の音声を扱うことができ、高品質な音声通信を可能にします。特に、GSMやW-CDMAで使用されるAMR-WBとの相互運用性を持つ点が大きな特徴です。また、ITU-Tが勧告した広帯域音声符号化方式G.718のコアコーデックのベースとしても利用されています。

概要

VMR-WBは、AMR-WBと同様にマルチレートに対応しており、通常の電話インターフェースの2倍の帯域幅、50Hzから7000Hzの広帯域音声（サンプリング周波数16kHz）を扱えます。従来の狭帯域音声（100Hzから3700Hz、サンプリング周波数8kHz）も同様に扱えます。この技術は、標準化団体の3GPP2によって標準化されました。

VMR-WBは、以前に開発されたAMR-WBの技術を基にしており、その名称もAMR-WBを意識したものです。ビットレートは、入力される音声信号の種類（有声音、無声音、無音状態など）に応じて変動し、ネットワーク側からのモード指示によっても変更可能です。

VMR-WBには、Revision 0とRevision Aの2つの主要なバージョンがあります。Revision 0では、モード0からモード3までの4つのモードがあり、ビットレートはそれぞれ13300bps、6200bps、2700bps、1000bpsです。Revision Aでは、モード4が追加され、ビットレートは8550bps、4000bps、800bpsになります。

モードは、携帯電話と基地局間の無線状態や、要求される通信品質（QoS）に応じて決定されます。モード0が最も音声品質が高く、モード1、モード2と順に品質が低下し、平均ビットレートも同様に低下します。モード3は、AMR-WBとの相互運用性を持つモードで、AMR-WBの12.65kbps、8.85kbps、6.60kbpsのビットレートをサポートします。

モード0から3は、CDMA2000ネットワークでのレートセットII（14.4kbpsを基準）用であり、モード4はレートセットI（9.6kbpsを基準）用です。

VMR-WBの符号化アルゴリズムには、ACELP（Algebraic Code Excited Linear Prediction）が使用されています。

VMR-WBの特徴

- 入出力サンプリング周波数：広帯域16kHz/16bit、狭帯域8kHz/16bit
- 可変ビットレート：入力音声信号の種類とモード指定による変動
- 符号化アルゴリズム：ACELP
- フレーム長：20ms
- 符号化遅延：広帯域32.8125ms、狭帯域32.875ms
- AMR-WBとの相互運用モード
- RTPを用いたデータ形式：IETF標準のRFC 4348とRFC 4424で定義

アルゴリズムの詳細

コーデックの入出力は16ビット長で、サンプリング周波数16kHzまたは8kHzの信号です。これらの信号は12.8kHzにリサンプリングされ、処理されます。復号時には、処理結果（12.8kHzから6.4kHzまでの信号成分）を16kHzにアップサンプリングし、6.4kHzから7kHzの高域成分が追加されます。

VMR-WBでは、20msのフレームごとに以下の処理が行われます。

1. 12.8kHzへのリサンプリング、ハイパスフィルタによる直流成分除去などの前処理
2. スペクトル分析（音声区間検出と雑音抑制用）
3. 入力が広帯域か狭帯域かの検出
4. 音声区間検出（voice activity detection）
5. 雑音スペクトル推定
6. 推定された雑音スペクトルを用いた雑音抑制
7. ACELPのための線形予測係数の計算など
8. 聴感重み付けされた音声信号の計算
9. オープンループでのピッチ周波数分析
10. 背景雑音スペクトルの推定値更新
11. 信号フレーム内容に基づくビットレート選択
12. 推定ピッチ周波数で入力信号を修正し、ビットレート選択を改善

これらの処理の後、信号フレームの内容と選択されたビットレートに応じて、以下のいずれかの符号化処理が行われます。

- 無声音符号化
- 有声音符号化
- 非連続送信とコンフォートノイズ生成（DTX/CNG）：無音と判定された際の処理
- ジェネリック符号化：上記のいずれにも分類できない場合の処理

符号化には基本的にACELPアルゴリズムが使用されますが、その詳細は信号フレームの内容と選択ビットレートによって異なります。

復号では、符号化データに含まれる線形予測係数の情報や、適応コードブック/固定コードブック/ゲインのベクトル値を用いて音声信号が復元されます。

大まかな復号処理は以下の通りです。

1. 適応コードブック/固定コードブック/ゲインのベクトル値から励起信号を生成
2. 励起信号を線形予測フィルタに入力し、音声信号を合成
3. 低域周波数のピッチ周波数成分の強調などの音質改善のための後処理
4. 16kHzへのアップサンプリング
5. 6.4kHzから7kHzの信号成分の付加

通信エラーによるフレーム消失時には、それまでの信号フレームの分類を利用して音質劣化を最小限に抑える処理も行われます。

用途

VMR-WBは、携帯電話での音声通信だけでなく、3GPP2で定義されたファイルフォーマット（3G2）を使用して、様々なマルチメディアサービスにも利用されています。

- マルチメディアメッセージングサービス（MMS）
- マルチメディアストリーミングサービス（MSS）

参考文献

- 3GPP2. C.S0052-0 Version 1.0 Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Option 62 for Spread Spectrum Systems. 3GPP2, June, 2004.
- 3GPP2. C.S0052-A Version 1.0 Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Options 62 and 63 for Spread Spectrum Systems. 3GPP2, April, 2005.
- 3GPP2. C.S0050-0 Version 1.0 3GPP2 File Formats for Multimedia Services. 3GPP2, December, 2003.
- IETF Network Working Group. RFC4348 Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Audio Codec. IETF. January 2006.
- IETF Network Working Group. RFC4424 Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Extension Audio Codec. IETF. February 2006.

外部リンク

- 3GPP2 C.S0052-0 (VMR-WB Rev.0) specification
- 3GPP2 C.S0052-A (VMR-WB Rev.A) specification
- C.S0050-0 (3GPP2 File Formats) specification
- RFC 4424 - Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Extension Audio Codec
- RFC 4348 - Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Audio Codec

もう一度検索