VMR-WB (Variable-Rate Multimode Wideband) について
VMR-WBは、広帯域
音声符号化方式の一つで、
CDMA2000方式の第三世代
携帯電話で広く利用されています。この技術は、従来の
音声符号化方式と比較して、より広い周波数帯域の音声を扱うことができ、高品質な音声通信を可能にします。特に、
GSMや
W-CDMAで使用されるAMR-WBとの
相互運用性を持つ点が大きな特徴です。また、ITU-Tが勧告した広帯域
音声符号化方式
G.718のコア
コーデックのベースとしても利用されています。
概要
VMR-WBは、AMR-WBと同様にマルチレートに対応しており、通常の電話インターフェースの2倍の
帯域幅、50Hzから7000Hzの広帯域音声(
サンプリング周波数16kHz)を扱えます。従来の狭帯域音声(100Hzから3700Hz、
サンプリング周波数8kHz)も同様に扱えます。この技術は、標準化団体の
3GPP2によって標準化されました。
VMR-WBは、以前に開発されたAMR-WBの技術を基にしており、その名称もAMR-WBを意識したものです。
ビットレートは、入力される音声信号の種類(
有声音、
無声音、無音状態など)に応じて変動し、ネットワーク側からのモード指示によっても変更可能です。
VMR-WBには、Revision 0とRevision Aの2つの主要なバージョンがあります。Revision 0では、モード0からモード3までの4つのモードがあり、
ビットレートはそれぞれ13300bps、6200bps、2700bps、1000bpsです。Revision Aでは、モード4が追加され、
ビットレートは8550bps、4000bps、800bpsになります。
モードは、
携帯電話と
基地局間の無線状態や、要求される通信品質(QoS)に応じて決定されます。モード0が最も音声品質が高く、モード1、モード2と順に品質が低下し、平均
ビットレートも同様に低下します。モード3は、AMR-WBとの
相互運用性を持つモードで、AMR-WBの12.65kbps、8.85kbps、6.60kbpsの
ビットレートをサポートします。
モード0から3は、
CDMA2000ネットワークでのレートセットII(14.4kbpsを基準)用であり、モード4はレートセットI(9.6kbpsを基準)用です。
VMR-WBの符号化アルゴリズムには、ACELP(Algebraic
Code Excited Linear Prediction)が使用されています。
VMR-WBの特徴
- - 入出力サンプリング周波数:広帯域16kHz/16bit、狭帯域8kHz/16bit
- - 可変ビットレート:入力音声信号の種類とモード指定による変動
- - 符号化アルゴリズム:ACELP
- - フレーム長:20ms
- - 符号化遅延:広帯域32.8125ms、狭帯域32.875ms
- - AMR-WBとの相互運用モード
- - RTPを用いたデータ形式:IETF標準のRFC 4348とRFC 4424で定義
アルゴリズムの詳細
コーデックの入出力は16ビット長で、
サンプリング周波数16kHzまたは8kHzの信号です。これらの信号は12.8kHzに
リサンプリングされ、処理されます。復号時には、処理結果(12.8kHzから6.4kHzまでの信号成分)を16kHzにアップサンプリングし、6.4kHzから7kHzの高域成分が追加されます。
VMR-WBでは、20msの
フレームごとに以下の処理が行われます。
1. 12.8kHzへの
リサンプリング、
ハイパスフィルタによる
直流成分除去などの前処理
2. スペクトル分析(音声区間検出と雑音抑制用)
3. 入力が広帯域か狭帯域かの検出
4. 音声区間検出(voice activity detection)
5. 雑音スペクトル推定
6. 推定された雑音スペクトルを用いた雑音抑制
7. ACELPのための線形予測係数の計算など
8. 聴感重み付けされた音声信号の計算
9. オープンループでのピッチ周波数分析
10. 背景雑音スペクトルの推定値更新
11. 信号
フレーム内容に基づく
ビットレート選択
12. 推定ピッチ周波数で入力信号を修正し、
ビットレート選択を改善
これらの処理の後、信号
フレームの内容と選択された
ビットレートに応じて、以下のいずれかの符号化処理が行われます。
- - 無声音符号化
- - 有声音符号化
- - 非連続送信とコンフォートノイズ生成(DTX/CNG):無音と判定された際の処理
- - ジェネリック符号化:上記のいずれにも分類できない場合の処理
符号化には基本的にACELPアルゴリズムが使用されますが、その詳細は信号
フレームの内容と選択
ビットレートによって異なります。
復号では、符号化データに含まれる線形予測係数の情報や、適応コードブック/固定コードブック/ゲインのベクトル値を用いて音声信号が復元されます。
大まかな復号処理は以下の通りです。
1. 適応コードブック/固定コードブック/ゲインのベクトル値から励起信号を生成
2. 励起信号を線形予測フィルタに入力し、音声信号を合成
3. 低域周波数のピッチ周波数成分の強調などの音質改善のための後処理
4. 16kHzへのアップサンプリング
5. 6.4kHzから7kHzの信号成分の付加
通信エラーによる
フレーム消失時には、それまでの信号
フレームの分類を利用して音質劣化を最小限に抑える処理も行われます。
用途
VMR-WBは、
携帯電話での音声通信だけでなく、
3GPP2で定義された
ファイルフォーマット(3G2)を使用して、様々な
マルチメディアサービスにも利用されています。
参考文献
- - 3GPP2. C.S0052-0 Version 1.0 Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Option 62 for Spread Spectrum Systems. 3GPP2, June, 2004.
- - 3GPP2. C.S0052-A Version 1.0 Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB) Service Options 62 and 63 for Spread Spectrum Systems. 3GPP2, April, 2005.
- - 3GPP2. C.S0050-0 Version 1.0 3GPP2 File Formats for Multimedia Services. 3GPP2, December, 2003.
- - IETF Network Working Group. RFC4348 Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Audio Codec. IETF. January 2006.
- - IETF Network Working Group. RFC4424 Real-Time Transport Protocol (RTP) Payload Format for the Variable-Rate Multimode Wideband (VMR-WB) Extension Audio Codec. IETF. February 2006.
関連項目
外部リンク