SMV

SMV（Selectable Mode Vocoder）は、CDMA2000ネットワーク向けに開発された可変ビットレートの音声符号化方式です。この技術は、通話中に音声の内容に応じてビットレートを動的に変化させることが可能で、さらに基地局側からのモード指定により、音質と平均ビットレートを制御できる点が大きな特徴です。この柔軟性は、その後のCDMA2000ネットワーク向け音声符号化方式であるVMR-WBやEVRC-Bにも引き継がれています。

SMVの概要

SMVは、1999年にCDMA方式の業界団体CDGによって要求仕様が策定され、2001年6月に3GPP2の標準規格C.S0030-0として正式に採用されました。この規格では、入力される音声信号の種類（有声音、無声音、無音状態など）と指定されたモードの組み合わせによって、ビットレートが動的に変化します。具体的には、音声信号の内容に応じて8.55 kbps（フルレート）、4.0 kbps（ハーフレート）、2.0 kbps（1/4レート）、0.8 kbps（1/8レート）のいずれかのビットレートに符号化されます。特に1/8レートは、無音状態でのみ使用されます。

これらの符号化データは、CDMA2000ネットワークのレートセット1（9.6 kbpsを基準とする通信レート）に基づき、それぞれ9600 bps、4800 bps、2400 bps、1200 bpsのフレームレートで送受信されます。CDMA方式の特性として、利用者のビットレートが低下するほど、より多くのユーザーが同時に接続できるようになるため、コーデックのビットレートを可変にすることで、平均ビットレートを下げ、1つの基地局あたりの収容数を増やすことができます。

平均ビットレートの制御は、基地局側が指示する「符号化モード」（パラメータ名：RATE_REDUC）によって行われます。符号化モードは、基地局の収容能力、携帯電話と基地局間の無線状態、および要求される通信品質（QoS）などのネットワーク状態に応じて決定されます。モードは0から3の4段階で、モード0が最も平均ビットレートが高く音質も最も優れており、モード番号が増加するにつれて、ビットレートと音質は低下します。これらのモードは、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれます。さらに、最大ビットレートをハーフレート（4.0 kbps）に制限するハーフレートマックスモードも存在し、モード0とモード1に適用可能です。

平均ビットレートは音声の内容によって変動しますが、符号化モードと平均的な会話における想定平均ビットレートの目安は以下の通りです。

モード0（プレミアム）：約6.2 kbps
モード1（スタンダード）：約4.1 kbps
モード2（エコノミー）：約2.1 kbps
モード3（キャパシティセービング）：約1.1 kbps

SMVでは、CELP（Code Excited Linear Prediction）の一種であるeX-CELP（eXtended CELP）と呼ばれるアルゴリズムが使用されています。eX-CELPは、単一の技術ではなく、EVRCで使用されているRCELP アルゴリズムなど、複数のアイデアを組み合わせて最適な符号化を行うものです。また、以前に開発されたEVRCと同様に、雑音抑制機能が標準仕様に組み込まれており、フロントエンドとして活用されます。

SMVの主な特徴

SMVの主な特徴は以下の通りです。

サンプリング周波数: 8 kHz、16 bit
可変ビットレート: 音声信号の種類に応じて8.55 kbps、4.0 kbps、0.8 kbpsを切り替え
アルゴリズム: CELPの一種であるeX-CELPを採用
フレーム長: 20 ms
モード指定: 音質と平均ビットレートの制御が可能
雑音抑制: 標準仕様に組み込み済み

SMVは、CDMA2000ネットワークにおけるサービスオプションとしてSO56（Service Option 56）が割り当てられています。また、インターネット上でSMVの符号化データを伝送する際には、RTP（Real-time Transport Protocol）を用いて、IETF標準のRFC 3558で定義されたデータ形式で送信します。さらに、3GPP2のマルチメディアファイルフォーマットである3G2でも利用でき、携帯電話での音声通信だけでなく、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなど、3GPP2で定義された各種マルチメディアサービスにも対応しています。

eX-CELPについて

SMVで使用されているeX-CELPは、従来のCELPアルゴリズムを拡張したものです。一般的なCELPでは、人間の声を声道を表す線形予測フィルターと、声帯を表す適応型および固定型のコードブックでモデル化し、「合成による分析」の手法を用いて誤差が最小となるコードブックを探します。eX-CELPは、固定的なアルゴリズムを使用するのではなく、様々なアルゴリズムを組み合わせることで、聴覚上重要な部分を強調した符号化を行います。

具体的には、以下の要素技術を組み合わせて、知覚上の音質を損なうことなくビットレートの削減を実現しています。

オープンループとクローズドループの組み合わせ: クローズドループ分析だけでなく、必要に応じてオープンループでパラメータを符号化し、柔軟に切り替えます。
入力信号の分類とアルゴリズムの切り替え: 入力信号を詳細に分類し、それぞれ最適な処理方法を適用します（例：定常的な有声音、非定常的な有声音、発声の開始、定常的な無声音など）。
信号の修正: 入力信号を知覚上影響のない範囲で修正し、効率的に符号化します。
柔軟性のある固定コードブック: 固定コードブックをサブコードブックに分割し、それぞれの信号をより適切に表現します。
マルチモード: 定常的な有声音とその他の信号で符号化処理を変え、より効率的な処理を行います。

SMVとEVRCの比較

SMVと、CDMA2000ネットワークで長く使われているEVRC（EVRC revision 0）の主観的な音質評価値であるMOS値は以下の通りです。MOS値は、1から5の値で表され、5が最も高品質、1が最も低品質を示します。

符号化方式	平均ビットレート	MOS (Clean)	MOS (Noisy)
-	-	-	-
EVRC	7.5 kbps	3.75	2.8
SMV モード0	6.2 kbps	3.84	2.84
SMV モード1	4.1 kbps	3.68	2.70

ここでのMOS (Clean)は背景雑音がない場合、MOS (Noisy)は背景雑音がある場合のMOS値を示しています。上記の表からもわかるように、SMVは同じ平均ビットレートでの総合的な音質がEVRCより優れており、平均ビットレートを7割程度に抑えたモード1でも、EVRCと同等の音質を維持できることが示されています。

脚注

参考文献
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
“3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
“3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder”. 2010年7月14日閲覧。
Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.
J. Makinen, P. Ojala, H. Toukomaa. “Performance Comparison of Source Controlled GSM AMR and SMV Vocoders” (PDF). Nokia Research Center, Multimedia Technologies Laboratory. 2010年7月14日閲覧。
関連項目
音声符号化
3GPP2
AMR
AMR-WB
EVRC
VMR-WB
外部リンク
3GPP2 Specifications 3GPP2 仕様のウェブページ
* RFC 3558 - RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)

もう一度検索