SMV(Selectable Mode Vocoder)は、
CDMA2000ネットワーク向けに開発された可変
ビットレートの
音声符号化方式です。この技術は、通話中に音声の内容に応じて
ビットレートを動的に変化させることが可能で、さらに
基地局側からのモード指定により、
音質と平均
ビットレートを制御できる点が大きな特徴です。この柔軟性は、その後の
CDMA2000ネットワーク向け
音声符号化方式である
VMR-WBやEVRC-Bにも引き継がれています。
SMVの概要
SMVは、1999年にCDMA方式の業界団体CDGによって要求仕様が策定され、2001年6月に
3GPP2の標準規格C.S0030-0として正式に採用されました。この規格では、入力される音声信号の種類(
有声音、
無声音、無音状態など)と指定されたモードの組み合わせによって、
ビットレートが動的に変化します。具体的には、音声信号の内容に応じて8.55 kbps(フルレート)、4.0 kbps(ハーフレート)、2.0 kbps(1/4レート)、0.8 kbps(1/8レート)のいずれかの
ビットレートに符号化されます。特に1/8レートは、無音状態でのみ使用されます。
これらの符号化データは、
CDMA2000ネットワークのレートセット1(9.6 kbpsを基準とする通信レート)に基づき、それぞれ9600 bps、4800 bps、2400 bps、1200 bpsの
フレームレートで送受信されます。CDMA方式の特性として、利用者の
ビットレートが低下するほど、より多くのユーザーが同時に接続できるようになるため、
コーデックの
ビットレートを可変にすることで、平均
ビットレートを下げ、1つの
基地局あたりの収容数を増やすことができます。
平均
ビットレートの制御は、
基地局側が指示する「符号化モード」(パラメータ名:RATE_REDUC)によって行われます。符号化モードは、
基地局の収容能力、
携帯電話と
基地局間の無線状態、および要求される通信
品質(QoS)などのネットワーク状態に応じて決定されます。モードは0から3の4段階で、モード0が最も平均
ビットレートが高く
音質も最も優れており、モード番号が増加するにつれて、
ビットレートと
音質は低下します。これらのモードは、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれます。さらに、最大
ビットレートをハーフレート(4.0 kbps)に制限するハーフレートマックスモードも存在し、モード0とモード1に適用可能です。
平均
ビットレートは音声の内容によって変動しますが、符号化モードと平均的な会話における想定平均
ビットレートの目安は以下の通りです。
モード0(プレミアム):約6.2 kbps
モード1(スタンダード):約4.1 kbps
モード2(エコノミー):約2.1 kbps
モード3(キャパシティセービング):約1.1 kbps
SMVでは、CELP(
Code Excited Linear Prediction)の一種であるeX-CELP(eXtended CELP)と呼ばれる
アルゴリズムが使用されています。eX-CELPは、単一の技術ではなく、EVRCで使用されている
RCELPアルゴリズムなど、複数のアイデアを組み合わせて最適な符号化を行うものです。また、以前に開発されたEVRCと同様に、雑音抑制機能が標準仕様に組み込まれており、フロントエンドとして活用されます。
SMVの主な特徴
SMVの主な特徴は以下の通りです。
サンプリング周波数: 8 kHz、16 bit
可変ビットレート: 音声信号の種類に応じて8.55 kbps、4.0 kbps、0.8 kbpsを切り替え
アルゴリズム: CELPの一種であるeX-CELPを採用
フレーム長: 20 ms
モード指定: 音質と平均
ビットレートの制御が可能
雑音抑制: 標準仕様に組み込み済み
SMVは、
CDMA2000ネットワークにおけるサービスオプションとしてSO56(Service Option 56)が割り当てられています。また、インターネット上でSMVの符号化データを伝送する際には、RTP(
Real-time Transport Protocol)を用いて、IETF標準のRFC 3558で定義されたデータ形式で送信します。さらに、
3GPP2の
マルチメディアファイルフォーマットである3G2でも利用でき、
携帯電話での音声通信だけでなく、
マルチメディアメッセージングサービスや
マルチメディアストリーミングサービスなど、
3GPP2で定義された各種
マルチメディアサービスにも対応しています。
eX-CELPについて
SMVで使用されているeX-CELPは、従来のCELP
アルゴリズムを拡張したものです。一般的なCELPでは、人間の声を声道を表す線形予測フィルターと、
声帯を表す適応型および固定型のコードブックでモデル化し、「合成による分析」の手法を用いて誤差が最小となるコードブックを探します。eX-CELPは、固定的な
アルゴリズムを使用するのではなく、様々な
アルゴリズムを組み合わせることで、聴覚上重要な部分を強調した符号化を行います。
具体的には、以下の要素技術を組み合わせて、知覚上の
音質を損なうことなく
ビットレートの削減を実現しています。
オープンループとクローズドループの組み合わせ: クローズドループ分析だけでなく、必要に応じてオープンループでパラメータを符号化し、柔軟に切り替えます。
入力信号の分類とアルゴリズムの切り替え: 入力信号を詳細に分類し、それぞれ最適な処理方法を適用します(例:定常的な
有声音、非定常的な
有声音、発声の開始、定常的な
無声音など)。
信号の修正: 入力信号を知覚上影響のない範囲で修正し、効率的に符号化します。
柔軟性のある固定コードブック: 固定コードブックをサブコードブックに分割し、それぞれの信号をより適切に表現します。
マルチモード: 定常的な
有声音とその他の信号で符号化処理を変え、より効率的な処理を行います。
SMVとEVRCの比較
SMVと、
CDMA2000ネットワークで長く使われているEVRC(EVRC revision 0)の主観的な
音質評価値であるMOS値は以下の通りです。MOS値は、1から5の値で表され、5が最も高
品質、1が最も低
品質を示します。
符号化方式 | 平均ビットレート | MOS (Clean) | MOS (Noisy) |
---|
- | - | - | - |
EVRC | 7.5 kbps | 3.75 | 2.8 |
SMV モード0 | 6.2 kbps | 3.84 | 2.84 |
SMV モード1 | 4.1 kbps | 3.68 | 2.70 |
ここでのMOS (Clean)は背景雑音がない場合、MOS (Noisy)は背景雑音がある場合のMOS値を示しています。上記の表からもわかるように、SMVは同じ平均
ビットレートでの総合的な
音質がEVRCより優れており、平均
ビットレートを7割程度に抑えたモード1でも、EVRCと同等の
音質を維持できることが示されています。
脚注
参考文献
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
“
3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
“
3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder”. 2010年7月14日閲覧。
Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.
J. Makinen, P. Ojala, H. Toukomaa. “Performance Comparison of Source Controlled GSM AMR and SMV Vocoders” (PDF). Nokia Research Center, Multimedia Technologies Laboratory. 2010年7月14日閲覧。
関連項目
音声符号化
3GPP2
AMR
AMR-WB
EVRC
VMR-WB
外部リンク
3GPP2 Specifications
3GPP2 仕様のウェブページ
* RFC 3558 - RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)