SMV

SMV(Selectable Mode Vocoder)は、CDMA2000ネットワーク向けに開発された可変ビットレート音声符号化方式です。この技術は、通話中に音声の内容に応じてビットレートを動的に変化させることが可能で、さらに基地局側からのモード指定により、音質と平均ビットレートを制御できる点が大きな特徴です。この柔軟性は、その後のCDMA2000ネットワーク向け音声符号化方式であるVMR-WBやEVRC-Bにも引き継がれています。

SMVの概要



SMVは、1999年にCDMA方式の業界団体CDGによって要求仕様が策定され、2001年6月に3GPP2の標準規格C.S0030-0として正式に採用されました。この規格では、入力される音声信号の種類(有声音無声音、無音状態など)と指定されたモードの組み合わせによって、ビットレートが動的に変化します。具体的には、音声信号の内容に応じて8.55 kbps(フルレート)、4.0 kbps(ハーフレート)、2.0 kbps(1/4レート)、0.8 kbps(1/8レート)のいずれかのビットレートに符号化されます。特に1/8レートは、無音状態でのみ使用されます。

これらの符号化データは、CDMA2000ネットワークのレートセット1(9.6 kbpsを基準とする通信レート)に基づき、それぞれ9600 bps、4800 bps、2400 bps、1200 bpsのフレームレートで送受信されます。CDMA方式の特性として、利用者のビットレートが低下するほど、より多くのユーザーが同時に接続できるようになるため、コーデックビットレートを可変にすることで、平均ビットレートを下げ、1つの基地局あたりの収容数を増やすことができます。

平均ビットレートの制御は、基地局側が指示する「符号化モード」(パラメータ名:RATE_REDUC)によって行われます。符号化モードは、基地局の収容能力、携帯電話基地局間の無線状態、および要求される通信品質(QoS)などのネットワーク状態に応じて決定されます。モードは0から3の4段階で、モード0が最も平均ビットレートが高く音質も最も優れており、モード番号が増加するにつれて、ビットレート音質は低下します。これらのモードは、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれます。さらに、最大ビットレートをハーフレート(4.0 kbps)に制限するハーフレートマックスモードも存在し、モード0とモード1に適用可能です。

平均ビットレートは音声の内容によって変動しますが、符号化モードと平均的な会話における想定平均ビットレートの目安は以下の通りです。

モード0(プレミアム):約6.2 kbps
モード1(スタンダード):約4.1 kbps
モード2(エコノミー):約2.1 kbps
モード3(キャパシティセービング):約1.1 kbps

SMVでは、CELP(Code Excited Linear Prediction)の一種であるeX-CELP(eXtended CELP)と呼ばれるアルゴリズムが使用されています。eX-CELPは、単一の技術ではなく、EVRCで使用されているRCELPアルゴリズムなど、複数のアイデアを組み合わせて最適な符号化を行うものです。また、以前に開発されたEVRCと同様に、雑音抑制機能が標準仕様に組み込まれており、フロントエンドとして活用されます。

SMVの主な特徴



SMVの主な特徴は以下の通りです。

サンプリング周波数: 8 kHz、16 bit
可変ビットレート: 音声信号の種類に応じて8.55 kbps、4.0 kbps、0.8 kbpsを切り替え
アルゴリズム: CELPの一種であるeX-CELPを採用
フレーム長: 20 ms
モード指定: 音質と平均ビットレートの制御が可能
雑音抑制: 標準仕様に組み込み済み

SMVは、CDMA2000ネットワークにおけるサービスオプションとしてSO56(Service Option 56)が割り当てられています。また、インターネット上でSMVの符号化データを伝送する際には、RTP(Real-time Transport Protocol)を用いて、IETF標準のRFC 3558で定義されたデータ形式で送信します。さらに、3GPP2のマルチメディアファイルフォーマットである3G2でも利用でき、携帯電話での音声通信だけでなく、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなど、3GPP2で定義された各種マルチメディアサービスにも対応しています。

eX-CELPについて



SMVで使用されているeX-CELPは、従来のCELPアルゴリズムを拡張したものです。一般的なCELPでは、人間の声を声道を表す線形予測フィルターと、声帯を表す適応型および固定型のコードブックでモデル化し、「合成による分析」の手法を用いて誤差が最小となるコードブックを探します。eX-CELPは、固定的なアルゴリズムを使用するのではなく、様々なアルゴリズムを組み合わせることで、聴覚上重要な部分を強調した符号化を行います。

具体的には、以下の要素技術を組み合わせて、知覚上の音質を損なうことなくビットレートの削減を実現しています。

オープンループとクローズドループの組み合わせ: クローズドループ分析だけでなく、必要に応じてオープンループでパラメータを符号化し、柔軟に切り替えます。
入力信号の分類とアルゴリズムの切り替え: 入力信号を詳細に分類し、それぞれ最適な処理方法を適用します(例:定常的な有声音、非定常的な有声音、発声の開始、定常的な無声音など)。
信号の修正: 入力信号を知覚上影響のない範囲で修正し、効率的に符号化します。
柔軟性のある固定コードブック: 固定コードブックをサブコードブックに分割し、それぞれの信号をより適切に表現します。
マルチモード: 定常的な有声音とその他の信号で符号化処理を変え、より効率的な処理を行います。

SMVとEVRCの比較



SMVと、CDMA2000ネットワークで長く使われているEVRC(EVRC revision 0)の主観的な音質評価値であるMOS値は以下の通りです。MOS値は、1から5の値で表され、5が最も高品質、1が最も低品質を示します。

符号化方式 平均ビットレート MOS (Clean) MOS (Noisy)
- - - -
EVRC 7.5 kbps 3.75 2.8
SMV モード0 6.2 kbps 3.84 2.84
SMV モード1 4.1 kbps 3.68 2.70

ここでのMOS (Clean)は背景雑音がない場合、MOS (Noisy)は背景雑音がある場合のMOS値を示しています。上記の表からもわかるように、SMVは同じ平均ビットレートでの総合的な音質がEVRCより優れており、平均ビットレートを7割程度に抑えたモード1でも、EVRCと同等の音質を維持できることが示されています。

脚注



参考文献
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder”. 2010年7月14日閲覧。
Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.
J. Makinen, P. Ojala, H. Toukomaa. “Performance Comparison of Source Controlled GSM AMR and SMV Vocoders” (PDF). Nokia Research Center, Multimedia Technologies Laboratory. 2010年7月14日閲覧。
関連項目
音声符号化
3GPP2
AMR
AMR-WB
EVRC
VMR-WB
外部リンク
3GPP2 Specifications 3GPP2 仕様のウェブページ
* RFC 3558 - RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。