HVXC(Harmonic Vector Excitation Coding)とは
HVXC(Harmonic Vector Excitation Coding)は、
MPEG-4オーディオ(
MPEG-4 Part 3)で採用された、低
ビットレートの音
声符号化方式です。人間の音
声を対象としており、2kbpsと4kbpsの固定
ビットレートに加え、1.2kbpsから1.7kbps程度の可変
ビットレートをサポートします。
デジタル放送、
携帯電話、
インターネット電話、音
声データベースなど、幅広い分野で利用されています。
概要
HVXCは、
MPEG-4オーディオの音
声符号化方式の一つとして、1999年にISO/IEC 14496-3 Subpart 2で定義されました。その後、
MPEG-4 Audioバージョン2(ISO/IEC 14496-3:1999/Amd 1:2000)で拡張されました。
MPEG-4オーディオの中で、最も低い
ビットレートでの音
声符号化を担っており、固定
ビットレート(2kbps、4kbps)と可変
ビットレート(2kbps以下、4kbps以下)の両方に対応しています。
サンプリング周波数8kHz、
帯域幅100Hzから3800Hzの音
声信号を、低
ビットレートでは通信用レベルの
了解度で、高
ビットレートでは有線電話に近い品質で符号化できます。また、HVXCは音
声の波形を直接符号化するのではなく、パラメータ化して符号化するため、デコード時に音
声の速度とピッチを独立して変更できるという特徴があります。
HVXCの特徴
サンプリング周波数:8kHz
帯域幅:100Hz - 3800Hz
フレーム長:20ms
ビットレート:固定(2kbps、4kbps)、可変(2kbps以下、4kbps以下)
符号化遅延:36ms
デコード時に音
声速度とピッチを独立変更可能
MPEG-4オーディオにおける位置付け
MPEG-4オーディオは、様々なツールを組み合わせて構成されています。HVXCや
MPEG-4 CELPは、人間の自然な音
声を符号化する「自然音
声符号化ツール」の一つです。
MPEG-4 CELPが2種類の
サンプリング周波数(8kHz、16kHz)と比較的高い
ビットレートをカバーするのに対し、HVXCは
MPEG-4 CELPでは対応できない超低
ビットレートでの符号化を担います。
さらに低い
ビットレートで音
声表現が必要な場合は、文字から音
声を合成する
MPEG-4 TTS Interface(Text-to-speech interface)が利用されます。
また、HVXCが音
声のみをサポートするのに対し、音楽をパラメトリックに符号化・復号するツールとして
MPEG-4 HILN(Harmonic and Individual Lines plus Noise)があります。HILNは超低
ビットレートでの音楽符号化が可能で、HVXCと同様にデコード時に音
声速度とピッチの変更ができます。音楽と音
声を含む信号の低
ビットレート符号化では、HVXCとHILNを信号内容に応じて切り替えて使用することもあります。
アルゴリズム
HVXCの符号化アルゴリズムは、
線形予測符号化(LPC)をベースとしており、LPCの残差信号の表現方法に工夫が凝らされています。
人間の
声は、
声道の周波数特性や、
声帯などの音源の特性、有
声・無
声の区別でモデル化できます。HVXCでは、
線形予測符号化と同様に、
声道に相当する合成フィルターのパラメータとして、線形予測(LP)フィルターの係数を使用します。そして、有
声音と無
声音で、LPCの残差信号にあたる音源のパラメータのモデル化方法を切り替えます。
有
声音の残差信号は、ハーモニックコーディングと呼ばれる方法で、
声帯音の基本周波数であるピッチ周波数と共に、その
スペクトル形状とゲインをパラメータ化します。
スペクトル形状は、残差信号を
離散フーリエ変換(DFT)で分析することで求めます。
無
声音の残差信号は、単純な
ホワイトノイズでモデル化するのではなく、CELPのように予め用意した固定型コードブックを使用し、コードブック値から適切なものを選ぶVXC(vector excitation coding)と呼ばれる方法で、信号の形状とゲインをパラメータ化します。
有
声・無
声の区別を単純に行うのではなく、4段階(有
声1/2/3、無
声)に区別することで、音質の向上が図られています。
ビットレートが高い場合には、線形予測係数の数、有
声音での
スペクトル形状を表すビット数、無
声音での形状・ゲインパラメータの更新頻度を増やし、音
声信号をより適切に表現できるようにします。
具体的な符号化手順
1.
線形予測パラメータの計算とLSPの量子化
音声信号から線形予測係数を計算します。
係数を
量子化特性に優れた線
スペクトル対(LSP)に変換します。
量子化にはベクトル量子化の一種であるPPM-VQを使用します。
2. 分析フィルターによる残差信号の計算
線形予測係数から生成した分析フィルターに音
声信号を入力し、線形予測の残差信号を計算します。
3.
オープンループでのピッチ分析
残差信号の自己相関から大まかなピッチ周波数を推定します。
残差信号のハーモニック強度を推定します。
オープンループで推定したピッチ周波数を基に、正確なピッチ周波数を求めます。
残差信号の
離散フーリエ変換(DFT)により、
倍音成分の強度を求めます。
4.
有声・無声の判定
ハーモニック強度などを用いて、周期的な波形を持つ有声音とそうでない無声音を区別します。
5. ハーモニック強度のベクトル量子化(有声音のみ)
ピッチ周波数の
倍音成分の強度をベクトル
量子化します。
6.
無声音の残差信号を符号化(無声音のみ)
予め用意した形状とゲインのコードブックを用いて、残差信号を符号化します。
復号時には、符号化とは逆に、有声/無声判定や各種パラメータから残差信号を生成し、線形予測係数から生成した合成フィルターの入力として加えることで、最終的な音声信号を再合成します。
音声の速度を変更したい場合は、各パラメータを時間軸方向に補間しながら再合成を行います。ピッチ周波数や線形予測フィルターで表現されたフォルマント周波数などを変えることなく、速度変更が可能です。
ピッチ周波数も音声データの一部としてパラメータ化されているため、ピッチ周波数だけを独立して変更することも容易です。
参考文献
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
Nishiguchi, Masayuki (2006-11). “Harmonic vector excitation coding of speech”. Acoustical science and technology (社団法人日本音響学会) 27 (6): 375-383. doi:10.1250/ast.27.375. NAID 110004836513.
関連項目
音声符号化
線形予測符号
MPEG-4'>MPEG-4
MPEG-4_CELP'>
MPEG-4 CELP
HILN
外部リンク
MPEG-4_speech_coding.pdf'>Speech coding in
MPEG-4 Audio (Overview of the
MPEG-4 Natural Speech Coding Tools) -
MPEG-4 音
声符号化ツールの概要(英語)
*
MPEG-4_Audio_and_its_Applications_in_Mobile_Communications/links/54b0276a0cf2f3367592dd87/Overview-of-
MPEG-4-Audio-and-its-Applications-in-Mobile-Communications.pdf'>Overview of
MPEG-4 Audio and its Applications in Mobile Communications -
MPEG-4 オーディオとアプリケーションの概要(PDF, 130 kByte, 英語)