HILN(Harmonic and Individual Lines plus Noise)とは
HILN(Harmonic and Individual Lines plus Noise)は、
MPEG-4オーディオ(
MPEG-4 Part 3)で採用された、低
ビットレートの音楽向け
符号化方式です。音楽を構成する要素を、
正弦波と
ノイズの組み合わせとしてパラメトリックに表現することで、データ量を大幅に削減します。
MPEG-4 HVXCと同様、
MPEG-4 AACなどの汎用的な
符号化方式では十分な
音質が得られない、非常に低い
ビットレートでの利用を想定しており、
デジタル放送、
携帯電話、
インターネット電話、
音声データベースなど、幅広い用途で活用されています。
概要
HILNは、
MPEG-4オーディオの音楽などの一般オーディオ向け
符号化方式の一つで、
MPEG-4 Audio バージョン2で追加されました。現在では、ISO/IEC 14496-3 Subpart 7で定義されています。
MPEG-4オーディオにおける最も低い
ビットレートでの
符号化を担い、音楽などの波形を直接
符号化するのではなく、少数のパラメータで表現することで、4kbps以上の
ビットレートでの
符号化を可能にしています。
パラメータ化による
符号化のため、復号時に再生速度や全体のピッチを独立して変更できるという特徴があります。入力信号は、以下の3つの異なる成分に分離され、それぞれのモデルに合わせてパラメータ化が行われます。
ハーモニック成分: 基本
周波数、
振幅、ハーモニック全体の
スペクトルエンベロープで表現されます。
独立した正弦波成分: 周波数と
振幅で表現されます。
ノイズ成分: 振幅と
ノイズ全体の
スペクトルエンベロープで表現されます。
スペクトルエンベロープの表現には、線形予測係数が用いられます。HILNがターゲットとする6~16kbps(
帯域幅8kHz)程度の
ビットレートに抑えるため、
符号化の対象となる成分は、知覚的に重要なもののみに限定されます。また、
周波数や
振幅の
量子化は、人間の聴覚心理学上の特性を考慮し、違いを知覚できる最小の値(
丁度可知差異)を基準に行われます。
量子化された各パラメータは、エントロピー
符号化によって圧縮された後、最終的な
符号化結果としてまとめられます。
符号化ビットストリームは階層的な構成にすることも可能で、コアとなる基本層と、それに追加された拡張層に分けることができます。基本層は復号に必要な最低限の情報を表し、拡張層はそれに対する追加情報を表現します。これにより、同じ
符号化結果から、用途に応じて
音質の異なる複数のビットストリームを取り出すことができます。
HILNの特徴
HILNの主な特徴は以下の通りです。
マルチ
ビットレートをサポートし、
ビットレート拡張性がある。
可変
サンプリング周波数(7.35kHz~)に対応。
可変
ビットレート(4kbps~)に対応。
デコード時に再生速度と全体のピッチを独立して変更可能。
通常よく使われる
帯域幅8kHz(
サンプリング周波数16kHz)の場合、典型的な
フレーム長は32ms、
ビットレートは6~16kbps程度です。
MPEG-4オーディオにおける位置付け
MPEG-4オーディオは、多くのツールの組み合わせから構成されており、
音声符号化ツールとオーディオ
符号化ツールに分類されます。HILNは、オーディオ
符号化ツールの一つであるパラメトリックオーディオ
符号化ツールに分類され、
MPEG-4 AACなどの汎用オーディオ
符号化ツールが不得意とする、超低
ビットレートでの音楽などの
符号化を担当します。
HILNが音楽などのオーディオ信号をサポートするのに対し、
音声のみをさらに低い
ビットレート(2kHz-4kHz)でパラメトリックに
符号化/復号するツールとして、
MPEG-4 HVXC(Harmonic Vector eXcitation Coding)があります。HVXCもHILNと同様に、デコード時に
音声の速度とピッチを変更できます。音楽と
音声を含む信号の低
ビットレート符号化には、HVXCとHILNを信号の内容に応じて切り替えながら使用することも可能です。
さらに低い
ビットレートでの音楽表現が必要な場合は、デコーダー側で音楽信号を合成するツールである
MPEG-4 Structured Audioを使用することで、非常に表現力の高い音楽を2~3kbps以下の
ビットレートで
符号化することができます。
アルゴリズム
HILNのパラメータ抽出アルゴリズムは、大まかには以下の3つのステップで表現できます。
1. 入力信号から個別の
正弦波成分を取り出します。
2.
正弦波成分のうち、共通の基本
周波数を持つものをハーモニック成分として、残りを独立
正弦波成分としてパラメータ化します。
3. 入力信号から
正弦波成分を取り除いた残差信号を
ノイズ成分としてパラメータ化します。
これらのステップの後、各パラメータの
量子化と
符号化が行われ、最終的なビットストリームが構成されます。
ビットレートを抑えるため、パラメータ化の対象となる
正弦波成分は、知覚的に重要なもののみに限定されます。他の
正弦波によるマスキング効果などの聴覚心理学上の特性を考慮し、知覚されるエネルギーが大きいものから順に
正弦波成分の取り出しとパラメータ化が行われます。それ以外の成分は、特定の
スペクトルエンベロープを持つ
ノイズ成分としてまとめて表現します。
量子化も人間の聴覚心理学的特性に合わせて行われます。
振幅の
量子化は対数スケールで行い、
周波数の
量子化はバークスケールを用います。
符号化は、エントロピー
符号化と
フレーム内/
フレーム間の予測
符号化を組み合わせることで、
符号化効率を高めています。
符号化と比較すると、復号の処理は単純で、
符号化ビットストリームからハーモニック成分、独立
正弦波成分、
ノイズ成分に相当する各パラメータを取り出して合成し、それらを足し合わせます。ハーモニック成分や独立
正弦波成分を合成する際は、
位相が
フレーム間で不連続にならないように処理が行われます。
再生速度を変更したい場合は、各パラメータを時間軸方向に補間しながら合成を行います。
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
Heiko Purnhagen, Nikolaus Meine. HILN-the
MPEG-4 parametric audio coding tools, Proc. IEEE Int. Symp. on Circuits and Systems, vol.3, pp.201-204, 2000.
Heiko Purnhagen , Nikolaus Meine , Bernd Edler. Speeding up HILN –
MPEG-4 parametric audio encoding with reduced complexity, in AES 109th Convention, 2000.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
音声符号化
音声圧縮
線形予測符号
MPEG-4
MPEG-4 CELP
MPEG-4 HVXC
外部リンク
Signal Processing - HILN 開発者である Heiko Purnhagen のウェブページ (英語)
MPEG-4 Natural Audio Coding -
MPEG-4 オーディオ
符号化ツールの概要 (英語)
Overview of MPEG-4 Audio and its Applications in Mobile Communications
MPEG-4 オーディオとアプリケーションの概要 (PDF, 130 kByte, 英語)