HILN(Harmonic and Individual Lines plus Noise)とは
HILN(Harmonic and Individual Lines plus Noise)は、
MPEG-4オーディオ(
MPEG-4 Part 3)で採用された、低
ビットレートの音楽向け符号化方式です。音楽を構成する要素を、
正弦波と
ノイズの組み合わせとしてパラメトリックに表現することで、データ量を大幅に削減します。
MPEG-4 HVXCと同様、
MPEG-4 AACなどの汎用的な符号化方式では十分な
音質が得られない、非常に低い
ビットレートでの利用を想定しており、
デジタル放送、
携帯電話、
インターネット電話、
音声データベースなど、幅広い用途で活用されています。
概要
HILNは、
MPEG-4オーディオの音楽などの一般オーディオ向け符号化方式の一つで、
MPEG-4 Audio バージョン2で追加されました。現在では、ISO/IEC 14496-3 Subpart 7で定義されています。
MPEG-4オーディオにおける最も低い
ビットレートでの符号化を担い、音楽などの波形を直接符号化するのではなく、少数のパラメータで表現することで、4kbps以上の
ビットレートでの符号化を可能にしています。
パラメータ化による符号化のため、復号時に再生速度や全体のピッチを独立して変更できるという特徴があります。入力信号は、以下の3つの異なる成分に分離され、それぞれのモデルに合わせてパラメータ化が行われます。
ハーモニック成分: 基本周波数、振幅、ハーモニック全体のスペクトルエンベロープで表現されます。
独立した正弦波成分: 周波数と
振幅で表現されます。
ノイズ成分: 振幅とノイズ全体のスペクトルエンベロープで表現されます。
スペクトルエンベロープの表現には、線形予測係数が用いられます。HILNがターゲットとする6~16kbps(帯域幅8kHz)程度のビットレートに抑えるため、符号化の対象となる成分は、知覚的に重要なもののみに限定されます。また、周波数や振幅の量子化は、人間の聴覚心理学上の特性を考慮し、違いを知覚できる最小の値(丁度可知差異)を基準に行われます。
量子化された各パラメータは、エントロピー符号化によって圧縮された後、最終的な符号化結果としてまとめられます。符号化ビットストリームは階層的な構成にすることも可能で、コアとなる基本層と、それに追加された拡張層に分けることができます。基本層は復号に必要な最低限の情報を表し、拡張層はそれに対する追加情報を表現します。これにより、同じ符号化結果から、用途に応じて音質の異なる複数のビットストリームを取り出すことができます。
HILNの特徴
HILNの主な特徴は以下の通りです。
マルチ
ビットレートをサポートし、
ビットレート拡張性がある。
可変サンプリング周波数(7.35kHz~)に対応。
可変
ビットレート(4kbps~)に対応。
デコード時に再生速度と全体のピッチを独立して変更可能。
通常よく使われる帯域幅8kHz(サンプリング周波数16kHz)の場合、典型的なフレーム長は32ms、ビットレートは6~16kbps程度です。
MPEG-4オーディオにおける位置付け
MPEG-4オーディオは、多くのツールの組み合わせから構成されており、音声符号化ツールとオーディオ符号化ツールに分類されます。HILNは、オーディオ符号化ツールの一つであるパラメトリックオーディオ符号化ツールに分類され、MPEG-4 AACなどの汎用オーディオ符号化ツールが不得意とする、超低ビットレートでの音楽などの符号化を担当します。
HILNが音楽などのオーディオ信号をサポートするのに対し、音声のみをさらに低いビットレート(2kHz-4kHz)でパラメトリックに符号化/復号するツールとして、MPEG-4 HVXC(Harmonic Vector eXcitation Coding)があります。HVXCもHILNと同様に、デコード時に音声の速度とピッチを変更できます。音楽と音声を含む信号の低ビットレート符号化には、HVXCとHILNを信号の内容に応じて切り替えながら使用することも可能です。
さらに低いビットレートでの音楽表現が必要な場合は、デコーダー側で音楽信号を合成するツールであるMPEG-4 Structured Audioを使用することで、非常に表現力の高い音楽を2~3kbps以下のビットレートで符号化することができます。
アルゴリズム
HILNのパラメータ抽出アルゴリズムは、大まかには以下の3つのステップで表現できます。
1. 入力信号から個別の正弦波成分を取り出します。
2. 正弦波成分のうち、共通の基本周波数を持つものをハーモニック成分として、残りを独立正弦波成分としてパラメータ化します。
3. 入力信号から正弦波成分を取り除いた残差信号をノイズ成分としてパラメータ化します。
これらのステップの後、各パラメータの量子化と符号化が行われ、最終的なビットストリームが構成されます。
ビットレートを抑えるため、パラメータ化の対象となる正弦波成分は、知覚的に重要なもののみに限定されます。他の正弦波によるマスキング効果などの聴覚心理学上の特性を考慮し、知覚されるエネルギーが大きいものから順に正弦波成分の取り出しとパラメータ化が行われます。それ以外の成分は、特定のスペクトルエンベロープを持つノイズ成分としてまとめて表現します。
量子化も人間の聴覚心理学的特性に合わせて行われます。振幅の量子化は対数スケールで行い、周波数の量子化はバークスケールを用います。
符号化は、エントロピー符号化とフレーム内/フレーム間の予測符号化を組み合わせることで、符号化効率を高めています。
符号化と比較すると、復号の処理は単純で、符号化ビットストリームからハーモニック成分、独立正弦波成分、ノイズ成分に相当する各パラメータを取り出して合成し、それらを足し合わせます。ハーモニック成分や独立正弦波成分を合成する際は、位相がフレーム間で不連続にならないように処理が行われます。
再生速度を変更したい場合は、各パラメータを時間軸方向に補間しながら合成を行います。
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
Heiko Purnhagen, Nikolaus Meine. HILN-the MPEG-4 parametric audio coding tools, Proc. IEEE Int. Symp. on Circuits and Systems, vol.3, pp.201-204, 2000.
Heiko Purnhagen , Nikolaus Meine , Bernd Edler. Speeding up HILN –
MPEG-4 parametric audio encoding with reduced complexity, in AES 109th Convention, 2000.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
音声符号化
音声圧縮
線形予測符号
MPEG-4
MPEG-4 CELP
MPEG-4 HVXC
外部リンク
Signal Processing - HILN 開発者である Heiko Purnhagen のウェブページ (英語)
MPEG-4 Natural Audio Coding - MPEG-4 オーディオ符号化ツールの概要 (英語)
Overview of MPEG-4 Audio and its Applications in Mobile Communications
MPEG-4 オーディオとアプリケーションの概要 (PDF, 130 kByte, 英語)