MPEG-4 ALS(
MPEG-4 Audio Lossless Coding)は、
MPEG-4オーディオ(
MPEG-4 Part 3)の一部として規格化されたロスレス圧縮方式です。この技術は、スタジオでの編集作業などプロフェッショナルな環境でも利用できる高音質を維持したまま、マルチチャネルオーディオ信号を扱うことを可能にします。
概要
MPEG-4 ALSは、
MPEG-4オーディオで定義されたロスレスオーディオ符号化ツールの一つであり、
MP3や
AACのような非
可逆圧縮方式とは異なり、元のオーディオ信号を完全に復元できます。この規格は、ISO/IEC 14496-3 Subpart 11で詳細が定義されています。
この技術の大きな特徴は、最大32ビットのPCM信号を扱える点で、CDを超える
サンプリング周波数に対応できること、そして、5.1チャネル、7.2チャネル、さらには22.2チャネル
サラウンドといったマルチチャネルオーディオ入力をサポートしていることです。圧縮率においては、同じロスレス圧縮を行う
FLACよりも優れており、Monkey's AudioやOptimFROGと比較しても、同等の圧縮率で処理時間が短いという利点があります。
MPEG-4 ALSのアルゴリズムは、
FLACやDirect Stream Transferと同様に、線形予測とエントロピー符号化を組み合わせたものです。この技術の柔軟性は非常に高く、以下のような特徴があります。
量子化ビット数32ビットまでのPCMに対応し、IEEE 754 32ビット浮動小数点形式も利用可能。
任意の
サンプリング周波数に対応(192 kHzで試験済、384 kHz以上もサポート可能)。
最大65536チャネルのマルチチャネル/マルチトラックに対応。
再生時のランダムアクセスが可能。
MP4ファイルフォーマットを使用し、映像データとの組み合わせも可能。
Raw、
WAV、
AIFF、BWF、Sony Wave64、BWF with RF64など、多様な入力フォーマットに対応。
MPEG-4オーディオにおける位置づけ
MPEG-4オーディオは、多くのツールを組み合わせて構成されており、
MPEG-4 ALSは、その中でもロスレスオーディオ符号化ツールに分類されます。同じカテゴリのツールとしては、スーパーオーディオCDで用いられる
MPEG-4 DSTや、
MPEG-4 AACなどの汎用オーディオ符号化ツールと組み合わせて使用される
MPEG-4 SLSがあります。これらのツールはそれぞれ異なる符号化方式を採用しています。
アルゴリズム
MPEG-4 ALSの符号化処理は、フレーム/ブロック分割、短期予測(線形予測)、長期予測、マルチチャネル符号化、エントロピー符号化の5つの主要なステップから構成されています。
線形予測や長期予測を用いて情報を圧縮する考え方は、CELPなどの
音声符号化の基本的な概念と共通しています。多くのロスレス圧縮技術では、予測可能な成分を少数の係数で表現し、予測できなかった残差部分をエントロピー符号化することで、元の信号情報を保持しながらデータ量を削減します。
MPEG-4 ALSもこの原理に基づいています。
フレーム/ブロック分割
入力信号はまずフレームと呼ばれる基本的な処理単位に分割されます。フレームのサンプル数は
サンプリング周波数によって異なり、例えば48 kHzでは2048サンプル、96 kHzでは4096サンプルとなり、約43msの長さになります。また、信号の変化が激しい場合に効率を高めるため、必要に応じてフレームを複数のブロックに分割することも可能です。
線形予測
線形予測では、フレーム内の各サンプル間の
相関を利用して、過去のサンプル値から現在のサンプル値を予測します。この予測によって得られる残差信号を符号化することで、データ量を削減します。線形予測係数は、より
量子化特性に優れたPARCOR係数(偏自己
相関係数)に変換された後、
量子化と符号化が行われます。
MPEG-4 ALSでは、線形予測の次数を0から1023まで適応的に変化させることができます。
長期予測
多くの音楽には、楽器の基本周波数(ピッチ周波数)によって生じる繰り返し成分が含まれています。長期予測では、この繰り返し成分を係数化することで残差成分の振幅を減少させ、圧縮率を高めます。残差から過去のサンプル値を最も良く近似できる遅延時間と重み係数の組み合わせを計算し、ゴロム・ライス符号で符号化します。
マルチチャネル符号化
MPEG-4 ALSはマルチチャネル信号に対応しており、チャネル間の
相関を利用してさらなる圧縮が可能です。まず、チャネル間で最も
相関の高い組み合わせを見つけ、親チャネルの残差信号に対して長期予測と同様の方法で予測係数を求め、ゴロム・ライス符号で符号化します。
エントロピー符号化
予測成分を取り除いた残差成分に対して、エントロピー符号化を行います。ライス符号またはBGMC(Block Gilbert-Moore Code)のいずれかを選択でき、小さい振幅値に短いコードを割り当てることで、残差信号を効率的に圧縮します。
復号
復号処理は、符号化処理を逆に行います。エントロピー符号化結果から残差信号を復元し、マルチチャネル符号化、長期予測、線形予測の各係数を用いて予測成分を計算することで、最終的なサンプル値を復元します。符号化時と復号時の予測計算が一致すれば、元の入力信号と完全に同じ信号を復元できます。
その他の処理
MPEG-4 ALSは、プロの
ミキシングで使用される
IEEE 754 32ビット浮動小数点形式の入力信号も扱えます。浮動小数点形式の信号は圧縮が難しいため、整数部分と余りの
誤差部分に分割し、整数部分は従来の方法で符号化、余りの部分はマスクLempel-Ziv符号化という方法で圧縮します。
ソフトウェア
MPEG-4 ALSのリファレンス実装は、
ベルリン工科大学のウェブサイトで入手できます。また、ISO/IEC 14496-5:2001/Amd.10:2007でも定義されています。
MPEG-4 ALSをサポートする代表的なソフトウェアは以下の通りです。
FFmpeg
VLCメディアプレーヤー
MPlayer
XMedia Recode
Winamp (Plugin)
歴史
2002年6月、Moving Picture Experts Groupはロスレスオーディオ符号化方式の提案を募集しました。これに対し、ベルリン工科大学、NTT、リアルネットワークス社、インフォコム研究所、フラウンホーファーIIS、マイクロソフト、サムスン電子の7社からコーデックの提案がありました。
これらの提案を評価した結果、Moving Picture Experts Groupは可逆圧縮のみを行う方式(MPEG-4 ALS)と非可逆/可逆圧縮のハイブリッド方式(MPEG-4 SLS)の両方をサポートすることを決定しました。2003年6月には、ベルリン工科大学の提案がリファレンスモデルとして採用され、その後、各社の協力により圧縮性能や柔軟性が向上し、現在のMPEG-4 ALSの最終案が2005年12月にまとめられました。
最初の規格であるISO/IEC 14496-3:2005/Amd 2:2006は、2006年3月に出版されました。
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
線形予測符号
可逆圧縮(ロスレス圧縮)
Direct Stream Digital
MPEG-4 SLS
MPEG-4
外部リンク
MPEG-4 Audio Lossless Coding (ALS) - ベルリン工科大学のMPEG-4 ALSウェブページ
The MPEG Home Page - 公式MPEGウェブページ