MPEG-4 Part 3、通称
MPEG-4オーディオは、
Moving Picture Experts Group (MPEG) によって策定された国際標準規格
MPEG-4の第3部であり、オーディオ
符号化方式を定義しています。JIS規格では「
MPEG-4音響」と訳されています。
概要
MPEG-4オーディオは、ISO/IEC 14496-3で規格化され、1999年に最初の規格が発行されました。この規格は、JIS X 4332-3としても翻訳されています。
MPEG-4オーディオは、多様なオーディオ
符号化方式を包含しており、
音声、
音楽、自然音、合成音など、様々な信号に対応しています。また、非常に低い
ビットレートから、劣化のない高
ビットレートまで、幅広い範囲での
符号化をサポートしています。広く知られる
MPEG-4 AACの他に、ロスレス圧縮の
MPEG-4 ALS、
MPEG-4 SLS、
MPEG-4 CELP、
TwinVQ、HVXC、HILN、TTSIなど、多くの
符号化技術が規格化されています。
MPEG-4は、特定のアプリケーションに限定されることなく、蓄積、
インターネット通信、
携帯電話、
デジタル放送など、あらゆる分野での利用を目的としています。
MPEG-4オーディオは、性質の異なるツールを組み合わせることで、アプリケーションの要求に応じて柔軟な利用が可能です。
歴史的背景
ISO/IECのオーディオ
符号化標準化作業は1988年に始まり、
ビデオCD向けの
MPEG-1、高
音質オーディオ向けのMPEG-2などが策定されました。
MPEG-4は当初、モバイル機器向けの超低
ビットレート符号化規格として1993年に開発が始まりましたが、その後、対象範囲が拡大し、将来の様々なアプリケーションに対応できる一般的な
符号化標準となりました。
以前の規格である
MPEG-1やMPEG-2オーディオとの主な違いは以下の点です。
保存、転送、
多重化形式の定義
低
ビットレート符号化のサポート
複数ツールの組み合わせによる
オブジェクトベース
符号化
合成音(
音声/
音楽)のサポート
誤り耐性機能
スケーラビリティ機能
これらの機能により、
MPEG-4オーディオは、ファイル形式やデータ
多重化形式を定義し、モバイル機器向けの超低
ビットレート符号化や、誤り耐性、
スケーラビリティなどの機能を提供します。また、テキストベースの情報から
音声や
音楽を合成する機能も備えています。
詳細
MPEG-4オーディオは、様々なアプリケーションに対応するため、多くの要素技術(ツール)で構成されています。
ツール分類
音声符号化ツール:人間の
音声のみを扱うツール
オーディオ
符号化ツール:
音楽などのオーディオ信号の非
可逆圧縮を行うツール
ロスレスオーディオ
符号化ツール:オーディオ信号の
可逆圧縮を行うツール
合成ツール:再生側で
音楽合成を行うツール
その他のツール:上記以外の各種ツール
各ツールの詳細
自然
音声符号化ツール
MPEG-4 HVXC (Harmonic Vector eXcitation Coding)
MPEG-4 CELP (
Code Excited Linear Prediction)
音声合成インタフェース
MPEG-4 Hybrid/Multi-Level Scalable TTS Interface
オーディオ符号化ツール
汎用オーディオ
符号化ツール
MPEG-4 AAC (Advanced Audio Coding)
TwinVQ
MPEG-4 low delay
MPEG-4 BSAC (Bit Sliced Arithmetic Coding)
MPEG-4 SBR (Spectral Band Replication)
パラメトリックオーディオ
符号化ツール
MPEG-4 HILN (
Harmonic and Individual Lines plus Noise)
MPEG-4 SSC (SinuSoidal Coding)
ロスレスオーディオ符号化ツール
MPEG-4 DST (Direct Stream Transfer)
MPEG-4 ALS (Audio Lossless Coding)
MPEG-4 SLS (Scalable Lossless Coding)
合成ツール
MPEG-4 Structured Audio (SA)
その他のツール
コンポジションツール
スケーラビリティツール
アップストリームツール
誤り耐性機能
オーディオプロファイル
MPEG-4オーディオは、多機能であるため、標準的な組み合わせがオーディオプロファイルとして提供されています。これにより、特定のシステムに合わせた最適な設定が可能です。
サブパート
ツールの仕様は、
MPEG-4オーディオの各サブパートで定義されています。以下は主なサブパートの一覧です。
Subpart 1: メイン
Subpart 2:
音声符号化 (HVXC)
Subpart 3:
音声符号化 (CELP)
Subpart 4: 汎用オーディオ
符号化 (
AAC,
TwinVQ, BSAC)
Subpart 5: Structured Audio (SA)
Subpart 6:
音声合成インタフェース (TTSI)
Subpart 7: パラメトリックオーディオ
符号化 (HILN)
Subpart 8: 高
音質オーディオ用パラメトリック
符号化の技術的な説明
Subpart 9:
MPEG-4 での
MPEG-1/MPEG-2 オーディオ
Subpart 10: オーバーサンプルされたオーディオでのロスレス
符号化の技術的な説明 (
MPEG-4 DST)
Subpart 11: Audio Lossless Coding
Subpart 12: Scalable Lossless Coding
エディション
MPEG-4オーディオの仕様は、市場のニーズに応じて拡張されており、追加仕様は各エディションへの追補として発行されます。多くは次のエディションで統合されます。
自然
音声符号化ツールは、
デジタル放送、
携帯電話、
インターネット電話、
音声データベースなどに利用でき、2~24 kbpsの
ビットレートで
音声符号化が可能です。
MPEG-4 HVXCは超低
ビットレートをカバーし、復号時に
音声速度とピッチを独立して変更できます。
MPEG-4 CELPは、
ビットレート拡張性があります。
音声合成インタフェース
MPEG-4では、
音声合成の共通インタフェースが定義されています。
MPEG-4 Hybrid/Multi-Level Scalable TTS Interfaceは、韻律情報も指定でき、より自然な
音声合成が可能です。
汎用オーディオ符号化の詳細
MPEG-4 AACは、MPEG-2
AACをベースに拡張されたもので、
音楽などのオーディオ信号を効率よく
符号化でき、
モノラル、
ステレオ、マルチチャネル信号を扱えます。低
ビットレート符号化のための
TwinVQ、リアルタイム通信向けの
AAC LD、ビットストリームを階層化するBSAC、高域成分をパラメータ化するSBRなどの機能拡張が行われています。
AAC Main:高
音質
AAC LC (Low Complexity):演算量が少ない
AAC SSR (Scalable Sample Rate):周波数帯域の拡張性
AACは、入力信号をMDCTで
周波数領域に変換し、聴覚心理学上の特性を考慮して
符号化を行います。
量子化と
符号化の方式として、
TwinVQやBSACも選択可能です。
TwinVQは、ベクトル
量子化の一種で、低い
ビットレートでの
音質が比較的優れています。
BSAC
BSACは、ビットストリームを階層化し、
ビットレート拡張性を持たせる技術です。
DMB (Digital Multimedia Broadcasting)で採用されています。
AAC LDは、
符号化遅延を抑えた方式で、リアルタイム通信などに利用されます。
HE-
AACは、
AAC LCをベースにSBRツールを組み合わせたもので、HE-
AAC v2はさらにPSツールを組み合わせたものです。これらは、高域成分や
ステレオ信号をパラメータ化することで圧縮効率を高めます。
欧州放送連合の試験で、48 kbps
ステレオ信号の評価が80点と高い評価を得ています。
パラメトリックオーディオ符号化の詳細
パラメトリックオーディオ
符号化ツールは、
音楽などをパラメータ化し、低
ビットレートで
符号化します。
MPEG-4 HILNは、
音楽を
正弦波と
ノイズの組み合わせで表現し、
MPEG-4 SSCは、広帯域で高
音質オーディオを対象とします。
Structured Audioの詳細
Structured Audioは、デコーダー側で
音楽やサウンド
エフェクトを合成するツールです。SAOLという
デジタル信号処理言語で合成アルゴリズムを記述し、SASLという楽譜言語で制御します。ウェーブテーブル合成やアルゴリズム合成などの音源方式を選択できます。
ロスレスオーディオ符号化の詳細
ロスレスオーディオ
符号化は、完全性が要求される用途向けで、以下の方式があります。
MPEG-4 DST (Direct Stream Transfer):スーパーオーディオCD向け
MPEG-4 ALS (Audio Lossless Coding):スタジオ編集向け
MPEG-4 SLS (Scalable Lossless Coding):スケーラブルなロスレス圧縮
コンポジションツール
MPEG-4オーディオでは、複数のツールを用いた
符号化データをオーディオ
オブジェクトとして組み合わせることができます。これにより、
ミキシングや
サンプリング周波数の調整が可能となり、柔軟な
サウンドトラックの作成ができます。
MPEG-4 BIFSのサブセットであるAudioBIFSを用います。
誤り耐性機能
MPEG-4は、誤りが起こりやすい環境での利用を想定し、誤り保護ツールを提供しています。UEP (Unequal Error Protection)などの手法で、ビットストリームを保護します。また、
AACには、VCB11、RVLC、HCRなどの誤り耐性ツールがあります。
MPEG-4オーディオでの
サウンドトラックは、様々なツールで作成されたオーディオ
オブジェクトの組み合わせで表現され、それぞれにタイプIDが付与されています。
保存/転送形式
MPEG-4では、
符号化されたデータを基本ストリームにまとめる方法や保存形式の仕様が定義されています。トランスポート層とのインタフェースとしてDMIFが標準化されています。また、オーディオアプリケーション向けには、LATMとLOASが定義されています。
注釈・出典
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2005, Third edition, 2005.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
音声符号化
オーディオ圧縮
可逆圧縮
AAC (Advanced Audio Coding)
MP4
MPEG-4
MPEG-4 ALS
MPEG-4 CELP
MPEG-4 DST
MPEG-4 HILN
MPEG-4 HVXC
MPEG-4 SLS
外部リンク
The MPEG Home Page - 公式 MPEG ウェブページ
MPEG-4 Audio Lossless Coding (ALS) -
ベルリン工科大学の
MPEG-4 ALS ウェブページ
Fraunhofer - Fraunhofer IIS のオーディオ関連ウェブページ
Overview of MPEG-4 Audio and its Applications in Mobile Communications -
MPEG-4オーディオとアプリケーションの概要 (PDF, 130 kByte, 英語)
RFC 3016 - RTP Payload Format for
MPEG-4 Audio/Visual Streams
RFC 3640 - RTP Payload Format for Transport of
MPEG-4 Elementary Streams
RFC 4281 - The Codecs Parameter for "Bucket" Media Types
RFC 4337 - MIME Type Registration for
MPEG-4