MPEG-4 Part 3 (MPEG-4オーディオ) について
MPEG-4 Part 3、通称MPEG-4オーディオは、
Moving Picture Experts Group (MPEG) によって策定された国際標準規格MPEG-4の第3部であり、オーディオ符号化方式を定義しています。JIS規格では「MPEG-4音響」と訳されています。
概要
MPEG-4オーディオは、ISO/IEC 14496-3で規格化され、1999年に最初の規格が発行されました。この規格は、JIS X 4332-3としても翻訳されています。
MPEG-4オーディオは、多様なオーディオ符号化方式を包含しており、
音声、
音楽、自然音、合成音など、様々な信号に対応しています。また、非常に低い
ビットレートから、劣化のない高
ビットレートまで、幅広い範囲での符号化をサポートしています。広く知られるMPEG-4
AACの他に、ロスレス圧縮のMPEG-4 ALS、MPEG-4 SLS、MPEG-4 CELP、TwinVQ、HVXC、HILN、TTSIなど、多くの符号化技術が規格化されています。
MPEG-4は、特定のアプリケーションに限定されることなく、蓄積、
インターネット通信、
携帯電話、
デジタル放送など、あらゆる分野での利用を目的としています。MPEG-4オーディオは、性質の異なるツールを組み合わせることで、アプリケーションの要求に応じて柔軟な利用が可能です。
歴史的背景
ISO/IECのオーディオ符号化標準化作業は1988年に始まり、
ビデオCD向けのMPEG-1、高
音質オーディオ向けのMPEG-2などが策定されました。MPEG-4は当初、モバイル機器向けの超低
ビットレート符号化規格として1993年に開発が始まりましたが、その後、対象範囲が拡大し、将来の様々なアプリケーションに対応できる一般的な符号化標準となりました。
MPEG-1/2オーディオとの違い
以前の規格であるMPEG-1やMPEG-2オーディオとの主な違いは以下の点です。
保存、転送、多重化形式の定義
低
ビットレート符号化のサポート
複数ツールの組み合わせによるオブジェクトベース符号化
合成音(
音声/
音楽)のサポート
誤り耐性機能
スケーラビリティ機能
これらの機能により、MPEG-4オーディオは、ファイル形式やデータ
多重化形式を定義し、モバイル機器向けの超低
ビットレート符号化や、誤り耐性、スケーラビリティなどの機能を提供します。また、テキストベースの情報から
音声や
音楽を合成する機能も備えています。
詳細
MPEG-4オーディオは、様々なアプリケーションに対応するため、多くの要素技術(ツール)で構成されています。
ツール分類
音声符号化ツール:人間の音声のみを扱うツール
オーディオ符号化ツール:
音楽などのオーディオ信号の非
可逆圧縮を行うツール
ロスレスオーディオ符号化ツール:オーディオ信号の可逆圧縮を行うツール
合成ツール:再生側で
音楽合成を行うツール
その他のツール:上記以外の各種ツール
各ツールの詳細
音声符号化ツール
自然
音声符号化ツール
MPEG-4 HVXC (Harmonic Vector eXcitation Coding)
MPEG-4 CELP (
Code Excited Linear Prediction)
音声合成インタフェース
MPEG-4 Hybrid/Multi-Level Scalable TTS Interface
オーディオ符号化ツール
汎用オーディオ符号化ツール
MPEG-4
AAC (Advanced Audio Coding)
TwinVQ
MPEG-4 low delay
MPEG-4 BSAC (Bit Sliced Arithmetic Coding)
MPEG-4 SBR (Spectral Band Replication)
パラメトリックオーディオ符号化ツール
MPEG-4 HILN (Harmonic and Individual Lines plus Noise)
MPEG-4 SSC (SinuSoidal Coding)
ロスレスオーディオ符号化ツール
MPEG-4 DST (Direct Stream Transfer)
MPEG-4 ALS (Audio Lossless Coding)
MPEG-4 SLS (Scalable Lossless Coding)
合成ツール
MPEG-4 Structured Audio (SA)
その他のツール
コンポジションツール
スケーラビリティツール
アップストリームツール
誤り耐性機能
オーディオプロファイル
MPEG-4オーディオは、多機能であるため、標準的な組み合わせがオーディオプロファイルとして提供されています。これにより、特定のシステムに合わせた最適な設定が可能です。
サブパート
ツールの仕様は、MPEG-4オーディオの各サブパートで定義されています。以下は主なサブパートの一覧です。
Subpart 1: メイン
Subpart 2: 音声符号化 (HVXC)
Subpart 3:
音声符号化 (CELP)
Subpart 4: 汎用オーディオ符号化 (AAC, TwinVQ, BSAC)
Subpart 5: Structured Audio (SA)
Subpart 6: 音声合成インタフェース (TTSI)
Subpart 7: パラメトリックオーディオ符号化 (HILN)
Subpart 8: 高音質オーディオ用パラメトリック符号化の技術的な説明
Subpart 9: MPEG-4 での MPEG-1/MPEG-2 オーディオ
Subpart 10: オーバーサンプルされたオーディオでのロスレス符号化の技術的な説明 (MPEG-4 DST)
Subpart 11: Audio Lossless Coding
Subpart 12: Scalable Lossless Coding
エディション
MPEG-4オーディオの仕様は、市場のニーズに応じて拡張されており、追加仕様は各エディションへの追補として発行されます。多くは次のエディションで統合されます。
音声符号化の詳細
自然音声符号化ツール
自然音声符号化ツールは、デジタル放送、携帯電話、インターネット電話、音声データベースなどに利用でき、2~24 kbpsのビットレートで音声符号化が可能です。MPEG-4 HVXCは超低ビットレートをカバーし、復号時に音声速度とピッチを独立して変更できます。MPEG-4 CELPは、ビットレート拡張性があります。
音声合成インタフェース
MPEG-4では、音声合成の共通インタフェースが定義されています。MPEG-4 Hybrid/Multi-Level Scalable TTS Interfaceは、韻律情報も指定でき、より自然な音声合成が可能です。
汎用オーディオ符号化の詳細
MPEG-4 AAC
MPEG-4 AACは、MPEG-2 AACをベースに拡張されたもので、音楽などのオーディオ信号を効率よく符号化でき、モノラル、ステレオ、マルチチャネル信号を扱えます。低ビットレート符号化のためのTwinVQ、リアルタイム通信向けのAAC LD、ビットストリームを階層化するBSAC、高域成分をパラメータ化するSBRなどの機能拡張が行われています。
AAC Main:高
音質
AAC LC (Low Complexity):演算量が少ない
AAC SSR (Scalable Sample Rate):周波数帯域の拡張性
AACは、入力信号をMDCTで
周波数領域に変換し、聴覚心理学上の特性を考慮して符号化を行います。
量子化と符号化の方式として、TwinVQやBSACも選択可能です。
TwinVQ
TwinVQは、ベクトル
量子化の一種で、低い
ビットレートでの
音質が比較的優れています。
BSAC
BSACは、ビットストリームを階層化し、
ビットレート拡張性を持たせる技術です。
DMB (Digital Multimedia Broadcasting)で採用されています。
AAC LDは、符号化遅延を抑えた方式で、リアルタイム通信などに利用されます。
HE-
AACは、
AAC LCをベースにSBRツールを組み合わせたもので、HE-
AAC v2はさらにPSツールを組み合わせたものです。これらは、高域成分や
ステレオ信号をパラメータ化することで圧縮効率を高めます。
欧州放送連合の試験で、48 kbps
ステレオ信号の評価が80点と高い評価を得ています。
パラメトリックオーディオ符号化の詳細
パラメトリックオーディオ符号化ツールは、
音楽などをパラメータ化し、低
ビットレートで符号化します。MPEG-4 HILNは、
音楽を
正弦波と
ノイズの組み合わせで表現し、MPEG-4 SSCは、広帯域で高
音質オーディオを対象とします。
Structured Audioの詳細
Structured Audioは、デコーダー側で
音楽やサウンド
エフェクトを合成するツールです。SAOLという
デジタル信号処理言語で合成アルゴリズムを記述し、SASLという楽譜言語で制御します。ウェーブテーブル合成やアルゴリズム合成などの音源方式を選択できます。
ロスレスオーディオ符号化の詳細
ロスレスオーディオ符号化は、完全性が要求される用途向けで、以下の方式があります。
MPEG-4 DST (Direct Stream Transfer):スーパーオーディオCD向け
MPEG-4 ALS (Audio Lossless Coding):スタジオ編集向け
MPEG-4 SLS (Scalable Lossless Coding):スケーラブルなロスレス圧縮
コンポジションツール
MPEG-4オーディオでは、複数のツールを用いた符号化データをオーディオオブジェクトとして組み合わせることができます。これにより、ミキシングやサンプリング周波数の調整が可能となり、柔軟なサウンドトラックの作成ができます。MPEG-4 BIFSのサブセットであるAudioBIFSを用います。
誤り耐性機能
MPEG-4は、誤りが起こりやすい環境での利用を想定し、誤り保護ツールを提供しています。UEP (Unequal Error Protection)などの手法で、ビットストリームを保護します。また、AACには、VCB11、RVLC、HCRなどの誤り耐性ツールがあります。
オーディオオブジェクトタイプ
MPEG-4オーディオでのサウンドトラックは、様々なツールで作成されたオーディオオブジェクトの組み合わせで表現され、それぞれにタイプIDが付与されています。
保存/転送形式
MPEG-4では、符号化されたデータを基本ストリームにまとめる方法や保存形式の仕様が定義されています。トランスポート層とのインタフェースとしてDMIFが標準化されています。また、オーディオアプリケーション向けには、LATMとLOASが定義されています。
注釈・出典
参考文献
Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2005, Third edition, 2005.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
関連項目
音声符号化
オーディオ圧縮
可逆圧縮
AAC (Advanced Audio Coding)
MP4
MPEG-4
MPEG-4 ALS
MPEG-4 CELP
MPEG-4 DST
MPEG-4 HILN
MPEG-4 HVXC
MPEG-4 SLS
外部リンク
The MPEG Home Page - 公式 MPEG ウェブページ
MPEG-4 Audio Lossless Coding (ALS) -
ベルリン工科大学の MPEG-4 ALS ウェブページ
Fraunhofer - Fraunhofer IIS のオーディオ関連ウェブページ
Overview of MPEG-4 Audio and its Applications in Mobile Communications - MPEG-4オーディオとアプリケーションの概要 (PDF, 130 kByte, 英語)
RFC 3016 - RTP Payload Format for MPEG-4 Audio/Visual Streams
RFC 3640 - RTP Payload Format for Transport of MPEG-4 Elementary Streams
RFC 4281 - The Codecs Parameter for "Bucket" Media Types
RFC 4337 - MIME Type Registration for MPEG-4