MPEG-4 Part 3

MPEG-4 Part 3 (MPEG-4オーディオ) について

MPEG-4 Part 3、通称MPEG-4オーディオは、Moving Picture Experts Group (MPEG) によって策定された国際標準規格MPEG-4の第3部であり、オーディオ符号化方式を定義しています。JIS規格では「MPEG-4音響」と訳されています。

概要

MPEG-4オーディオは、ISO/IEC 14496-3で規格化され、1999年に最初の規格が発行されました。この規格は、JIS X 4332-3としても翻訳されています。

MPEG-4オーディオは、多様なオーディオ符号化方式を包含しており、音声、音楽、自然音、合成音など、様々な信号に対応しています。また、非常に低いビットレートから、劣化のない高ビットレートまで、幅広い範囲での符号化をサポートしています。広く知られるMPEG-4 AACの他に、ロスレス圧縮のMPEG-4 ALS、MPEG-4 SLS、MPEG-4 CELP、TwinVQ、HVXC、HILN、TTSIなど、多くの符号化技術が規格化されています。

MPEG-4は、特定のアプリケーションに限定されることなく、蓄積、インターネット通信、携帯電話、デジタル放送など、あらゆる分野での利用を目的としています。MPEG-4オーディオは、性質の異なるツールを組み合わせることで、アプリケーションの要求に応じて柔軟な利用が可能です。

歴史的背景

ISO/IECのオーディオ符号化標準化作業は1988年に始まり、ビデオCD向けのMPEG-1、高音質オーディオ向けのMPEG-2などが策定されました。MPEG-4は当初、モバイル機器向けの超低ビットレート符号化規格として1993年に開発が始まりましたが、その後、対象範囲が拡大し、将来の様々なアプリケーションに対応できる一般的な符号化標準となりました。

MPEG-1/2オーディオとの違い

以前の規格であるMPEG-1やMPEG-2オーディオとの主な違いは以下の点です。

保存、転送、多重化形式の定義
低ビットレート符号化のサポート
複数ツールの組み合わせによるオブジェクトベース符号化
合成音(音声/音楽)のサポート
誤り耐性機能
スケーラビリティ機能

これらの機能により、MPEG-4オーディオは、ファイル形式やデータ多重化形式を定義し、モバイル機器向けの超低ビットレート符号化や、誤り耐性、スケーラビリティなどの機能を提供します。また、テキストベースの情報から音声や音楽を合成する機能も備えています。

詳細

MPEG-4オーディオは、様々なアプリケーションに対応するため、多くの要素技術（ツール）で構成されています。

ツール分類

音声符号化ツール：人間の音声のみを扱うツール
オーディオ符号化ツール：音楽などのオーディオ信号の非可逆圧縮を行うツール
ロスレスオーディオ符号化ツール：オーディオ信号の可逆圧縮を行うツール
合成ツール：再生側で音楽合成を行うツール
その他のツール：上記以外の各種ツール

各ツールの詳細

音声符号化ツール

自然音声符号化ツール
MPEG-4 HVXC (Harmonic Vector eXcitation Coding)
MPEG-4 CELP (Code Excited Linear Prediction)
音声合成インタフェース
MPEG-4 Hybrid/Multi-Level Scalable TTS Interface

オーディオ符号化ツール

汎用オーディオ符号化ツール
MPEG-4 AAC (Advanced Audio Coding)
TwinVQ
MPEG-4 low delay
MPEG-4 BSAC (Bit Sliced Arithmetic Coding)
MPEG-4 SBR (Spectral Band Replication)
パラメトリックオーディオ符号化ツール
MPEG-4 HILN (Harmonic and Individual Lines plus Noise)
MPEG-4 SSC (SinuSoidal Coding)

ロスレスオーディオ符号化ツール

MPEG-4 DST (Direct Stream Transfer)
MPEG-4 ALS (Audio Lossless Coding)
MPEG-4 SLS (Scalable Lossless Coding)

合成ツール

MPEG-4 Structured Audio (SA)

その他のツール

コンポジションツール
スケーラビリティツール
アップストリームツール
誤り耐性機能

オーディオプロファイル

MPEG-4オーディオは、多機能であるため、標準的な組み合わせがオーディオプロファイルとして提供されています。これにより、特定のシステムに合わせた最適な設定が可能です。

サブパート

ツールの仕様は、MPEG-4オーディオの各サブパートで定義されています。以下は主なサブパートの一覧です。

Subpart 1: メイン
Subpart 2: 音声符号化 (HVXC)
Subpart 3: 音声符号化 (CELP)
Subpart 4: 汎用オーディオ符号化 (AAC, TwinVQ, BSAC)
Subpart 5: Structured Audio (SA)
Subpart 6: 音声合成インタフェース (TTSI)
Subpart 7: パラメトリックオーディオ符号化 (HILN)
Subpart 8: 高音質オーディオ用パラメトリック符号化の技術的な説明
Subpart 9: MPEG-4 での MPEG-1/MPEG-2 オーディオ
Subpart 10: オーバーサンプルされたオーディオでのロスレス符号化の技術的な説明 (MPEG-4 DST)
Subpart 11: Audio Lossless Coding
Subpart 12: Scalable Lossless Coding

エディション

MPEG-4オーディオの仕様は、市場のニーズに応じて拡張されており、追加仕様は各エディションへの追補として発行されます。多くは次のエディションで統合されます。

音声符号化の詳細

自然音声符号化ツール

自然音声符号化ツールは、デジタル放送、携帯電話、インターネット電話、音声データベースなどに利用でき、2～24 kbpsのビットレートで音声符号化が可能です。MPEG-4 HVXCは超低ビットレートをカバーし、復号時に音声速度とピッチを独立して変更できます。MPEG-4 CELPは、ビットレート拡張性があります。

音声合成インタフェース

MPEG-4では、音声合成の共通インタフェースが定義されています。MPEG-4 Hybrid/Multi-Level Scalable TTS Interfaceは、韻律情報も指定でき、より自然な音声合成が可能です。

汎用オーディオ符号化の詳細

MPEG-4 AAC

MPEG-4 AACは、MPEG-2 AACをベースに拡張されたもので、音楽などのオーディオ信号を効率よく符号化でき、モノラル、ステレオ、マルチチャネル信号を扱えます。低ビットレート符号化のためのTwinVQ、リアルタイム通信向けのAAC LD、ビットストリームを階層化するBSAC、高域成分をパラメータ化するSBRなどの機能拡張が行われています。

AACの基本方式

AAC Main：高音質
AAC LC (Low Complexity)：演算量が少ない
AAC SSR (Scalable Sample Rate)：周波数帯域の拡張性

AACは、入力信号をMDCTで周波数領域に変換し、聴覚心理学上の特性を考慮して符号化を行います。量子化と符号化の方式として、TwinVQやBSACも選択可能です。

TwinVQ

TwinVQは、ベクトル量子化の一種で、低いビットレートでの音質が比較的優れています。

BSAC

BSACは、ビットストリームを階層化し、ビットレート拡張性を持たせる技術です。DMB (Digital Multimedia Broadcasting)で採用されています。

AAC LD

AAC LDは、符号化遅延を抑えた方式で、リアルタイム通信などに利用されます。

HE-AAC

HE-AACは、AAC LCをベースにSBRツールを組み合わせたもので、HE-AAC v2はさらにPSツールを組み合わせたものです。これらは、高域成分やステレオ信号をパラメータ化することで圧縮効率を高めます。欧州放送連合の試験で、48 kbpsステレオ信号の評価が80点と高い評価を得ています。

パラメトリックオーディオ符号化の詳細

パラメトリックオーディオ符号化ツールは、音楽などをパラメータ化し、低ビットレートで符号化します。MPEG-4 HILNは、音楽を正弦波とノイズの組み合わせで表現し、MPEG-4 SSCは、広帯域で高音質オーディオを対象とします。

Structured Audioの詳細

Structured Audioは、デコーダー側で音楽やサウンドエフェクトを合成するツールです。SAOLというデジタル信号処理言語で合成アルゴリズムを記述し、SASLという楽譜言語で制御します。ウェーブテーブル合成やアルゴリズム合成などの音源方式を選択できます。

ロスレスオーディオ符号化の詳細

ロスレスオーディオ符号化は、完全性が要求される用途向けで、以下の方式があります。

MPEG-4 DST (Direct Stream Transfer)：スーパーオーディオCD向け
MPEG-4 ALS (Audio Lossless Coding)：スタジオ編集向け
MPEG-4 SLS (Scalable Lossless Coding)：スケーラブルなロスレス圧縮

コンポジションツール

MPEG-4オーディオでは、複数のツールを用いた符号化データをオーディオオブジェクトとして組み合わせることができます。これにより、ミキシングやサンプリング周波数の調整が可能となり、柔軟なサウンドトラックの作成ができます。MPEG-4 BIFSのサブセットであるAudioBIFSを用います。

誤り耐性機能

MPEG-4は、誤りが起こりやすい環境での利用を想定し、誤り保護ツールを提供しています。UEP (Unequal Error Protection)などの手法で、ビットストリームを保護します。また、AACには、VCB11、RVLC、HCRなどの誤り耐性ツールがあります。

オーディオオブジェクトタイプ

MPEG-4オーディオでのサウンドトラックは、様々なツールで作成されたオーディオオブジェクトの組み合わせで表現され、それぞれにタイプIDが付与されています。

保存/転送形式

MPEG-4では、符号化されたデータを基本ストリームにまとめる方法や保存形式の仕様が定義されています。トランスポート層とのインタフェースとしてDMIFが標準化されています。また、オーディオアプリケーション向けには、LATMとLOASが定義されています。

注釈・出典

参考文献

Andreas Spanias, Ted Painter, Venkatraman Atti (ed). Audio signal processing and coding. Wiley-Interscience, John Wiley & Sons, Inc., 2006. ISBN 978-0471791478.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2005, Third edition, 2005.
ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.

外部リンク

The MPEG Home Page - 公式 MPEG ウェブページ
MPEG-4 Audio Lossless Coding (ALS) - ベルリン工科大学の MPEG-4 ALS ウェブページ
Fraunhofer - Fraunhofer IIS のオーディオ関連ウェブページ
Overview of MPEG-4 Audio and its Applications in Mobile Communications - MPEG-4オーディオとアプリケーションの概要 (PDF, 130 kByte, 英語)
RFC 3016 - RTP Payload Format for MPEG-4 Audio/Visual Streams
RFC 3640 - RTP Payload Format for Transport of MPEG-4 Elementary Streams
RFC 4281 - The Codecs Parameter for "Bucket" Media Types
RFC 4337 - MIME Type Registration for MPEG-4

もう一度検索

MPEG-4 Part 3

MPEG-4 Part 3 (MPEG-4オーディオ) について

概要

歴史的背景

MPEG-1/2オーディオとの違い

詳細

ツール分類

各ツールの詳細

音声符号化ツール

オーディオ符号化ツール

ロスレスオーディオ符号化ツール

合成ツール

その他のツール

オーディオプロファイル

サブパート

エディション

音声符号化の詳細

自然音声符号化ツール

音声合成インタフェース

汎用オーディオ符号化の詳細

MPEG-4 AAC

AACの基本方式

TwinVQ

BSAC

AAC LD

HE-AAC

パラメトリックオーディオ符号化の詳細

Structured Audioの詳細

ロスレスオーディオ符号化の詳細

コンポジションツール

誤り耐性機能

オーディオオブジェクトタイプ

保存/転送形式

注釈・出典

参考文献

関連項目

外部リンク