MPEG-4

MPEG-4とは



MPEG-4(エムペグフォー、ISO/IEC 14496)は、動画・音声全般をデジタルデータとして扱うための国際規格です。MPEG-1やMPEG-2と同様に、システム、ビジュアル(動画)、オーディオ、ファイルフォーマットといった複数の技術要素から構成されています。しかし、「MPEG-4」という言葉は、しばしば動画の符号化方式を指すビジュアル部分のみを意味することが多く、その広範な規格内容が理解を難しくしています。また、ビジュアルやファイルフォーマットの一部を利用したものが「MPEG-4」と一括りにされることもあり、用語の使われ方に混乱が見られます。

規格を策定するMoving Picture Experts Groupは、MPEG-4を動画・音声符号化の最終規格とする意向を示しており、現在では3次元コンピュータグラフィックスや音声合成など、非常に幅広い分野をカバーする規格となっています。MPEG技術は、各技術ごとに「パート(Part)」と呼ばれる規格が作成され、新しい技術が採用・規格化されるたびにパートが増加します。2003年にはH.264がMPEG-4 Part 10 Advanced Video Codingとして規格化されるなど、現在も拡張が続けられています。

MPEG-4の構成



MPEG-4(ISO/IEC 14496)は、動画・音声を含む多様なマルチメディア符号化フォーマットを規定しており、複数の「部(Part)」に分かれて標準化されています。各部はJIS X 4332として翻訳されており、第31部以降は開発中です。動画関連では、第2部(1999年制定)と第10部(2003年制定)があり、一般的に「MPEG-4動画」と言えば第2部を指すことが多いです。第10部は第2部と区別するため、MPEG-4 AVCと呼ばれることがあります。MPEG-4は動画の符号化規格として認識されることが多いですが、実際に規定されているのは復号のみで、符号化は規定されていません。

MPEG-4 システム(第1部)



マルチメディアデータをファイルや記録メディアに保存したり、ネットワークで伝送するためには、動画と音声の符号化データを統合(多重化)し、同期させる仕組みが必要です。この多重化方式を規定するのがシステムです。多重化される前の動画像や音声のバイナリデータは、エレメンタリストリーム(ES)と呼ばれます。

MPEG-1やMPEG-2のシステムと同様に、動画と音声のエレメンタリストリームを多重化しますが、MPEG-4ではオブジェクト符号化という概念が導入されています。MPEG-4では、オーディオやビジュアルデータは個別のオブジェクトとして扱われ、これらのオブジェクトを多重化・同期させるのがシステムの役割です。MPEG-4の動画像や音声のエレメンタリストリームの多重化には、MPEG-4システムだけでなく、MPEG-2トランスポートストリーム(MPEG-2 TS)も利用可能で、地上デジタル放送の1セグメント放送では、AVCとAACの伝送にMPEG-2 TSが用いられています。

さらに、複数のオブジェクトを組み合わせて扱うためのシーン記述仕様として、VRML97をベースとしたBIFS(Binary Format for Scenes)が規定されています。これにより、人物や背景の動画・音声を別々のオブジェクトとして符号化し、重ね合わせて表示したり、ユーザーがオブジェクトを動かしたりするアプリケーションが可能です。しかし、オブジェクト符号化は、まだ一般的ではありません。

オブジェクト符号化やBIFSによってMPEG-4システムの内容が複雑化したため、[ファイルフォーマット]は後述のPart 14として独立して規定されました。ネットワーク上での伝送はPart 8およびRFC 3640で規定されています。バイナリフォーマットであるBIFSを扱いやすくするため、XML準拠の記述形式であるExtensible MPEG-4 Textual Format in XML (XMT)がPart 11で規定されています。

MPEG-4 動画(第2部)



MPEG-1がビデオCD、MPEG-2が放送やHDTVでの利用を想定していたのに対し、MPEG-4は低ビットレートでの使用を目標に規格化されました。符号化技術は、先行するH.263を基にいくつかのツールを追加した構成となっています。H.263との主な違いは、フレーム間予測におけるBフレームの採用や、DCT係数のAC/DC予測の導入です。

このビジュアル技術は、エラー耐性技術、任意形状技術、スプライト符号化技術、顔画像の動きを符号化するフェース符号化技術、スケーラビリティ技術などを含む巨大なものでしたが、現在ではエラー耐性技術以外はほとんど使用されていません。圧縮アルゴリズムの基本原理はMPEG-1、MPEG-2、H.263などと同様で、空間変換、フレーム間予測量子化、エントロピー符号化を採用しています。

空間変換


MPEG-4では、空間変換に離散コサイン変換(DCT)が用いられます。8×8画素のブロックを単位として、原画像またはフレーム間予測の予測誤差画像のDCT係数を求め、その係数を量子化します。

フレーム間予測


フレーム間予測では、参照フレームとしてIフレーム、Pフレーム、Bフレームが利用可能です。Pフレームは時間軸で前方のフレームを1枚利用して符号化しますが、Bフレームは前方と後方の2枚のフレームを利用して符号化します。

1/4画素精度動き補償


動き補償の精度は、基本的に1/2画素精度まで利用可能です。MPEG-4 ASP(Advanced Simple Profile)では、1/4画素精度動き補償も採用されています。

AC/DC予測


空間変換で得られたDCT係数に対して、係数の最上列や最左列の係数から予測を行って情報量を削減する技術が導入されています。DC予測では、隣接するブロックのDC成分の変化量を比較して、傾きの小さい方向から現在のブロックのDC成分を予測します。AC予測では、フレーム間予測を用いずに符号化される画素ブロックについて、DCT係数行列の最上列や最左行の値について、隣接ブロックとの差分を符号化します。この予測方式は、後にH.263でも採用されました。DC予測は必ず使用する必要があり、AC予測は使用有無をヘッダで切り替えることができます。

エントロピー符号化


ハフマン符号をベースとした可変長符号化(VLC)が採用されています。

MPEG-4 音響(第3部)



MPEG-4の音響符号化技術には、MPEG-4 AACの他に、MPEG-4 CELP、TwinVQ、HVXC、HILN、TTSIなど、様々な技術が規格化されています。

AAC(先進的音響符号化)


MPEG-4第3部で採択されたAAC符号化には、以下の種類があります。

Low Complexity Advanced Audio Coding (LC-AAC)
High-Efficiency Advanced Audio Coding (HE-AAC)
Scalable Sample Rate Advanced Audio Coding (AAC-SSR)
Bit Sliced Arithmetic Coding (BSAC)
Long Term Predictor (LTP)

ALS(音響ロスレス圧縮方式)


MPEG-4 第3部サブパート11において、音響符号が劣化しないMPEG-4 ALS技術が規格化されました。

SLS(段階化ロスレス圧縮方式)


MPEG-4 第3部サブパート12において、AAC部分と補完してロスレスになる階層の複数階層で音響を符号化できるMPEG-4 SLSが規格化されました。SLS符号化された音響信号は、SLS再生機では劣化なく再生でき、AAC再生機でも再生可能です。

MPEG-4 AVC 動画(第10部)



第2部で規格範囲が広がりすぎた反省から、通常の動画像の圧縮効率を追求する方針で開発されました。第2部では使用されなかったフェース技術やスケーラブル技術は範囲外とされています。ITU-Tと共同で規格化されたもので、H.264と同じものです。H.264/AVCとも呼ばれます。詳細はH.264のページを参照してください。

MPEG-4 ファイルフォーマット (第12および14部)



マルチメディアデータをファイルに記録するには、動画像と音声のエレメンタリストリームを多重化する必要がありますが、後で再生する際に早送りや編集を容易にするために、フレーム単位でアクセスできるように、データを区分けして、アクセス用管理データを付加する方が便利です。MPEG-4では、そのためのファイルフォーマットとしてMP4ファイルフォーマットを規定しています。音声の場合には、ファイルフォーマットに格納せず、符号化データをそのまま使用することもあります。MP3がその例です。

MP4ファイルフォーマットは、AppleのQuickTimeのファイルフォーマットをベースに開発されており、さまざまな動画像や音声のエレメンタリストリームを柔軟に多重化可能です。QuickTimeファイルフォーマットで採用されているファイル構造は、汎用的なファイルフォーマットとしてISOベースメディアファイルフォーマット(Part 12)に採用されました。このPart 12からMPEG-4用のファイルフォーマットとして派生したものがMP4ファイルフォーマットです。詳細はMP4のページを参照してください。

プロファイルとレベル



ビジュアル、オーディオ共に、その規格内において、プロファイルとレベルという概念が規定されています。プロファイルとは使用できるツールを示すものであり、レベルとは使用できるパラメータの範囲を規定するものです。MPEG-4 Part 2では、シンプルプロファイル(SP)、アドバンスドシンプルプロファイル(ASP)、メインプロファイル(MP)などが規定されています。MPEG-4 AVCでは、ベースラインプロファイル、メインプロファイル、拡張プロファイルの3種類が規定されていましたが、2004年に高忠実度化規格(FRExt)が策定され、ハイプロファイル、ハイ10プロファイル、ハイ4:2:2プロファイル、ハイ4:4:4プロファイルの4種類が新たに規定されました。

歴史



1999年に規格化された直後から、動画を長時間記録する用途でデジタルカメラの一機能として使用されました。当初はファイルフォーマットが規格化されていなかったため、マイクロソフト社のASFファイルフォーマットが使用されました。近年では、第三世代携帯電話の動画フォーマットとして採用され、PDAを含めてモバイルで見る動画フォーマットの主流となっています。特にiPodやPSPがこのフォーマットに対応したことで、爆発的に普及しました。これらの動画符号化技術は、当初MPEG-4 Part 2でしたが、2000年代中盤からはMPEG-4 AVCも使用されていきました。

当初は放送や通信分野では、ライセンスの問題もあり、あまり利用されていませんでしたが、MPEG-4 AVC (H.264)が地上波デジタル放送の携帯端末向け放送(1セグメント)やBlu-ray DiscHD DVDのビデオコーデックとして承認されたことで、2020年代に至るまで幅広く応用されました。2010年代後半からは、H.265のような後継規格やAV1のような代替規格による置き換えが徐々に進行しています。

利用例



3GPP/3GPP2 動画フォーマット



第三世代携帯電話の業界団体である3GPP3GPP2は、動画コンテンツにMPEG-4を採用しています。同じファイルフォーマットをサポートした第二世代携帯電話端末も存在します。コンテナにMP4ファイルフォーマット、音声にAMRまたはAAC、映像にH.263またはMPEG-4 Part 2(のSimple Profile)を使用しています。解像度はQCIF(Sub-QCIF)などに限定されていますが、一部端末ではQVGAなども利用可能です。

DivX



2000年代前半にパソコンで動画を扱う際によく使われたDivXやXvidは、MPEG-4 Visual (Video) の技術を利用したものです。これらを利用した映像をAVIコンテナに収めたものは、一部のDVDプレーヤーやゲーム機等で再生に対応しています。

メモリーカード規格



SDメモリーカードのSD-Video規格やメモリースティックメモリースティックビデオフォーマットにMPEG-4が採用されています。SD-Video規格はASF形式、メモリースティックビデオフォーマットはMP4形式を採用しています。

脚注



関連項目



MPEG-1
MPEG-2
MPEG-7
MPEG-21
MPEG-4オーディオ
MP4
MS-MPEG4
AAC
3GPP
3GPP2
H.263
H.264

外部リンク



MPEG-4 - MPEGオフィシャルサイト

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。