知覚符号化:人間の聴覚特性を利用した音声圧縮技術
知覚符号化は、
アナログの音声信号を
デジタルデータに変換する際に、人間の聴覚特性を巧みに利用して
データ圧縮を行う技術です。
MP3や
AACといった、私たちがよく耳にする音声圧縮フォーマットの多くが、この知覚符号化技術に基づいて開発されています。
知覚符号化の原理
人間の耳は、あらゆる周波数の音を同時に感知するわけではなく、特定の周波数帯域に注目して音声を認識します。知覚符号化はこの特性に着目し、人間の耳が聞き取れない、あるいは聞き取りにくい情報を省くことで、データサイズを大幅に削減します。
具体的には、以下の聴覚心理学上の特性が利用されます。
最小可聴値: 人間の耳が感知できる最小の音の強さ。周波数によって異なり、3~4kHz付近が最も感度が高いです。この閾値以下の音は、符号化しても意味がありません。
同時マスキング: ある周波数の音が、他の周波数の音をマスキング(かき消す)する現象。強い音によって、弱い音が聞こえにくくなることを利用します。マスキングされる音は符号化から省略できます。
臨界帯域: 同時マスキング効果が起きる周波数帯域の幅。周波数によって異なり、この帯域を考慮することで、より効率的なマスキング処理が可能になります。
継時マスキング: ある音が、その前後にある音をマスキングする現象。時間的なマスキング効果も考慮することで、さらに圧縮率を高めます。
これらの特性を踏まえ、知覚符号化では、以下のステップで圧縮が行われます。
1.
周波数分析: 音声信号を周波数成分に分解します。MDCT(変形
離散コサイン変換)などの手法が用いられます。
2.
マスキング閾値の算出: 聴覚心理モデルを用いて、各周波数成分におけるマスキング閾値を計算します。
3.
量子化と符号化: マスキング閾値を下回る成分は無視し、閾値以上の成分を
量子化(離散値に変換)して符号化します。閾値を上回る成分であっても、重要度の低い成分には少ないビット数を割り当てます。
4.
エントロピー符号化: 符号化されたデータに対して、
エントロピー符号化(例:
ハフマン符号化)を適用して、さらに圧縮を行います。
知覚符号化の種類
知覚符号化には、周波数成分への変換方法によっていくつかの種類があります。
変換符号化: MDCTなどの直交変換を用いて、音声信号を複数の周波数領域の信号に変換します。MP3やAACなどで広く利用されています。
サブバンド符号化: 複数の
バンドパスフィルタを用いて、音声信号を複数の周波数帯域に分割します。MPEG-1オーディオレイヤI、IIなどで使用されています。
正弦波符号化: 音声信号を複数の正弦波の組み合わせとして表現します。特に、トーン性の強い音声(楽器の音など)の圧縮に有効です。
知覚符号化の規格
知覚符号化技術は、様々な音声圧縮規格で利用されています。代表的なものとして、以下の規格が挙げられます。
MPEGオーディオ: MP3、
AACなど。広く普及し、様々なデバイスで使用されています。
Dolbyオーディオ: Dolby Digital(AC-3)など。映画やDVDなどで利用されています。
ATRAC: ソニーが開発した規格。
*
Vorbis: Xiph.orgが開発したオープンソースの規格。
知覚符号化の利点と欠点
知覚符号化の大きな利点は、高圧縮率と高音質の両立が可能な点です。人間の耳の特性を利用することで、ファイルサイズを大幅に削減しながら、音質劣化を最小限に抑えることができます。
しかし、知覚符号化は非
可逆圧縮であるため、元の音声データと完全に同一の音声を復元することはできません。また、圧縮率を高めすぎると、音質劣化が目立つ場合があります。
まとめ
知覚符号化は、音声圧縮技術において重要な役割を果たしています。人間の聴覚特性を深く理解することで、高効率かつ高音質な音声圧縮を実現しており、現代の
デジタルオーディオ環境において不可欠な技術となっています。今後も、より高度な聴覚モデルや符号化アルゴリズムの開発が進み、さらなる高圧縮率と高音質が実現されることが期待されます。