音
声符号化とは、
アナログの音
声信号を
デジタルデータに変換し、そのデータ量を圧縮する技術です。
MP3などの一般的なオーディオ圧縮技術とは異なり、音
声の特性をモデル化することで、より高い圧縮率を実現します。音楽などの圧縮では人間の
聴覚特性とデータの冗長性を用いて不要な情報を削除しますが、音
声符号化では音
声特有のモデルを用いることで、さらに
ビットレートを削減できます。
音声符号化の応用分野
音
声符号化技術は、私たちの生活の様々な場面で使われています。
通信: 携帯電話、衛星電話、VoIPなど、音声通信の分野では欠かせない技術です。
セキュリティ: 音
声データの暗号化にも利用されます。
放送: ラジオやテレビ放送での音声データの圧縮に用いられています。
記録:
Blu-ray Discなどの記録メディアにも活用されています。
音声処理: 音声応答システムなど、音声処理技術の基盤となっています。
音声のモデル化
音声符号化では、人間の言葉を物理的なモデルとして捉えます。声帯からの音の特性、有声音・無声音の区別、咽喉や口腔、鼻腔、舌、唇などの調音器官(声道)の共鳴による周波数選択特性などをモデル化することで、音声波形を効率的に表現できるようになります。音声波形は非常に速い振動成分を含みますが、調音器官の動きは比較的ゆっくりしているため、適切なパラメータ化によって必要なデータ量を大幅に減らすことができます。
音声符号化の種類
音声符号化アルゴリズムは、大きく以下の3種類に分類されます。
1. 波形符号化: 音声固有のモデル化を行わず、音声波形を忠実に符号化する手法です。音質は高いですが、圧縮率は低くなります。PCM、ADPCM、デルタ変調などが代表的な手法です。
2. ハイブリッド符号化: 波形符号化と分析合成符号化を組み合わせた手法です。音声のモデル化を行うことで圧縮率を高めつつ、良好な音質を実現します。CELPなどが代表的なアルゴリズムです。
3. 分析合成符号化(ボコーダー): 音声をモデル化し、パラメータ化することで圧縮率を高めます。音質の再現よりも、聴感上の自然さを重視する手法です。LPC、Multi-Band Excitation、Sinusoidal Codingなどが代表的な手法です。
波形符号化の詳細
波形符号化は、時間領域と周波数領域の2つの手法に分けられます。
時間領域符号化: PCM、ADPCM、デルタ変調などが代表的な手法です。圧縮率は低いものの、シンプルで遅延も少ないため、電話回線などに使われています。
*
周波数領域符号化: 音
声信号を
周波数領域に変換し、人間の
聴覚特性を利用して圧縮する手法です。変換符号化、サブバンド符号化などが代表的な手法であり、
MP3や
AACなどのオーディオ圧縮にも利用されています。
ハイブリッド符号化の詳細
ハイブリッド符号化は、分析合成符号化と同様に音
声のモデル化を行いながら、元の波形に近づけるようパラメータを決定します。CELPはその代表的な手法で、線形予測フィルターとコードブックを用いて音
声波形を合成し、元の波形との誤差を最小化することで、高圧縮率と高音質の両立を目指します。CELPをベースに、VSELP、ACELP、LD-CELPなどの派生アルゴリズムが開発されています。
分析合成符号化の詳細
分析合成符号化は、人間の
聴覚特性を考慮して音
声のパラメータを抽出・符号化し、復号時に聴感上同じ音
声に聞こえるように再合成する手法です。LPC、Multi-Band Excitation、Sinusoidal Coding、Waveform Interpolationなどが代表的な手法です。低
ビットレートでの符号化に適しており、
衛星電話や軍事用途などで利用されています。
音声符号化に関連する技術
音
声符号化技術には、ベクトル
量子化、
線スペクトル対、音
声強調などが関連技術として挙げられます。ベクトル
量子化はパラメータの圧縮に、
線スペクトル対は線形予測係数の表現に、音
声強調は雑音除去にそれぞれ用いられます。
音声符号化の歴史
音
声符号化技術の歴史は、電話の発明に遡ります。初期のボコーダーは
アナログ音
声の圧縮技術として開発されました。
デジタル信号処理技術の発展とともに、LPC、CELPなどの高性能なアルゴリズムが開発され、現在の音
声符号化技術の基礎となっています。
まとめ
音
声符号化技術は、
通信、セキュリティ、
放送、記録、音
声処理など、様々な分野で重要な役割を果たしています。今後も、より高圧縮率、高音質、低遅延なアルゴリズムの開発が期待されます。