音
声符号化とは、
アナログの音
声信号を
デジタルデータに変換し、そのデータ量を圧縮する技術です。
MP3などの一般的なオーディオ圧縮技術とは異なり、音
声の特性をモデル化することで、より高い圧縮率を実現します。音楽などの圧縮では人間の
聴覚特性とデータの冗長性を用いて不要な情報を削除しますが、音
声符号化では音
声特有のモデルを用いることで、さらに
ビットレートを削減できます。
音
声符号化技術は、私たちの生活の様々な場面で使われています。
通信:
携帯電話、
衛星電話、
VoIPなど、音
声通信の分野では欠かせない技術です。
セキュリティ: 音
声データの暗号化にも利用されます。
放送: ラジオやテレビ
放送での音
声データの圧縮に用いられています。
記録:
Blu-ray Discなどの記録メディアにも活用されています。
音声処理: 音
声応答システムなど、音
声処理技術の基盤となっています。
音声のモデル化
音
声符号化では、人間の言葉を物理的なモデルとして捉えます。
声帯からの音の特性、有
声音・無
声音の区別、咽喉や口腔、鼻腔、舌、唇などの調音器官(
声道)の共鳴による周波数選択特性などをモデル化することで、音
声波形を効率的に表現できるようになります。音
声波形は非常に速い振動成分を含みますが、調音器官の動きは比較的ゆっくりしているため、適切なパラメータ化によって必要なデータ量を大幅に減らすことができます。
音
声符号化アルゴリズムは、大きく以下の3種類に分類されます。
1.
波形符号化: 音
声固有のモデル化を行わず、音
声波形を忠実に
符号化する手法です。
音質は高いですが、圧縮率は低くなります。PCM、ADPCM、デルタ変調などが代表的な手法です。
2.
ハイブリッド符号化: 波形
符号化と分析合成
符号化を組み合わせた手法です。音
声のモデル化を行うことで圧縮率を高めつつ、良好な
音質を実現します。CELPなどが代表的なアルゴリズムです。
3.
分析合成符号化(ボコーダー): 音
声をモデル化し、パラメータ化することで圧縮率を高めます。
音質の再現よりも、聴感上の自然さを重視する手法です。LPC、Multi-Band Excitation、Sinusoidal Codingなどが代表的な手法です。
波形
符号化は、
時間領域と
周波数領域の2つの手法に分けられます。
時間領域符号化: PCM、ADPCM、デルタ変調などが代表的な手法です。圧縮率は低いものの、シンプルで遅延も少ないため、電話回線などに使われています。
*
周波数領域符号化: 音
声信号を
周波数領域に変換し、人間の
聴覚特性を利用して圧縮する手法です。変換
符号化、サブバンド
符号化などが代表的な手法であり、
MP3や
AACなどのオーディオ圧縮にも利用されています。
ハイブリッド符号化の詳細
ハイブリッド
符号化は、分析合成
符号化と同様に音
声のモデル化を行いながら、元の波形に近づけるようパラメータを決定します。CELPはその代表的な手法で、線形予測
フィルターとコードブックを用いて音
声波形を合成し、元の波形との誤差を最小化することで、高圧縮率と高
音質の両立を目指します。CELPをベースに、VSELP、ACELP、LD-CELPなどの派生アルゴリズムが開発されています。
分析合成符号化の詳細
分析合成
符号化は、人間の
聴覚特性を考慮して音
声のパラメータを抽出・
符号化し、復号時に聴感上同じ音
声に聞こえるように再合成する手法です。LPC、Multi-Band Excitation、Sinusoidal Coding、Waveform Interpolationなどが代表的な手法です。低
ビットレートでの
符号化に適しており、
衛星電話や軍事用途などで利用されています。
音
声符号化技術には、ベクトル
量子化、
線スペクトル対、音
声強調などが関連技術として挙げられます。ベクトル
量子化はパラメータの圧縮に、
線スペクトル対は線形予測係数の表現に、音
声強調は雑音除去にそれぞれ用いられます。
音
声符号化技術の歴史は、電話の発明に遡ります。初期のボコーダーは
アナログ音
声の圧縮技術として開発されました。
デジタル信号処理技術の発展とともに、LPC、CELPなどの高性能なアルゴリズムが開発され、現在の音
声符号化技術の基礎となっています。
まとめ
音
声符号化技術は、
通信、セキュリティ、
放送、記録、音
声処理など、様々な分野で重要な役割を果たしています。今後も、より高圧縮率、高
音質、低遅延なアルゴリズムの開発が期待されます。