音響信号処理:音の世界を操る技術
音響信号処理、あるいは
音声信号処理とは、
音そのもの、もしくは
音を表現する信号を
デジタルまたは
アナログで処理する
技術です。我々が耳で聴く
音を扱うため、処理における最大の関心事は、信号のどの部分が
人間の耳に聞こえるか、つまり可聴域を数学的に分析することです。信号を変換する際にも、可聴域への影響を綿密に制御することが求められます。
しかし、
音の聞こえ方は
人間の生理的な
聴覚器官だけでは決まりません。
心理学的な要素も大きく影響します。この心理的な側面を研究する分野は
音響
心理学と呼ばれています。
歴史:ラジオ放送からデジタル時代へ
音響信号処理の歴史は古く、初期のラジオ放送において必須の
技術でした。当時はスタジオから送信機への信号伝送に多くの課題があり、その克服に
音響信号処理が貢献しました。
音響信号の表現には、
アナログと
デジタルの2つの形態があります。
アナログ信号は、電気信号の
電圧レベルで
音波の
波形を表現します。一方、
デジタル信号は
音波の
波形を、通常は2進数の記号列で表します。
デジタル信号は
デジタル信号処理という強力な
技術を用いることができます。
本来連続的な
アナログ信号を
デジタル信号に変換するには、
標本化と
量子化というプロセスが必要です。この変換によって情報の損失は避けられませんが、
デジタル信号処理は
アナログ信号処理よりはるかに強力で効率的であるため、現代の
音響システムはほとんどが
デジタル化されています。高速フーリエ変換などの手法を用いて、信号の周波数成分を分析することも可能です。
信号モデル:連続と離散
デジタル音声信号は、連続時間モデルと離散時間モデルのいずれかで表現され、処理されます。例えば、t秒後の信号値xtを予測するタスクを考えます。連続モデルでは、xt∈[−1,1] の範囲でスカラー値を予測する回帰問題として扱われ、例えばxt=0.5432といった値が予測されます。この値から四捨五入などによりビット値が決定されます。
一方、離散モデルでは、xt∈{0,1,...,2¹⁶−1} のような離散値を予測する16ビットの分類問題として扱われます。この場合、確率分布p(xt)=(0.1,0.2,...,0.05)などが予測され、そこからサンプリングによって値が決定されます。
線形予測符号は連続モデルの代表的な例です。
応用分野:広がる音響技術
音響信号処理は、様々な分野に応用されています。
音響機器、
ダイナミックレンジ圧縮、
音声圧縮、伝送通信、そして
音質の改良(イコライザー、
音響フィルタ、ノイズキャンセリング、残響の追加・除去など)など、その応用範囲は多岐に渡ります。
音声放送:音響処理の最前線
音響信号処理の最も重要な応用分野の1つは、
テレビの
音声を含む
音声放送です。かつては送信直前に信号処理が行われることが多かったですが、近年はスタジオ録
音時からの
デジタル処理が一般的になりつつあります。
音声放送では、過変調の防止、ラウドネスの最大化、送信機の非線形特性の補償などが重要な処理課題です。特に
中波・
短波放送では、送信機の非線形特性補償が重要となります。
ダイナミックレンジ制御とは、
音響信号の
ダイナミックレンジ(
音の強弱の範囲)を縮小したり拡大したりする処理です。これは自動利得制御を基本原理とし、
コンパンディングと同様の処理を行います。
エフェクターではダイナミクス系と呼ばれ、様々な呼び名があります(コンプレッサー、リミッター、エクスパンダーなど)。
この処理は、閾値、レシオ、ゲイン、アタック時間、リリース時間といったパラメータによって制御されます。閾値を超えた信号にレシオを適用し、ゲインで
音量を調整します。アタック時間とリリース時間は、レシオの適用と解除の速度を制御します。
リミッターはレシオを無限大にすることで閾値以上の信号を制限し、回路保護に利用されます。ノイズゲートは閾値以下の信号をカットし、ノイズを低減します。
ダイナミックレンジ制御は、信号に非線形変換を施すため、周波数特性に影響を与え、
音の歪みを生じさせます。この歪みを積極的に利用して
音作りを行うこともあります。