音声強調とは
音
声強調(Speech Enhancement)は、音
声信号処理の一分野であり、音
声の特定の成分を相対的に強調することで、その質を改善する技術です。具体的には、音
声の
明瞭度や
音質の向上を目的としています。特に、雑音を抑制し
SN比(信号対雑音比)を改善する技術は非常に重要で、
携帯電話、
VoIP、電話会議などの
通信分野や、音
声認識、補聴器など、幅広い分野で利用されています。
概要
日常生活において、ハンズフリー通話や屋外での
携帯電話の使用など、騒がしい環境下で音
声アプリケーションを利用する機会が増えています。このような環境では、雑音や反響によって音
声信号が歪んでしまうことがあります。音
声強調技術を用いることで、これらの歪んだ音
声信号の
明瞭度を向上させ、聞き手の疲労を軽減することが期待できます。
また、
携帯電話や
衛星電話などで利用される低
ビットレートの音
声符号化や、音
声認識処理では、音
声信号を何らかのモデルに当てはめてパラメータ化します。雑音が含まれていると、このパラメータ化がうまくいかず、音
声符号化では
音質の劣化、音
声認識では認識率の低下につながります。このような問題を解決するためにも、音
声強調技術は非常に重要な役割を果たしています。
音
声強調の基本的な考え方は、音
声と雑音などの非音
声成分との統計的な性質の違いを利用することです。さまざまなアルゴリズムを用いて、信号に含まれる本来の音
声や雑音を推定し、雑音を抑制します。
ただし、音
声成分や雑音成分の推定は一般的に難しく、その性質は時間経過や使用環境によって大きく変化します。そのため、音
声強調アルゴリズムは実際の使用環境での評価が不可欠です。また、音
声の評価方法も多岐にわたり、アプリケーションや目的に応じて適切な指標を選択する必要があります。
一般的に、音
声の
音質と
明瞭度を両立させることは難しく、例えば、雑音が多い周波数帯域をフィルターでカットすると、
明瞭度は向上しますが、
音質は悪化する傾向があります。
音声強調の主な手法
音
声強調に用いられる雑音抑制の手法は、大きく分けて以下の2つに分類できます。
1.
単一チャンネル手法: 1つの入力信号のみを使用する方法。
2.
マルチチャンネル手法: 複数の
マイクロフォンなどを使用する方法。
単一チャンネル手法
フィルタリングによる雑音抑制
スペクトルサブトラクション法:雑音のパワー
スペクトルの平均値を推定し、入力信号のパワー
スペクトルから差し引くことで雑音を低減します。
ウィーナーフィルタリング法:
ウィーナーフィルターを用いて、音
声と雑音の平均二乗誤差を最小化するよう、雑音を抑制します。
信号部分空間法 (SSA):入力信号を信号空間と雑音空間に分離し、雑音空間を削除することで雑音を抑制します。
スペクトル復元による雑音抑制
MMSE-STSA法:音
声信号の短時間
振幅スペクトルの平均二乗誤差を最小化することで雑音を抑制します。
音声モデルベースの雑音抑制:音
声の特性をモデル化し、他の方法と組み合わせて雑音を抑制します。
マルチチャンネル手法
マイクロフォンアレー:複数の
マイクロフォンからの信号を用いて、ビームフォーミングやブラインド信号分離などを用いて雑音を抑制します。
歴史
音
声信号の雑音や歪みを抑制する技術は、1960年代から研究が開始されており、M.R.Schroederがアナログ技術を用いた雑音抑制の特許を取得しています。この技術には、現在の
スペクトルサブトラクション法に繋がる考え方が含まれていました。その後、
デジタル信号処理の発展に伴い、1979年にはデジタル処理による
スペクトルサブトラクション法が再発明されました。また、同じ年にJae LimとAlan Oppenheimによって、既存の雑音抑制手法が体系的にまとめられ、音
声強調の研究分野が注目を集めるきっかけとなりました。1984年にはMMSE-STSA法などの主要な手法が発表され、コンピュータの小型化・高性能化に伴い、
携帯電話、電話会議システム、DSP内蔵の補聴器など、多くの機器で音
声強調技術が利用されるようになりました。
詳細な手法の説明
以下に、代表的な音
声強調の手法について、さらに詳しく解説します。
フィルタリングによる雑音抑制
最も古典的な手法であり、フィルターを用いて雑音成分を取り除く方法です。入力信号`x(t)`が元の音
声信号`s(t)`と雑音信号`n(t)`の和で表される「加法性雑音」の場合、以下の式で表すことができます。
x(t) = s(t) + n(t)
周波数領域では、各信号の
スペクトルは以下のようになります。
X(ω) = S(ω) + N(ω)
フィルタリングによる雑音抑制では、入力信号にゲイン関数`G(ω)`を適用し、元の音
声信号の
スペクトル`Ŝ(ω)`を以下のように復元します。
Ŝ(ω) = G(ω)X(ω)
雑音のパワー
スペクトルの平均値を推定し、入力信号のパワー
スペクトルから差し引くことで雑音を低減します。この手法は、1979年にBollによって発表されました。
復元された音
声信号の
スペクトルを`Ŝ(ω)`、雑音の推定
スペクトルを`Ñ(ω)`としたとき、以下の式を用いて元の音
声信号のパワー
スペクトルを求めます。
^2
振幅スペクトルを用いる場合は、以下の式で求めます。
実際の信号では、
振幅だけでなく
位相も復元する必要がありますが、人間の
聴覚は
位相にそれほど敏感ではないため、入力信号の
位相をそのまま利用します。
ゲイン関数`G(ω)`は、パワー
スペクトル、
振幅スペクトルの場合についてそれぞれ以下のようになります。
G(ω) = √(1 - (|Ñ(ω)|^2 / |X(ω)|^2))
G(ω) = (1 - (|Ñ(ω)| / |X(ω)|))
この手法は、処理が比較的単純であるため広く用いられていますが、ミュージカルノイズと呼ばれるトーン性の雑音が発生しやすいという問題点があります。
ウィーナーフィルターを使用して雑音抑制を行う方法です。音
声と雑音の相関がないという前提で、平均二乗誤差を最小化する線形フィルターを形成します。
周波数領域でのゲイン関数`G(ω)`は以下のようになります。
G(ω) = |Ŝ(ω)|^2 / (|Ŝ(ω)|^2 + |Ñ(ω)|^2)
推定した
SN比`ξ(ω)`を用いると、以下のようになります。
G(ω) = ξ(ω) / (1 + ξ(ω))
ここで、`ξ(ω)`は以下の式で表されます。
ξ(ω) = |Ŝ(ω)|^2 / |Ñ(ω)|^2
ウィーナーフィルターは、
スペクトルサブトラクション法と比較してミュージカルノイズが発生しにくいですが、雑音抑制の効果が大きくなると元の音
声成分も抑制され、
明瞭度や
音質が低下する可能性があります。
信号部分空間法 (SSA)
信号を音
声と雑音の空間に分離し、雑音空間の成分を削除することで雑音を抑制します。カルーネン・レーヴェ変換を用いて、信号空間へのマッピングを行います。この手法は、1995年にEphraimとVan Treesによって発表されました。
ベイズ推定などの推定理論を用いて、本来の信号
スペクトルを推定し復元します。
MMSE-STSA法
音
声信号の短時間
振幅スペクトルの平均二乗誤差を最小化する手法です。1984年にEphraimとMalahによって発表されました。
この手法では、入力信号の
振幅スペクトルと雑音推定
スペクトルの平均値から
SN比を推定し、平均二乗誤差を最小にするような短時間
振幅スペクトルを復元します。
位相は入力信号のものをそのまま利用します。
音声モデルベースの雑音抑制
音
声の特性をモデル化し、他の方法と組み合わせて雑音を抑制します。具体的には、調波モデル、線形予測モデル、
隠れマルコフモデルなどが用いられます。
複数の
マイクロフォンからの信号を用いて、より効果的な雑音抑制を行います。具体的には、ビームフォーミングやブラインド信号分離などの手法が用いられます。
まとめ
音
声強調は、雑音環境下での音
声の
明瞭度や
音質を向上させる重要な技術です。さまざまな手法が存在しますが、それぞれに特徴や利点、欠点があります。用途や環境に合わせて適切な手法を選択することが重要です。
これらの手法は、日々進化を続けており、より高品質な音
声コミュニケーションを可能にするための研究が進められています。