音声強調

強調とは



強調(Speech Enhancement)は、音信号処理の一分野であり、音の特定の成分を相対的に強調することで、その質を改善する技術です。具体的には、音明瞭度音質の向上を目的としています。特に、雑音を抑制しSN比(信号対雑音比)を改善する技術は非常に重要で、携帯電話VoIP、電話会議などの通信分野や、音認識、補聴器など、幅広い分野で利用されています。

概要



日常生活において、ハンズフリー通話や屋外での携帯電話の使用など、騒がしい環境下で音アプリケーションを利用する機会が増えています。このような環境では、雑音や反響によって音信号が歪んでしまうことがあります。音強調技術を用いることで、これらの歪んだ音信号の明瞭度を向上させ、聞き手の疲労を軽減することが期待できます。

また、携帯電話衛星電話などで利用される低ビットレートの音符号化や、音認識処理では、音信号を何らかのモデルに当てはめてパラメータ化します。雑音が含まれていると、このパラメータ化がうまくいかず、音符号化では音質の劣化、音認識では認識率の低下につながります。このような問題を解決するためにも、音強調技術は非常に重要な役割を果たしています。

強調の基本的な考え方は、音と雑音などの非音成分との統計的な性質の違いを利用することです。さまざまなアルゴリズムを用いて、信号に含まれる本来の音や雑音を推定し、雑音を抑制します。

ただし、音成分や雑音成分の推定は一般的に難しく、その性質は時間経過や使用環境によって大きく変化します。そのため、音強調アルゴリズムは実際の使用環境での評価が不可欠です。また、音の評価方法も多岐にわたり、アプリケーションや目的に応じて適切な指標を選択する必要があります。

一般的に、音音質明瞭度を両立させることは難しく、例えば、雑音が多い周波数帯域をフィルターでカットすると、明瞭度は向上しますが、音質は悪化する傾向があります。

強調の主な手法



強調に用いられる雑音抑制の手法は、大きく分けて以下の2つに分類できます。

1. 単一チャンネル手法: 1つの入力信号のみを使用する方法。
2. マルチチャンネル手法: 複数のマイクロフォンなどを使用する方法。

単一チャンネル手法


フィルタリングによる雑音抑制
スペクトルサブトラクション法:雑音のパワースペクトルの平均値を推定し、入力信号のパワースペクトルから差し引くことで雑音を低減します。
ウィーナーフィルタリング法ウィーナーフィルターを用いて、音と雑音の平均二乗誤差を最小化するよう、雑音を抑制します。
信号部分空間法 (SSA):入力信号を信号空間と雑音空間に分離し、雑音空間を削除することで雑音を抑制します。
スペクトル復元による雑音抑制
MMSE-STSA法:音信号の短時間振幅スペクトルの平均二乗誤差を最小化することで雑音を抑制します。
モデルベースの雑音抑制:音の特性をモデル化し、他の方法と組み合わせて雑音を抑制します。

マルチチャンネル手法


マイクロフォンアレー:複数のマイクロフォンからの信号を用いて、ビームフォーミングやブラインド信号分離などを用いて雑音を抑制します。

歴史



信号の雑音や歪みを抑制する技術は、1960年代から研究が開始されており、M.R.Schroederがアナログ技術を用いた雑音抑制の特許を取得しています。この技術には、現在のスペクトルサブトラクション法に繋がる考え方が含まれていました。その後、デジタル信号処理の発展に伴い、1979年にはデジタル処理によるスペクトルサブトラクション法が再発明されました。また、同じ年にJae LimとAlan Oppenheimによって、既存の雑音抑制手法が体系的にまとめられ、音強調の研究分野が注目を集めるきっかけとなりました。1984年にはMMSE-STSA法などの主要な手法が発表され、コンピュータの小型化・高性能化に伴い、携帯電話、電話会議システム、DSP内蔵の補聴器など、多くの機器で音強調技術が利用されるようになりました。

詳細な手法の説明



以下に、代表的な音強調の手法について、さらに詳しく解説します。

フィルタリングによる雑音抑制


最も古典的な手法であり、フィルターを用いて雑音成分を取り除く方法です。入力信号`x(t)`が元の音信号`s(t)`と雑音信号`n(t)`の和で表される「加法性雑音」の場合、以下の式で表すことができます。


x(t) = s(t) + n(t)


周波数領域では、各信号のスペクトルは以下のようになります。


X(ω) = S(ω) + N(ω)


フィルタリングによる雑音抑制では、入力信号にゲイン関数`G(ω)`を適用し、元の音信号のスペクトル`Ŝ(ω)`を以下のように復元します。


Ŝ(ω) = G(ω)X(ω)


スペクトルサブトラクション法


雑音のパワースペクトルの平均値を推定し、入力信号のパワースペクトルから差し引くことで雑音を低減します。この手法は、1979年にBollによって発表されました。

復元された音信号のスペクトルを`Ŝ(ω)`、雑音の推定スペクトルを`Ñ(ω)`としたとき、以下の式を用いて元の音信号のパワースペクトルを求めます。


Ŝ(ω)^2 = X(ω)^2 - Ñ(ω)
^2


振幅スペクトルを用いる場合は、以下の式で求めます。


Ŝ(ω) = X(ω) - Ñ(ω)


実際の信号では、振幅だけでなく位相も復元する必要がありますが、人間の聴覚位相にそれほど敏感ではないため、入力信号の位相をそのまま利用します。

ゲイン関数`G(ω)`は、パワースペクトル振幅スペクトルの場合についてそれぞれ以下のようになります。


G(ω) = √(1 - (|Ñ(ω)|^2 / |X(ω)|^2))



G(ω) = (1 - (|Ñ(ω)| / |X(ω)|))


この手法は、処理が比較的単純であるため広く用いられていますが、ミュージカルノイズと呼ばれるトーン性の雑音が発生しやすいという問題点があります。

ウィーナーフィルタリング法


ウィーナーフィルターを使用して雑音抑制を行う方法です。音と雑音の相関がないという前提で、平均二乗誤差を最小化する線形フィルターを形成します。

周波数領域でのゲイン関数`G(ω)`は以下のようになります。


G(ω) = |Ŝ(ω)|^2 / (|Ŝ(ω)|^2 + |Ñ(ω)|^2)


推定したSN比`ξ(ω)`を用いると、以下のようになります。


G(ω) = ξ(ω) / (1 + ξ(ω))


ここで、`ξ(ω)`は以下の式で表されます。


ξ(ω) = |Ŝ(ω)|^2 / |Ñ(ω)|^2


ウィーナーフィルターは、スペクトルサブトラクション法と比較してミュージカルノイズが発生しにくいですが、雑音抑制の効果が大きくなると元の音成分も抑制され、明瞭度音質が低下する可能性があります。

信号部分空間法 (SSA)


信号を音と雑音の空間に分離し、雑音空間の成分を削除することで雑音を抑制します。カルーネン・レーヴェ変換を用いて、信号空間へのマッピングを行います。この手法は、1995年にEphraimとVan Treesによって発表されました。

スペクトル復元による雑音抑制


ベイズ推定などの推定理論を用いて、本来の信号スペクトルを推定し復元します。

MMSE-STSA法


信号の短時間振幅スペクトルの平均二乗誤差を最小化する手法です。1984年にEphraimとMalahによって発表されました。

この手法では、入力信号の振幅スペクトルと雑音推定スペクトルの平均値からSN比を推定し、平均二乗誤差を最小にするような短時間振幅スペクトルを復元します。位相は入力信号のものをそのまま利用します。

モデルベースの雑音抑制


の特性をモデル化し、他の方法と組み合わせて雑音を抑制します。具体的には、調波モデル、線形予測モデル、隠れマルコフモデルなどが用いられます。

マルチチャネル(マイクロフォンアレー)


複数のマイクロフォンからの信号を用いて、より効果的な雑音抑制を行います。具体的には、ビームフォーミングやブラインド信号分離などの手法が用いられます。

まとめ



強調は、雑音環境下での音明瞭度音質を向上させる重要な技術です。さまざまな手法が存在しますが、それぞれに特徴や利点、欠点があります。用途や環境に合わせて適切な手法を選択することが重要です。

これらの手法は、日々進化を続けており、より高品質な音コミュニケーションを可能にするための研究が進められています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。