音声分析合成とは？意味をやさしく解説

音声分析合成は、音声信号を分析して音響特徴量を抽出し、その特徴量に基づいて音声を再合成する一連の処理を指します。この技術は、単に音声を符号化・復号化するだけでなく、音声加工においても重要な役割を果たします。

概要

音声分析合成は、「音声→音響特徴量→音声」という信号処理の流れを包括的に捉えます。音声分析では、音声信号からピッチ、スペクトル包絡、フォルマントなどの音響特徴量が抽出されます。一方、音声合成では、これらの特徴量をもとに、元の音声に近い音声を再構成します。このプロセスは、音声符号化においてはエンコードとデコードに対応し、音声加工においては音響特徴量の操作を通じて、様々な音響効果を実現します。

ボコーダー

[音声]]分析合成システムは、一般的にボコーダー（vocoder）と呼ばれます。ボコーダーという名称は、1939年にDudleyによって発表された論文に由来し、「音声]を[[符号化(code)し、その符号から音声を再合成するシステム」という意味で用いられました。現在では、音声分析合成システムの総称として広く使われています。

音声分析合成の例

チャネルボコーダー
チャネルボコーダーは、音声を基本周波数とサブバンド強度包絡に符号化し、減算合成によって音声を再合成します。分析段階では、ピッチとスペクトルの情報が抽出され、スペクトル情報からサブバンドの強度包絡が得られます。これにより、各周波数帯域のパワーを制御し、音声のスペクトル構造を再構成します。この手法は、ソース・フィルタモデルにおける構音を反映するものとして解釈できます。

音声分析合成の手法

音声分析合成では、様々な分析手法と合成手法が用いられます。分析と合成を一体として捉えることで、以下のような独自の技術や枠組みも開発されています。

合成による分析（Analysis by Synthesis, AbS）
AbSは、合成音の評価に基づいて特徴量を抽出する手法です。まず暫定的な分析を行い、それに基づいて合成音を生成します。次に、合成音を評価し、元の音声と比較して特徴量が適切かどうかを判断します。もし不十分であれば、特徴量を更新（再分析）し、同様に合成と評価を繰り返します。このループ処理を通じて、より正確な分析結果を得ることができます。AbSは、合成器の存在を前提としており、分析と合成を一体で捉える音声分析合成の特徴を最大限に活用した手法です。AbSは分析に多くの計算コストを必要とするため、実用的なシステムでは、階層的な絞り込みや勾配法などの計算量削減のための工夫が凝らされています。

AbSを採用した例として、音声符号化におけるCELP（Code Excited Linear Prediction）が挙げられます。

歴史

音声処理の研究は古くから行われていましたが、音声の分析と合成を一体として捉えた「音声分析合成」の歴史は、Dudley (1939)の論文から始まりました。この論文では、音声を基本周波数、音量、周波数バンド強度比に分解し、必要に応じて操作し、再合成できることが示されました。

参考文献

Homer Dudley (1939). “Remaking Speech”. The Journal of the Acoustical Society of America 11 (2): 169–177.
森勢将雅「話声の合成における基盤技術」『日本音響学会誌』第75巻第7号、日本音響学会、2019年7月、387-392頁。
板倉文忠「音声分析合成の基礎技術とその音声符号化への応用」（PDF）『電子情報通信学会研資』第6巻、2006年、4-5頁。

関連項目

音声分析
音声合成
音響特徴量
音声符号化
オートエンコーダ

もう一度検索