Spectral modeling synthesis

スペクトルモデリング合成（SMS）は、音を構成する要素を詳細に分析し、それらを再合成する手法です。特に、楽音や音声の分析・合成にその効果を発揮します。この技術の核心は、音を調波成分と残余成分（非調波成分、つまりノイズ成分）という二つの主要な要素に分けてモデル化することにあります。

分析プロセス

SMSの分析段階では、まず、短時間フーリエ変換を用いて音響信号を周波数領域に変換します。この変換によって得られたスペクトルデータから、以下の二つの成分が抽出されます。

1. 調波成分:
短時間フーリエ変換の結果からピークを検出し、それらのピークが時間とともにどのように変化するかを追跡（軌跡化）します。このプロセスを通じて、各調波成分の周波数、位相、振幅が時間変化とともに抽出されます。

2. 残余成分:
全体のスペクトルから調波成分を差し引いた残りの部分が、残余成分（ノイズ成分）として抽出されます。この成分は、調波成分では捉えきれない、より複雑でランダムな音響特性を捉えます。この残余成分は、周波数ごとのノイズの強さを示すスペクトル情報として扱われます。

特徴量

抽出された各成分は、以下の特徴量として表現されます。

調波成分:
周波数、位相、振幅は時間とともに変化する値として記録されます。

残余成分:
スペクトルは時間とともに変化するノイズの周波数分布として記録されます。

合成プロセス

分析された特徴量を用いて、音響信号を再合成する段階では、以下の手法が用いられます。

1. 調波成分の合成:
加算合成と呼ばれる方法を用います。これは、各調波成分の周波数、位相、振幅に基づいて正弦波を生成し、それらを重ね合わせることで、元の音の調波成分を再現します。このプロセスは、フェーズボコーダにおける処理と類似しています。

2. 残余成分の合成:
ホワイトノイズに対して、分析によって得られた残余成分のスペクトル情報を適用する、減算合成と呼ばれる方法を用います。これにより、元の音のノイズ成分が再現されます。場合によっては、ソース・フィルタモデルを適用することで、より自然なノイズ成分の合成が可能になります。

応用

このモデルは、非常に多くの種類のオーディオ信号に適用可能です。例えば、音声信号は、声帯の振動によって生成されるゆっくりと変化する調波音と、唇や口の動きによって生成される広帯域のノイズ状の音の両方を含んでいます。同様に、楽器の音も、調波成分に加えて、音の発音時や変更時に生じるノイズ状の音を含んでいます。SMSはこれらの複雑な音響信号を効果的にモデル化し、分析と再合成を可能にします。

関連技術

SMSは、以下の技術と関連があります。

音響解析: 音響信号を分析し、その特性を抽出する分野
音響合成: 分析された音響特性に基づいて、新しい音を生成する分野
Sinusoidal modeling (調波合成モデル): 周波数が整数比の関係にある正弦波の総和として音をモデル化する手法
Composite sinusoidal model (非調波合成モデル): 任意周波数の正弦波の総和として音をモデル化する手法
音声分析合成: 音声信号の分析と合成を行う技術
ソース・フィルタモデル (音声生成モデル): 音声を、声帯を音源、声道をフィルタとしてモデル化する手法
適応フィルタ: 信号の特性に応じて自動的にフィルタ特性を調整するフィルタ
線形予測法: 過去の信号の値から未来の信号の値を予測する手法
LPC (Linear Predictive Coding): 線形予測法を応用した音声符号化技術
CELP (Code Excited Linear Prediction): 線形予測法とコードブック探索を用いた音声符号化技術
フェーズボコーダ: 短時間フーリエ変換を基にした、音声の時間伸縮やピッチ変換に使われる技術

外部リンク

SPEAR: Sinusoidal Partial Editing Analysis and Resynthesis - McAulay-Quatieriアルゴリズムに基づく正弦波モデリングによる分析/再合成プログラムです。

この手法は、音響信号の深い理解と精密な操作を可能にし、音楽制作、音声処理、オーディオ分析など、多岐にわたる分野での応用が期待されています。

もう一度検索