Spectral modeling synthesis

スペクトルモデリング合成(SMS)は、を構成する要素を詳細に分析し、それらを再合成する手法です。特に、楽音声の分析・合成にその効果を発揮します。この技術の核心は、を調波成分と残余成分(非調波成分、つまりノイズ成分)という二つの主要な要素に分けてモデル化することにあります。

分析プロセス



SMSの分析段階では、まず、短時間フーリエ変換を用いて響信号を周波数領域に変換します。この変換によって得られたスペクトルデータから、以下の二つの成分が抽出されます。

1. 調波成分:
短時間フーリエ変換の結果からピークを検出し、それらのピークが時間とともにどのように変化するかを追跡(軌跡化)します。このプロセスを通じて、各調波成分の周波数、位相、振幅が時間変化とともに抽出されます。

2. 残余成分:
全体のスペクトルから調波成分を差し引いた残りの部分が、残余成分(ノイズ成分)として抽出されます。この成分は、調波成分では捉えきれない、より複雑でランダムな響特性を捉えます。この残余成分は、周波数ごとのノイズの強さを示すスペクトル情報として扱われます。

特徴量



抽出された各成分は、以下の特徴量として表現されます。

調波成分:
周波数、位相、振幅は時間とともに変化する値として記録されます。

残余成分:
スペクトルは時間とともに変化するノイズの周波数分布として記録されます。

合成プロセス



分析された特徴量を用いて、響信号を再合成する段階では、以下の手法が用いられます。

1. 調波成分の合成:
加算合成と呼ばれる方法を用います。これは、各調波成分の周波数、位相、振幅に基づいて正弦波を生成し、それらを重ね合わせることで、元のの調波成分を再現します。このプロセスは、フェーズボコーダにおける処理と類似しています。

2. 残余成分の合成:
ホワイトノイズに対して、分析によって得られた残余成分のスペクトル情報を適用する、減算合成と呼ばれる方法を用います。これにより、元のノイズ成分が再現されます。場合によっては、ソース・フィルタモデルを適用することで、より自然なノイズ成分の合成が可能になります。

応用



このモデルは、非常に多くの種類のオーディオ信号に適用可能です。例えば、声信号は、声帯の振動によって生成されるゆっくりと変化する調波と、唇や口の動きによって生成される広帯域のノイズ状のの両方を含んでいます。同様に、楽器のも、調波成分に加えて、の発時や変更時に生じるノイズ状のを含んでいます。SMSはこれらの複雑な響信号を効果的にモデル化し、分析と再合成を可能にします。

関連技術



SMSは、以下の技術と関連があります。

響解析: 響信号を分析し、その特性を抽出する分野
響合成: 分析された響特性に基づいて、新しいを生成する分野
Sinusoidal modeling (調波合成モデル): 周波数が整数比の関係にある正弦波の総和としてをモデル化する手法
Composite sinusoidal model (非調波合成モデル): 任意周波数の正弦波の総和としてをモデル化する手法
声分析合成: 声信号の分析と合成を行う技術
ソース・フィルタモデル (声生成モデル): 声を、声帯源、声道をフィルタとしてモデル化する手法
適応フィルタ: 信号の特性に応じて自動的にフィルタ特性を調整するフィルタ
線形予測法: 過去の信号の値から未来の信号の値を予測する手法
LPC (Linear Predictive Coding): 線形予測法を応用した声符号化技術
CELP (Code Excited Linear Prediction): 線形予測法とコードブック探索を用いた声符号化技術
フェーズボコーダ: 短時間フーリエ変換を基にした、声の時間伸縮やピッチ変換に使われる技術

外部リンク



SPEAR: Sinusoidal Partial Editing Analysis and Resynthesis - McAulay-Quatieriアルゴリズムに基づく正弦波モデリングによる分析/再合成プログラムです。

この手法は、響信号の深い理解と精密な操作を可能にし、楽制作、声処理、オーディオ分析など、多岐にわたる分野での応用が期待されています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。