線形予測符号化(LPC)
線形予測符号化(Linear Predictive Coding、LPC)は、音
声信号処理や
音響信号処理において広く用いられる信号符号化技術です。この手法は、過去の信号データの線形結合を用いて、現在の信号値を予測し、その予測誤差(残差)を符号化することで、元の信号を効率的に表現します。音
声の分析、圧縮、合成、そしてデジタル通信など、様々な応用が可能です。
LPC の仕組み
LPC の基本的な考え方は、ある時点 t の信号値 s
t を、その直前の p 個の信号値 s
t-1, s
t-2, ..., s
t-p の線形結合で予測することです。この予測には、予測係数 a
1, a
2, ..., a
p が用いられます。予測値と実際の信号値の差が、予測残差 ε
t となります。
数式で表すと以下のようになります。
`s
t = ε
t - Σ
pi=1 a
is
t-i`
ここで、ε
t は予測誤差、a
i は予測係数です。p は予測次数と呼ばれ、予測に用いる過去の信号値の数です。
音
声信号などの多くの時系列データは、ある程度の時間区間内では定常性を示す傾向があります。この性質を利用して、一定時間区間の信号をまとめて処理します。この区間はフレームと呼ばれます。フレーム内の信号をLPCで符号化すると、p 個の予測係数と N 個の予測残差が得られます。N はフレーム内のサンプル数です。
予測残差は、元の信号に比べて振幅が小さく、データ量を削減できます。この残差信号に対して、様々な圧縮符号化技術を適用することで、信号の効率的な伝送や保存を実現します。例えば、
エントロピー符号化を用いた
可逆圧縮や、
量子化を用いた非
可逆圧縮などが挙げられます。
LPC の解釈:ソース・フィルタモデル
LPC の動作メカニズムを解釈するモデルとして、ソース・フィルタモデルが知られています。このモデルでは、予測残差を音
声生成の励起信号(ソース)、予測係数を
声道特性を表すフィルタ(フィルタ)と見なします。
声帯からの励起信号が
声道を通過することで、音
声信号が生成されるという人間の音
声生成モデルと対応しています。
LPC の歴史
線形予測の基礎となる数学理論は、1940年代のノイバート・ウィーナーの研究にまで遡ります。音
声信号への適用は、1960年代後半に齋藤收三・板倉文忠(日本電電公社)、Bishnu S. Atal・Manfred R. Schroeder(ベル研究所)、John Burgらによって独立に研究されました。その後、様々な改良が加えられ、現在では音
声圧縮技術の基盤となっています。特に、Atal と Schroeder の適応的線形予測の研究は、後のMP3などの
知覚符号化技術にも影響を与えました。
係数表現
LPC の予測係数は、数学的に等価な別の表現形式に変換できます。代表的なものに、
線スペクトル対 (Line Spectral Pairs, LSP) があります。これらの異なる表現形式は、それぞれの利点(ノイズ耐性、計算効率など)を持つため、用途に応じて使い分けられます。特にLSP表現は、予測器の安定性を保証し、伝送誤りに対して強いことから広く利用されています。
LPC の応用
LPC は、音
声符号化、音
声合成、音
声認識など、音
声処理の様々な分野で応用されています。具体例としては、
GSM などの携帯電話の音
声圧縮、VoIP (Voice over IP) 技術、電子音楽におけるボコーダ、音
声暗号化、ロスレス音
声圧縮コーデックなどがあります。また、楽器の音色分析にも活用されています。
予測符号化
LPC は、予測符号化というより広い枠組みの一種です。予測符号化は、過去のデータに基づいて現在の値を予測し、その予測誤差を符号化することで、データ量を削減する手法です。LPC は、予測モデルとして線形モデルを用いた予測符号化の一例です。
まとめ
LPC は、音
声信号処理において重要な役割を果たす技術です。その効率的な符号化能力、音
声生成モデルとの親和性、そして様々な係数表現の柔軟性から、今後も様々な応用が期待されます。