線スペクトル対

線スペクトル対(LSP)の概要



線スペクトル対(Line Spectral Pairs, LSP)、または線スペクトル周波数(Line Spectral Frequencies, LSF)は、音声信号の周波数特性を効率的に表現する手法です。特に、線形予測分析に基づく音声符号化において広く利用されており、携帯電話やVoIPなどの音声通信技術に欠かせない基盤技術となっています。

音声符号化では、人間の声道(声帯から口までの音響空間)をモデル化し、その周波数特性をパラメータで表現することで、音声データを圧縮して伝送します。従来、線形予測係数(LPC係数)を用いて声道モデルを表現していましたが、LPC係数は量子化誤差に非常に敏感で、小さな誤差でも音声の歪みや発振を引き起こすという問題がありました。

LSPはこの問題を解決するために開発されました。LSPは、LPC係数と等価な情報を持つものの、量子化誤差の影響を受けにくく、時間的な変化も滑らかであるため、補間が容易です。これにより、少ないビット数で高音質な音声符号化が可能になります。LSPの概念は1975年に板倉文忠氏によって発表され、その重要性から2014年にはIEEEマイルストーン賞を受賞しています。全世界の携帯電話の音声符号化において、LSPはなくてはならない技術となっています。

LSPの数学的基礎



LSPの基礎は、声道を音響管の連なりでモデル化するという点にあります。音響管の両端、すなわち声門と唇の開口部は、それぞれ反射係数で表現されます。声門が開いている状態では反射係数は1、閉じている状態では-1となり、唇の開口部は常に-1と仮定します。

このモデルを用いると、線形予測多項式A(z)を以下の形で表現できます。


A(z) = 1 - Σ_{k=1}^{p} a_k z^{-k}


ここで、a_kは線形予測係数です。この多項式は、さらに以下の2つの多項式に分解できます。


P(z) = A(z) + z^{-(p+1)} A(z^{-1})
Q(z) = A(z) - z^{-(p+1)} A(z^{-1})


P(z)は声門が閉じた状態、Q(z)は声門が開いた状態に対応します。これらの多項式をLSP多項式と呼び、その根(零点)がLSPの値となります。これらの根は、z平面上の単位円周上に交互に配置されます。このLSPの周波数(ω_i)は、0 < ω_1 < ω_2 < ... < ω_p < π の関係を満たします。この条件は、LSPを用いた音声合成フィルタが安定であるための必要十分条件でもあります。

LSP分析



線形予測係数からLSPを求めるためには、LSP多項式P(z)とQ(z)の根を求める必要があります。これは、数値計算手法、例えばニュートン・ラプソン法などを用いて行います。具体的な手順は以下の通りです。

1. 線形予測係数からLSP多項式の係数を計算する。
2. P(z)とQ(z)を(1+z⁻¹)と(1-z⁻¹)でそれぞれ除算する。
3. 除算後の多項式をx = (z + z⁻¹)/2で置き換える。
4. xを変数とする2つの多項式方程式をニュートン・ラプソン法で解く。
5. 求めた根からLSP周波数を計算する。arccos(x_i) を計算することで、LSP周波数 ω_i を得ます。

逆変換、つまりLSPから線形予測係数への変換も可能です。LSP周波数からLSP多項式P(z)とQ(z)を構成し、それらからA(z)を計算することで、線形予測係数を復元できます。

LSPの特性と利点



LSPは、以下の優れた特性を備えています。

量子化誤差に強い:少ないビット数で量子化しても、音声合成フィルタの発振などの問題が起こりにくい。
時間変化が滑らか:パラメータの補間が容易で、情報量の削減に繋がる。
安定性が保証されている:合成フィルタの安定性が理論的に保証されている。

これらの特性により、LSPはCELP(Code Excited Linear Prediction)など多くの音声符号化方式において、線形予測係数の表現方法として採用されています。

参考文献



Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007.
Wai C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley-Interscience, 2003.
Peter Kabal, Ravi P. Ramachandran. The Computation of Line Spectral Frequencies Using Chebyshev Polynomials. IEEE Trans. Acoustics, Speech, Signal Processing, vol. 34, no. 6, pp. 1419-1426, Dec. 1986.
板倉 文忠. 音声分析合成の基礎技術とその音声符号化への応用. フェロー&マスターズ未来技術時限研究専門委員会 第6回研究会資料, 電子情報通信学会. 2006.
嵯峨山 茂樹. 応用音響学: 音声分析(5) LSP分析. 東京大学 応用音響学 講義資料.

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。