Log Area Ratio

Log Area Ratio(LAR)とは?



Log Area Ratio(LAR、ログ面積比)は、音声符号化において線形予測係数と等価なパラメータとして用いられる手法です。音声信号の特徴である声道の周波数特性を効率的に表現するために利用されます。LARは計算が比較的単純であるため、GSM(Global System for Mobile Communications)の初期の音声コーデックであるGSM-FRなどで採用されていました。ただし、後述するように、より効率的な線スペクトル対(Line Spectral Pair, LSP)が登場した現在では、主要な音声符号化方式ではあまり使用されなくなっています。

LARの計算方法



音声の生成過程を、固定長で一定の直径を持つ音響管の並びでモデル化することを考えます。このモデルにおいて、隣り合う音響管の面積比の対数をとったものがLARです。

数式で表すと、音響管の数(線形予測の次数)をp、それぞれの音響管の面積をAiとすると、LARの各係数LARiは以下のように表現できます。


LARi = log(Ai / Ai+1) = log((1 + αi) / (1 - αi)), Ap+1 = 1


ここで、αiは線形予測係数から求めた偏自己相関係数(PARCOR係数)です。αiは直感的には各音響管の間の反射係数に対応しており、-1から+1の値をとります。

上記の式は、以下の式のように逆双曲線関数を使って簡潔に表現することも可能です。


LARi = 2 * arctanh(αi)


偏自己相関係数αiの分布には偏りがあるため、LARでは±1付近の変化に敏感な逆双曲線関数arctanhを用いることで、補間を行いやすく、量子化誤差の影響を軽減する効果があります。

LARと線形予測係数



音声信号の線形予測分析では、音声信号を過去の信号の線形結合で予測するモデルを用います。このモデルのパラメータが線形予測係数です。しかし、線形予測係数は補間が困難で、量子化誤差の影響を受けやすいという欠点があります。そこで、線形予測係数と等価な表現でありながら、より扱いやすいパラメータであるLARが用いられるのです。

LARの利点と欠点



LARの利点は計算が比較的容易である点です。特に、初期の音声符号化方式においては、計算能力の制約からこの利点が重要でした。しかし、欠点として、線スペクトル対(LSP)に比べて効率が悪いことが挙げられます。LSPはLARと比較して補間が容易で、量子化誤差の影響も少ないため、現在の音声符号化方式ではLSPが広く用いられています。

現在の音声符号化におけるLARの位置づけ



現代の音声符号化では、LARよりもLSPが主流となっています。LSPはLARと同様に線形予測係数と等価な表現ですが、より効率的で、量子化誤差の影響が少ないため、より高品質な音声符号化を実現できます。そのため、現在の音声コーデックでは、LARはほとんど使用されていません。歴史的な意義はありますが、最新の技術としては、より高度な手法に取って代わられています。

まとめ



LARは音声符号化において歴史的に重要な役割を果たしたパラメータですが、現在ではより効率的で高性能なLSPに取って代わられています。本記事ではLARの計算方法、線形予測係数との関係性、利点と欠点、そして現在の音声符号化における位置づけを解説しました。音声符号化技術の発展の歴史を知る上で、LARは重要な要素と言えるでしょう。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。