GSM-EFR

GSM-EFR(GSM Enhanced Full Rate)は、GSMデジタル携帯電話システムで利用される音声符号化方式の一つです。これは、それまで使用されていたGSM-FR(GSM Full Rate)の音質を改善するために開発されました。GSM-EFRは、12.2kbpsというビットレートで、有線の電話回線で使用されるG.726 32kbps ADPCMと同等の音質を実現しています。

概要



GSM-EFRは、GSM-FRやGSM-HRに続く形で採用された音声符号化方式であり、その現在の仕様はETSI 06.60(ETS 300 726)で定義されています。この技術は、フィンランド電気通信機器メーカーであるノキアカナダのシャーブルック大学によって開発されました。1995年にGSM-EFR方式として採用され、最初の仕様書は1997年に発行されました。

従来のGSMで使用されていたGSM-FRやGSM-HRと比較して、GSM-EFRは音質が大幅に向上しています。従来の符号化方式では、通信エラーがない状態でも有線電話回線以下の音質でしたが、GSM-EFRは、一般的な通信エラーが発生する状況や背景雑音のある環境下でも、有線電話回線と同等の音質を維持できます。

GSM-EFRでは、符号化アルゴリズムとしてCELP(Code Excited Linear Prediction)の一種であるACELP(Algebraic CELP)が用いられています。このアルゴリズムは、符号化に必要な演算量がハーフレートコーデックGSM-HRよりも少ないという特徴があります。

GSM-EFRの特徴

入出力のサンプリング周波数は8kHz、13ビットです。
ビットレートは12.2kbps(31バイト/20msに丸められた場合、12.4kbpsとなります)。
ACELPアルゴリズムを使用しています。
フレーム長は20msです。
符号化遅延は20msです。
必要な演算量は約18MIPSです。
12.2kbpsのAMRとの互換性があります。

GSM-EFRの符号化データをインターネット上で伝送するためのRTPを用いたデータ形式は、IETF標準のRFC 3551で定義されています。符号化データは31バイト/20msに丸められるため、VoIPなどでのビットレートは12.4kbpsとなります。

アルゴリズム



GSM-EFRでは、他の多くの携帯電話向け音声符号化方式と同様に、ACELPアルゴリズムが採用されています。このアルゴリズムは、人間の音声を声道に相当する線形予測フィルターと、声帯に相当する適応型と固定型のコードブックでモデル化するCELPを基本としています。固定型コードブックとしては、代数的に決定された位置に配置された振幅が+1または-1のパルスの組み合わせが使用されます。

この方式は、GSM-HRで使用されているVSELPなどのアルゴリズムと比較して、演算量とメモリ使用量を削減できるというメリットがあります。

GSM-EFR符号化の全体的な処理は、以下のようになります。

1. 処理の分割: 20ms長(160サンプル)のフレームを、5ms長(40サンプル)のサブフレームに分割します。
2. 入出力: サンプリング周波数は8kHzで、13ビット幅のリニアPCM、またはそれに相当する8ビットのA-law/μ-law PCMが使用されます。
3. 前処理: ハイパスフィルタを用いて、直流成分と交流ノイズを除去します。
4. 線形予測フィルター係数の計算: 入力信号から線形予測フィルターの係数(10次)を計算します。これは10ms(80サンプル)ごとに行われます。
5. 係数変換と量子化: フィルター係数を、補間特性と量子化特性に優れた線スペクトル対(LSP)に変換し、量子化します。
6. オープンループピッチ分析: 音声波形の基本周波数であるピッチ周波数をオープンループで分析し、10ms(80サンプル)ごとに推定します(適応型コードブック探索で使用)。
7. 適応型コードブック探索: 5msのサブフレームごとに、推定されたピッチ周波数を用いて適応型コードブックのピッチディレイとピッチゲインの各係数を求めます。
8. 適応型コードブックの更新: 適応型コードブックを更新します。
9. 固定型コードブック探索: 5msのサブフレームごとに入力信号との誤差が最小になるような代数コードブック値とゲインの組み合わせを探索します。
10. 代数コードブックの形式: 40サンプルからなるサブフレームを5つのトラックに分け、それぞれに2ビットの+1/-1パルスを割り当てます(全体で10ビット)。

復号は、符号化と逆の処理を行います。

1. 線形予測係数の復号: 線形予測係数を復号します。
2. 固定型コードブックの復号: 固定型コードブックの代数コードブック値とゲインを復号します。
3. 適応型コードブックの復号: 適応型コードブックのピッチディレイとピッチゲインを復号します。
4. 励起信号の生成: 固定型コードブックと適応型コードブックの復号結果から励起信号を生成します。
5. 音声信号の合成: 励起信号と線形予測フィルターから音声信号を合成します。
6. 後処理: 適応後置フィルターなどを用いて、フォルマントフィルタリングなどの後処理を行います。

符号化に必要なビット構成は以下の通りで、ビットレートは12.2kbpsになります。

[詳細なビット構成については、関連資料を参照]

脚注



参考文献

Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
ETSI, EN 300 726 V8.0.1 (2000-11), Digital cellular telecommunications system (Phase 2+); Enhanced Full Rate (EFR) speech transcoding (GSM 06.60 version 8.0.1 Release 1999), ETSI, 2000.

関連項目

音声符号化
ETSI
AMR
AMR-WB
AMR-WB+
GSM-FR
GSM-HR
GSM

外部リンク

ETS 300 726 (GSM 06.60) - GSM 06.60の仕様書
* RFC 3551 - GSM-EFR の RTP ペイロード形式

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。