GSM-EFR(
GSM Enhanced Full Rate)は、
GSMデジタル携帯電話システムで利用される
音声符号化方式の一つです。これは、それまで使用されていた
GSM-FR(
GSM Full Rate)の
音質を改善するために開発されました。
GSM-EFRは、12.2kbpsという
ビットレートで、有線の電話回線で使用される
G.726 32kbps ADPCMと同等の
音質を実現しています。
概要
GSM-EFRは、
GSM-FRや
GSM-HRに続く形で採用された
音声符号化方式であり、その現在の仕様はETSI 06.60(ETS 300 726)で定義されています。この技術は、
フィンランドの
電気通信機器メーカーである
ノキアと
カナダのシャーブルック大学によって開発されました。1995年に
GSM-EFR方式として採用され、最初の仕様書は1997年に発行されました。
従来の
GSMで使用されていた
GSM-FRや
GSM-HRと比較して、
GSM-EFRは
音質が大幅に向上しています。従来の符号化方式では、通信エラーがない状態でも有線電話回線以下の
音質でしたが、
GSM-EFRは、一般的な通信エラーが発生する状況や背景雑音のある環境下でも、有線電話回線と同等の
音質を維持できます。
GSM-EFRでは、符号化アルゴリズムとしてCELP(
Code Excited Linear Prediction)の一種であるACELP(Algebraic CELP)が用いられています。このアルゴリズムは、符号化に必要な演算量がハーフレート
コーデックの
GSM-HRよりも少ないという特徴があります。
GSM-EFRの特徴
入出力のサンプリング周波数は8kHz、13ビットです。
ビットレートは12.2kbps(31バイト/20msに丸められた場合、12.4kbpsとなります)。
ACELPアルゴリズムを使用しています。
フレーム長は20msです。
符号化遅延は20msです。
必要な演算量は約18
MIPSです。
12.2kbpsのAMRとの互換性があります。
GSM-EFRの符号化データをインターネット上で伝送するためのRTPを用いたデータ形式は、IETF標準のRFC 3551で定義されています。符号化データは31バイト/20msに丸められるため、VoIPなどでのビットレートは12.4kbpsとなります。
アルゴリズム
GSM-EFRでは、他の多くの携帯電話向け音声符号化方式と同様に、ACELPアルゴリズムが採用されています。このアルゴリズムは、人間の音声を声道に相当する線形予測フィルターと、声帯に相当する適応型と固定型のコードブックでモデル化するCELPを基本としています。固定型コードブックとしては、代数的に決定された位置に配置された振幅が+1または-1のパルスの組み合わせが使用されます。
この方式は、GSM-HRで使用されているVSELPなどのアルゴリズムと比較して、演算量とメモリ使用量を削減できるというメリットがあります。
GSM-EFR符号化の全体的な処理は、以下のようになります。
1. 処理の分割: 20ms長(160サンプル)のフレームを、5ms長(40サンプル)のサブフレームに分割します。
2. 入出力: サンプリング周波数は8kHzで、13ビット幅のリニアPCM、またはそれに相当する8ビットのA-law/μ-law PCMが使用されます。
3. 前処理: ハイパスフィルタを用いて、直流成分と交流ノイズを除去します。
4. 線形予測フィルター係数の計算: 入力信号から線形予測フィルターの係数(10次)を計算します。これは10ms(80サンプル)ごとに行われます。
5. 係数変換と量子化: フィルター係数を、補間特性と量子化特性に優れた線スペクトル対(LSP)に変換し、量子化します。
6. オープンループピッチ分析: 音声波形の基本周波数であるピッチ周波数をオープンループで分析し、10ms(80サンプル)ごとに推定します(適応型コードブック探索で使用)。
7. 適応型コードブック探索: 5msのサブフレームごとに、推定されたピッチ周波数を用いて適応型コードブックのピッチディレイとピッチゲインの各係数を求めます。
8. 適応型コードブックの更新: 適応型コードブックを更新します。
9. 固定型コードブック探索: 5msのサブフレームごとに入力信号との誤差が最小になるような代数コードブック値とゲインの組み合わせを探索します。
10. 代数コードブックの形式: 40サンプルからなるサブフレームを5つのトラックに分け、それぞれに2ビットの+1/-1パルスを割り当てます(全体で10ビット)。
復号は、符号化と逆の処理を行います。
1. 線形予測係数の復号: 線形予測係数を復号します。
2. 固定型コードブックの復号: 固定型コードブックの代数コードブック値とゲインを復号します。
3. 適応型コードブックの復号: 適応型コードブックのピッチディレイとピッチゲインを復号します。
4. 励起信号の生成: 固定型コードブックと適応型コードブックの復号結果から励起信号を生成します。
5. 音声信号の合成: 励起信号と線形予測フィルターから音声信号を合成します。
6. 後処理: 適応後置フィルターなどを用いて、フォルマントフィルタリングなどの後処理を行います。
符号化に必要なビット構成は以下の通りで、ビットレートは12.2kbpsになります。
[詳細なビット構成については、関連資料を参照]
脚注
参考文献
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
ETSI, EN 300 726 V8.0.1 (2000-11), Digital cellular telecommunications system (Phase 2+); Enhanced Full Rate (EFR) speech transcoding (GSM 06.60 version 8.0.1 Release 1999), ETSI, 2000.
関連項目
音声符号化
ETSI
AMR
AMR-WB
AMR-WB+
GSM-FR
GSM-HR
GSM
外部リンク
ETS 300 726 (GSM 06.60) -
GSM 06.60の仕様書
*
RFC 3551 -
GSM-EFR の RTP ペイロード形式