ゲート付き回帰型ユニット(GRU)とは
ゲート付き回帰型ユニット(GRU)は、2014年にKyunghyun Choらによって提案された、
回帰型ニューラルネットワーク(RNN)内で使われる特殊な構造です。GRUは、その設計において、
長・短期記憶(LSTM)に似た特徴を持ちながらも、いくつかの重要な違いを有しています。その目的は、情報を効率的に学習し、長期的な依存関係を保持する能力です。
LSTMとの比較
GRUは、LSTMに似ている点として、情報の忘却や保持に関するゲートを使用 करतेいる点がありますが、LSTMに比べてパラメータ数が少なく、よりシンプルな設計になっています。LSTMは、忘却ゲートの他に出力ゲートも持つため、計算量が増えがちです。一方、GRUは出力ゲートを持たないため、計算効率が向上します。この性質は、小規模なデータセットでGRUが優れたパフォーマンスを示す理由の一つとされています。
しかしながら、研究者たちにより明らかにされたことの一つに、LSTMは無制限のカウント能力を持っており、GRUはそれが難しいため、LSTMが「厳密に強力」とされる点があります。これは、GRUが簡単な言語構造の学習に失敗する要因でもあります。さらに、Google Brainの研究によって、LSTMがニューラル機械翻訳のタスクにおいてGRUを上回る性能を示すことも報告されています。
GRUの基本構造
GRUは、主に2つのゲート、つまり更新ゲートと初期化ゲートを使用して動作します。更新ゲートは、どの情報を保持するかを決定し、初期化ゲートは、新しい情報を反映させるための準備を行います。これにより、GRUは時間的な依存性を管理しつつ、よりコンパクトな隠れ状態の表現を提供します。
GRUの隠れ状態は、次の数式によって更新されます。ここで、$h_t$は時刻$t$における隠れ状態、$z$は更新ゲート、$r$は初期化ゲート、$x_t$は入力ベクトルを示します。
$$
h_t = (1-z) imes h_{t-1} + z imes f(x_t + r imes h_{t-1})
$$
この式の中で、$z$が1であれば従来の隠れ状態がそのまま保持され、$z$が0であれば、入力と隠れ状態の非線形変換を基に新たな隠れ状態が計算されることになります。初期化ゲート$r$の影響によって、どの情報が重要かが選別されるため、GRUは効果的に入力のフィルタリングを行います。
多様なアーキテクチャ
GRUには様々なバリエーションがあります。完全ゲート付きユニットや最小ゲート付きユニットなどが例であり、それぞれ異なる方法でゲーティングを行います。完全ゲート付きユニットは、以前の隠れ状態とバイアスを用いてゲートを計算し、初期値として$h_0 = 0$を持ちます。一方、最小ゲート付きユニットは、更新ゲートと初期化ゲートが統合されている点が特徴です。
結論
GRUは、シンプルながら強力なツールとして、特に小さなデータセットにおいて優れた性能を発揮します。ただし、LSTMと比べた場合の制約や限界も存在します。現在でも、GRUは多くの実世界のアプリケーションにおいて使用されており、ニューラルネットワークアルゴリズムの進化に寄与し続けています。