部分観測
マルコフ決定過程(POMDP)は、
マルコフ決定過程(MDP)の拡張版で、特に状態を直接観測することができない場合の意思決定過程に関するモデルを提供します。POMDPは、実際の様々な連続的な意思決定過程の的確なモデリングが可能であり、ロボットのナビゲーションや機械の保守管理、不確実な状況下での計画などに広く利用されています。このフレームワークはオペレーションズリサーチに端を発し、その後人工知能や
自動計画の研究コミュニティにも広がりました。
定義
POMDPは、以下の6つの要素から構成される形式的な定義に基づいています。
1.
状態の集合(S): 状態の有限集合を定義します。
2.
行動の集合(A): エージェントが環境で選択できる行動の有限集合です。
3.
状態遷移確率(T): 状態と行動に基づいて次の状態がどのように遷移するのかを表す確率関数です。
4.
報酬関数(R): 各状態と行動の組みに対して、得られる報酬を定義します。
5.
観測の集合(Ω): 状態に基づいて得られる観測の集合です。
6.
観測確率(O): エージェントが行動を取った後の観測の確率を示します。
エージェントは、ある時刻において状態$s$が存在する環境で行動$a$をとり、それによって遷移後の状態$s'$が遷移確率$T(s'|s,a)$に基づいて変化します。この時点で、エージェントは観測$o$を得ることができ、その観測は$O(o|s,a)$に従います。エージェントは、環境から報酬$R(s,a)$を受け取ります。POMDPの枠組みは、
隠れマルコフモデル(HMM)に行動が加わり、報酬によって動機付けられる形で理解することができます。
問題設定
POMDPの基本的な目標は、エージェントが受け取る未来の割引された報酬の
期待値の最大化です。割引因子$ ext{γ}$を用いて、即時報酬と未来の報酬を適切に考慮し、エージェントは時刻$t$において受け取る即時報酬$r_t$を最大化する戦略を模索します。
信念の更新
状態を直接観測できない環境において、エージェントは自らの信念を更新しなければなりません。信念は、現在の状態に関する
確率分布をモデル化します。特定の行動$a$と観測$o$に基づいて、エージェントの信念は次の式に従って更新されます。
$$b'(s')= ext{η}O(o|s',a) imes ext{Sum}[T(s'|s,a)b(s)]$$
ここで、$ ext{η}$は正規化定数です。信念更新によって、エージェントは環境の状態に対する認識を改善します。
信念MDP
POMDPの信念を状態と見なすことで、POMDPを信念MDPとして扱うことが可能です。この方法により、信念状態空間上における有限次元のMDPが形成され、従来のPOMDPの処理の複雑性を軽減します。
政策関数と価値関数
信念状態に基づいたエージェントの行動を最適化するための政策関数と価値関数の定義も重要です。最適な行動は、期待報酬を最大化するように設計され、これは次のように表されます。
$$V^(b) = ext{max}_{a ext{ in }A} ig[r(b,a) + ext{γ} ext{Sum}[O(o|b,a)V^( au(b,a,o))]ig]$$
POMDPの近似解法
POMDPは計算の複雑性が高いため、厳密解が求めにくいことがしばしばあります。このため、近似解法が提案されています。例えば、グリッドベースのアルゴリズムや、サンプリング技法によるアプローチが存在し、より効率的に問題を解決する手段が模索されています。
POMDPの応用
POMDPは、医療(例:虚血性心疾患の特別療法)、認知症の支援技術や貴重な生物多様性の保護(例:スマトラトラ)といった分野でも応用されています。さらに、航空機の衝突回避における使われ方も俎上にあげられます。このように、POMDPは複雑な選択肢の下で確実性が求められるあらゆる場面で役立ちます。