囚人のジレンマ

囚人のジレンマは、ゲーム理論において最もよく知られたモデルの一つです。このゲームが示すのは、参加者それぞれが自分にとって最も合理的な選択をしたにもかかわらず、その結果が参加者全員にとって最善の状態にならない、というパラドックスです。この特性から「社会的ジレンマ」の一種とも見なされています。

この概念は1950年に数学者のアルバート・タッカーによって考案されました。その名は、ランド研究所で行われた実験を基に、タッカーがこの状況を2人の囚人の尋問に例えたことに由来します。囚人のジレンマは、自己利益を追求する個人の間でどのように協力が成立しうるかという、経済学、政治学、社会学、心理学、倫理学といった社会科学分野における根源的な問いであり、さらには生物学における協力行動の進化といった自然科学の領域でも活発に研究されています。

ゲームの基本的な設定

囚人のジレンマの典型的なシナリオは以下の通りです。共同で犯罪に関与した疑いのある2人の囚人AとBが、別々の部屋に隔離され、互いに連絡を取ることができない状況に置かれています。検事は彼らに以下の司法取引を提示します。

もし2人とも黙秘した場合、証拠不十分で刑が軽減され、それぞれ懲役2年となる。
もし片方だけが自白し、もう片方が黙秘した場合、自白した方は釈放（懲役0年）、黙秘していた方は懲役10年となる。
もし2人とも自白した場合、判決通りの懲役5年となる。

囚人AとBは、それぞれ黙秘するか自白するかの選択を迫られます。この状況をまとめたものは「利得表」として示されます。

囚人B \ 囚人A	黙秘（協調）	自白（裏切り）
:---	:---	:-----
黙秘（協調）	(2年, 2年)	(10年, 0年)
自白（裏切り）	(0年, 10年)	(5年, 5年)

表のカッコ内の数字は、左が囚人A、右が囚人Bの懲役年数を示します。例えば、Aが黙秘しBが自白した場合、Aは10年、Bは0年の刑となります。

ジレンマの発生

2人の囚人全体にとって見れば、互いに黙秘してそれぞれ懲役2年となる（合計4年）のが最も刑期が短い望ましい結果です。しかし、囚人AもBも自分の利益（刑期を短くすること）だけを追求すると、「互いに自白」という結果（それぞれ懲役5年、合計10年）に至ってしまいます。これがこのゲームが「ジレンマ」と呼ばれる所以です。

このジレンマは、それぞれの囚人が以下のように合理的に考えることから生じます。

まず囚人Aの立場から考えます。

もし囚人Bが「黙秘」を選んだ場合、Aが「黙秘」すれば2年、Aが「自白」すれば0年です。Aにとっては自白した方が刑が軽くなります。
もし囚人Bが「自白」を選んだ場合、Aが「黙秘」すれば10年、Aが「自白」すれば5年です。この場合も、Aにとっては自白した方が刑が軽くなります。

このように、囚人Aにとっては、囚人Bがどのような選択をしても、自分は自白する方が常に有利な選択となります。囚人Bも同じように考えるため、結果として両者とも自白を選択します。

重要なのは、囚人Aは相手の行動を恐れて自白するのではなく、相手の行動に関わらず、自分にとって最も合理的な選択として自白を選ぶという点です。互いに黙秘する（協調）ことが全体としては最も良い結果（パレート最適）であるにもかかわらず、互いに自白する（裏切り）という結果は、各自が相手の行動を所与として自己最適化を図った結果（ナッシュ均衡）としては成立しますが、パレート最適ではありません。

繰り返しゲームにおける協力の可能性

囚人のジレンマを一回限り行う場合は、前述のように両者が裏切りを選択するのが合理的な帰結です。しかし、このゲームを複数回、あるいは繰り返し行う場合、協力の可能性が生まれることがあります。

ゲームの繰り返し回数が決まっている場合（有限繰り返しゲーム）では、最終回から逆算する後退帰納法によって、結局全ての回で両者が裏切りを選択することが証明されます。

一方、ゲームの終了時期が事前に確定していない場合（無期限繰り返しゲーム）では、後退帰納法が適用できないため、協力が成立する余地が生まれます。例えば、「相手が一度でも裏切ったら、以後はずっと裏切り続ける」という「トリガー戦略」のような戦略が考えられます。プレイヤーが将来の利得をあまり割り引かない（忍耐強い）場合、互いがトリガー戦略を取ると、協力し続けることで得られる長期的な利益が、一度裏切って短期的に大きな利益を得ても、その後報復を受けて得られる利益よりも大きくなるため、誰もこの戦略から逸脱しようとしません。これにより、協力的関係がナッシュ均衡として成立しうるのです。

また、現実世界では相手の行動を完全に観測できない「不完全観測」の状況も多くあります。このような状況下での繰り返し囚人のジレンマに関する研究も近年大きく進展しており、公的な情報や私的な情報しか得られない場合でも、一定の条件下で協力が成立することが示されています。

現実世界への応用

囚人のジレンマの構造は、現実社会の様々な現象に当てはまります。企業の値下げ競争、公共財の供給問題（フリーライダー問題）、環境問題における国際的な協調、共有資源の管理、国家間の軍縮交渉などがその例です。

また、日常的な商取引にも囚人のジレンマは見られます。取引によって互いに利益を得られるはずが、相手を騙す（代金を支払わない、不良品を渡すなど）ことで自分の利益を増やせる誘惑が存在します。繰り返し行われる取引の場合、相手が裏切った場合に将来の取引を停止するという相互の「脅し」が、裏切りを抑制し、協力を維持するメカニズムとして機能します。

アクセルロッドの研究とその評価

政治学者のロバート・アクセルロッドは、無期限繰り返し囚人のジレンマにおけるコンピュータ・トーナメントを企画し、様々な分野から募集した戦略プログラムを対戦させました。この大会で最も優れた成績を収めたのは、初回は協調し、以降は相手の直前の行動を真似るというシンプルな「しっぺ返し」戦略でした。

アクセルロッドはさらに進化シミュレーションを行い、生き残った戦略の多くがしっぺ返し戦略であることを示しました。これらの結果に基づき、しっぺ返し戦略が持つ「善良さ」「報復性」「寛容さ」「明快さ」といった性質が、人間の協力行動を理解するための重要なモデルであると主張しました。この研究は大きな反響を呼びましたが、その解釈についてはゲーム理論の専門家の間で批判も多く存在します。

批判の主な点は以下の通りです。

アクセルロッドの研究は、しっぺ返し戦略が「あらゆる状況で最適」であるといった、根拠に乏しい極端な主張を広める原因となった。
トーナメントやシミュレーションの結果から、長期的な人間関係全般について安易な一般化を行っているが、その理論的根拠が不明確である。
常に裏切りが合理的な帰結となる有限繰り返しゲームで進化シミュレーションを行った点は誤りである。
彼の結果は、シミュレーションで設定された特定の初期条件や環境に大きく依存しており、普遍的な結論とは言えない。
しっぺ返し戦略が持つとされる「利点」についても、詳細に検討すると必ずしも妥当ではない。
無期限繰り返しゲームで協力が成立しうる可能性は、アクセルロッドの研究より数十年も前に、ゲーム理論における「フォーク定理」によって既に数学的に証明されていた。

これらの批判は厳しいものですが、アクセルロッドの業績が全て否定されているわけではありません。ゲーム理論家の中には、アクセルロッドの研究が、フォーク定理が示す無数の協力的な均衡の中から、特定の均衡（例えばしっぺ返しのような）がどのように選択されるのか、という「均衡選択」問題の重要性を提起した点を評価する声もあります。進化ゲーム理論を用いた均衡選択のアプローチは、現在ではゲーム理論の標準的な手法の一つとなっており、アクセルロッドはその先駆者と位置付けられています。

代表的な戦略の例

アクセルロッドのトーナメントに参加した戦略や、繰り返し囚人のジレンマで研究される戦略には様々なものがあります。

しっぺ返し (Tit For Tat): 初回は協調し、以降は相手の直前の行動を模倣します。
悪人戦略 (All-D): 常に裏切りを選択します。
善人戦略 (All-C): 常に協調を選択します。
フリードマン戦略 (Friedman): 初回は協調し、一度でも相手が裏切ったら以降は常に裏切り続けます。
堪忍袋戦略 (Tit-For-Two-Tats): 初回は協調し、相手が2回連続で裏切った場合にのみ、次回裏切りを選択します。
勝てばそのまま負ければかえる (Win-Stay, Lose-Shift): 前回の結果が良ければ戦略を変えず、悪ければ戦略を切り替えます。単純なしっぺ返しよりも誤作動に強いとされることもあります。

囚人のジレンマ