AlphaGo Zero(アルファ・ゴ・ゼロ)は、DeepMindによって開発された
囲碁のAIソフトウェアであり、その誕生は
人工知能分野における重要なターニングポイントとなりました。このソフトウェアは、2017年10月19日に発表されたもので、以前の全てのバージョンに比べて非常に高い能力を持っています。教科書的なアプローチではなく、自身との対局によって学習を進め、わずか3日間で
AlphaGo Leeを100勝0敗で下し、21日で
AlphaGo Masterと同等のレベルに達しました。さらに、40日間の訓練を経て、全ての旧バージョンを超える結果を出しました。
この革新的なモデルは、人間の対局データを一切使用せずに開発されました。人間の棋譜はしばしば高コストで信頼性が欠けているため、
AlphaGo ZeroはAIが独自に学ぶことができることを示しました。DeepMindのCEO、
デミス・ハサビスは、
AlphaGo Zeroがもはや人間の知識に縛られていないため、その強さを強調しました。これは、AIの訓練方法に新たなアプローチをもたらすものであり、汎用AIアルゴリズムの実現にも繋がる可能性を秘めています。
訓練方法
AlphaGo Zeroは、64個のGPUワーカーと19個のCPUサーバーを活用して
TensorFlowで訓練されました。推論作業では4つのTPUが使われ、最初の訓練においては
囲碁のルール以外については何も教えられませんでした。これまでのバージョンとは異なり、
AlphaGo Zeroは人間によって設計された特異なケースを使わず、盤上の石の認識とその配置から戦略を学習しています。
自らの手が試合の結果にどのように影響を与えるのかを予測するため、自身との490万回におよぶ対局を行いました。これにより、従来の
AlphaGoが人間の棋士と対戦するために何ヶ月もかけて訓練していたスキルを、
AlphaGo Zeroは数日で獲得しました。DeepMindは、
AlphaGo Zeroでも人間の棋譜を用いた訓練を行いましたが、その結果は短期的には有利でも、長期にわたっては劣った成績を示すことが分かりました。
応用可能性
DeepMindのハサビスは、
AlphaGoのアルゴリズムが持つ潜在能力は、たとえばタンパク質の折り畳みや化学反応のシミュレーションなど、広範な知的探索を必要とする分野で特に有用であると述べています。一方で、自動運転のようにシミュレーションが難しい分野ではその有効性が低い可能性があります。
社会的な反響
AlphaGo Zeroの登場は、AI技術の進步を評価する声が相次ぎました。アレン
人工知能研究所のオーレン・エチオーニは、システムの訓練能力と、その前に得た能力の両方に対して驚きの技術的成果と称賛しました。また、
シェフィールド大学の研究者らも
AlphaGoを「
人工知能の大躍進」とまとめています。
韓国の
囲碁棋士、李世乭は
AlphaGoの進化に期待を寄せつつ、その能力の成長には静観する必要があるとコメントしています。彼の言葉からは、
AlphaGo Zeroが新たな戦略やアイデアを
囲碁界に持ち込む可能性が示唆されています。
2017年12月、DeepMindは
AlphaGo Zeroのアルゴリズムを基にした汎用プログラム
AlphaZeroを発表しました。
AlphaZeroは、わずか24時間の訓練で
囲碁はもちろん、
チェスや
将棋の世界チャンピオンを打ち破る能力を身につけました。
AlphaGo Zeroは、AI技術が持つ革命的な変化を象徴する存在です。今後の技術の進展とその利用に対する今後の展望が注目されています。