Xeon Phi

Intel Xeon Phi: メニーコアプロセッサの進化

Intel Xeon Phiは、インテルが開発したメニーコア（Many Integrated Core, MIC）アーキテクチャをベースにしたHPC（ハイパフォーマンスコンピューティング）向けのコプロセッサ製品群です。当初はコプロセッサとして登場しましたが、後にプロセッサ版も追加されました。その特徴は、x86互換のメニーコアを搭載し、並列コンピューティングに特化している点にあります。

Xeon Phiの概要

Xeon Phiファミリーは、並列処理に最適化された演算ボードであり、特にHPC分野での利用を想定して開発されました。しかし、その適用範囲は企業のデータセンターやワークステーションにも広がりつつあります。最大の利点として、従来のIA-32/Intel 64アーキテクチャ向けに開発されたアプリケーションをそのまま利用できる点が挙げられます。また、ホストOSとは独立したLinuxベースのOSを動作させることができ、PCI Expressで接続されます。

世代ごとの進化

第1世代: Knights Corner

2012年 11月に発表された第1世代のXeon Phi「Knights Corner」は、22nmのTri-Gateトランジスタ技術を採用しています。これは当時のIvy Bridgeプロセッサと同じ製造プロセスです。XeonプロセッサーE5ファミリーと組み合わせることで、倍精度浮動小数点演算で1TFLOPS以上の理論性能を発揮します。

この世代の製品は、PCI Express拡張カードとして提供され、純粋な演算処理に特化しており、ラスタライザやビデオ再生機能は搭載されていません。競合製品としては、NVIDIAのTeslaやAMDのFirePro（旧称：FireStream）が挙げられます。Xeon Phiの大きな強みは、x86アーキテクチャを採用しているため、既存のx86 CPU向けプログラムをほぼそのまま利用できる点です。

また、内部にスタンドアロンのLinuxが常駐しており、SSH経由でホストからログインできるという特徴も持ち合わせています。これは、独立したOSを動作させることができないGPGPUと比較して大きなアドバンテージとなります。もちろん、GPGPUと同様にオフロード計算も可能です。

SIMD命令は512ビットであり、倍精度浮動小数点数を8つ同時に処理できるほか、FMA（Fused Multiply-Add）をサポートしているため、1サイクルあたり16 FLOPSの性能を発揮します。同時期に発売されたHaswellのIntel AVX2は256ビットであり、倍精度浮動小数点数は4つ同時に処理できますが、FMAを2つ同時に計算できるため、同じく16 FLOPS/cycleです。

PCI ExpressはGen2.0 x16（片方向あたり8GB/s）に対応しています。

2017年1月にEnd of Lifeとなり、Intel Math Kernel Libraryのサポートも2017 Update 4で終了しました。

プロセッサーオプション

-X: PCI Express接続
-P: PCI Express接続、ヒートシンク付き
-A: PCI Express接続、アクティブファン内蔵
-D: SFF接続

Xeon Phi 5110P

2012年 11月13日に発表され、2013年 1月28日に発売されたXeon Phi 5110Pは、22nmのTri-Gateトランジスタで製造されています。60コア、動作クロック1.053GHzで、倍精度浮動小数点演算の理論性能は1.011TFLOPSです。GDDR5の8GBメモリを搭載し、帯域幅は320GB/s。TDPは225Wです。冷却ファンは搭載されておらず、ラック単位での冷却を想定しています。PCIe2.0接続ですが、転送レートの高速化によりPCIe3.0とほぼ同等の性能を発揮します。

コアごとのL2キャッシュは512KBで、チップ全体では30MB。メモリーインターフェイスは32bit幅で動作しており、合計512bit幅です。補助電源コネクタは8ピン+6ピン構成となっています。

その他のモデル

Xeon Phi 5120D, 3120P, 3120A, 7120P, 7120X（2013年 6月18日発売開始）
Xeon Phi 31S1P（2013年第2四半期発売、中国のスーパーコンピュータ「天河2」に採用）

第2世代: Knights Landing

2016年 6月20日に発表された第2世代のXeon Phi「Knights Landing」は、14nmプロセスで製造されており、単精度で6TFLOPS以上、倍精度で3TFLOPS以上の性能を実現しています。アーキテクチャはAtomのSilvermontベースとなりました。

型番の末尾にFが付くモデルは、インターコネクトにIntel Omni-Path Fabricを搭載しています。

ソケットはLGA3647ですが、通常のXeonとは互換性がなく、専用のマザーボードが必要です。オンチップメモリはL3キャッシュとしても、通常のメモリとしても利用可能です。7.2 GT/sのメモリは実測で490 GB/sの帯域幅を実現します。

1コアあたり4スレッドが実行可能で、2つの512ビットベクターALU、2つのスカラーALU、1つのレガシーx87 ALUを搭載しています。72コア、1.5GHzの場合、単精度は6912 GFLOPSの性能になります。

Knights Landingで採用された512ビットSIMD命令はAVX-512として定義されていますが、これはKnights Cornerが用いていたものとは機械語命令形式が異なり、互換性はありません。

PCI ExpressはGen3.0 x16（片方向あたり16GB/s）に対応しています。

対応ソケット: LGA3647

Knights Mill

2017年 12月18日に発表された「Knights Mill」は、Knights Landingをディープラーニング向けに改良したものです。Intel AVX-512のサポートを拡張し、AVX512_4FMAPS、AVX512_4VNNI、AVX512_VPOPCNTDQをサポートしました。これにより、FP32やINT16の演算が高速化され、FP32の行列積演算においてx200と比較して2倍高速になりました。

後継としてKnights Hillが予定されていましたが、キャンセルされています。

対応ソケット: LGA3647

脚注

このテキストには脚注はありません。

参考資料

英語

Rezaur Rahman: "Intel Xeon Phi Coprocessor Architecture and Tools", Apress, ISBN 978-1-4302-5926-8 (2013/09/02).
Jim Jefferes, James Reinders: "Intel Xeon Phi Coprocessor High-Performance Programming", Morgan Kaufmann, ISBN 978-0-12-410414-3 (2013/03/01).
Andrey Vladimirov, Vadim Karpusenko: "Parallel Programming and Optimization with Intel Xeon Phi Coprocessors", Colfax International, ISBN 978-0-9885234-1-8 (2013).
Endong Wang, Qing Zhang: "High-Performance Computing on the Intel Xeon Phi:How to Fully Exploit MIC Architectures", Springer, ISBN 978-3319064857 (2014/07/11).
James Reinders, Jim Jeffers: "High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches", Morgan Kaufmann, ISBN 978-0128021187 (2014/11/17).

日本語

ジム・シェファース、ジェームズ・レインダース:「インテル Xeon Phi コプロセッサー　ハイパフォーマンス・プログラミング」, カットシステム, ISBN 978-4-87783-332-9 (2014年1月10日).

外部リンク

インテルプロセッサー
* Intel Developer Zone - Intel Xeon Phi Coprocessor

もう一度検索