Intel Xeon Phi: メニーコアプロセッサの進化
Intel Xeon Phiは、
インテルが開発したメニーコア(Many Integrated Core, MIC)
アーキテクチャをベースにしたHPC(ハイパフォーマンスコンピューティング)向けの
コプロセッサ製品群です。当初は
コプロセッサとして登場しましたが、後にプロセッサ版も追加されました。その特徴は、x86互換のメニーコアを搭載し、並列コンピューティングに特化している点にあります。
Xeon Phiファミリーは、並列処理に最適化された演算ボードであり、特にHPC分野での利用を想定して開発されました。しかし、その適用範囲は企業のデータセンターやワークステーションにも広がりつつあります。最大の利点として、従来の
IA-32/Intel 64
アーキテクチャ向けに開発されたアプリケーションをそのまま利用できる点が挙げられます。また、ホストOSとは独立した
LinuxベースのOSを動作させることができ、
PCI Expressで接続されます。
世代ごとの進化
第1世代: Knights Corner
2012年11月に発表された第1世代の
Xeon Phi「Knights Corner」は、22nmのTri-Gateトランジスタ技術を採用しています。これは当時のIvy Bridgeプロセッサと同じ製造プロセスです。
XeonプロセッサーE5ファミリーと組み合わせることで、倍精度浮動小数点演算で1T
FLOPS以上の理論性能を発揮します。
この世代の製品は、
PCI Express拡張カードとして提供され、純粋な演算処理に特化しており、ラスタライザやビデオ再生機能は搭載されていません。競合製品としては、
NVIDIAのTeslaやAMDのFirePro(旧称:FireStream)が挙げられます。
Xeon Phiの大きな強みは、x86
アーキテクチャを採用しているため、既存のx86 CPU向けプログラムをほぼそのまま利用できる点です。
また、内部にスタンドアロンの
Linuxが常駐しており、SSH経由でホストからログインできるという特徴も持ち合わせています。これは、独立したOSを動作させることができない
GPGPUと比較して大きなアドバンテージとなります。もちろん、
GPGPUと同様にオフロード計算も可能です。
SIMD命令は512ビットであり、倍精度浮動小数点数を8つ同時に処理できるほか、FMA(Fused Multiply-Add)をサポートしているため、1サイクルあたり16
FLOPSの性能を発揮します。同時期に発売されたHaswellのIntel AVX2は256ビットであり、倍精度浮動小数点数は4つ同時に処理できますが、FMAを2つ同時に計算できるため、同じく16
FLOPS/cycleです。
PCI ExpressはGen2.0 x16(片方向あたり8GB/s)に対応しています。
2017年1月にEnd of Lifeとなり、Intel Math Kernel Libraryのサポートも2017 Update 4で終了しました。
プロセッサーオプション
-X: PCI Express接続
-P:
PCI Express接続、ヒートシンク付き
-A: PCI Express接続、アクティブファン内蔵
-D: SFF接続
Xeon Phi 5110P
2012年11月13日に発表され、
2013年1月28日に発売された
Xeon Phi 5110Pは、22nmのTri-Gateトランジスタで製造されています。60コア、動作クロック1.053GHzで、倍精度浮動小数点演算の理論性能は1.011T
FLOPSです。GDDR5の8GBメモリを搭載し、帯域幅は320GB/s。TDPは225Wです。冷却ファンは搭載されておらず、ラック単位での冷却を想定しています。PCIe2.0接続ですが、転送レートの高速化によりPCIe3.0とほぼ同等の性能を発揮します。
コアごとのL2キャッシュは512KBで、チップ全体では30MB。メモリーインターフェイスは32bit幅で動作しており、合計512bit幅です。補助電源コネクタは8ピン+6ピン構成となっています。
その他のモデル
Xeon Phi 5120D, 3120P, 3120A, 7120P, 7120X(2013年6月18日発売開始)
Xeon Phi 31S1P(
2013年第2四半期発売、中国のスーパーコンピュータ「天河2」に採用)
第2世代: Knights Landing
2016年6月20日に発表された第2世代の
Xeon Phi「Knights Landing」は、14nmプロセスで製造されており、単精度で6T
FLOPS以上、倍精度で3T
FLOPS以上の性能を実現しています。
アーキテクチャはAtomのSilvermontベースとなりました。
型番の末尾にFが付くモデルは、インターコネクトにIntel Omni-Path Fabricを搭載しています。
ソケットはLGA3647ですが、通常の
Xeonとは互換性がなく、専用のマザーボードが必要です。オンチップメモリはL3キャッシュとしても、通常のメモリとしても利用可能です。7.2 GT/sのメモリは実測で490 GB/sの帯域幅を実現します。
1コアあたり4スレッドが実行可能で、2つの512ビットベクターALU、2つのスカラーALU、1つのレガシーx87 ALUを搭載しています。72コア、1.5GHzの場合、単精度は6912 G
FLOPSの性能になります。
Knights Landingで採用された512ビット
SIMD命令はAVX-512として定義されていますが、これはKnights Cornerが用いていたものとは機械語命令形式が異なり、互換性はありません。
PCI ExpressはGen3.0 x16(片方向あたり16GB/s)に対応しています。
対応ソケット: LGA3647
Knights Mill
2017年12月18日に発表された「Knights Mill」は、Knights Landingを
ディープラーニング向けに改良したものです。Intel AVX-512のサポートを拡張し、AVX512_4FMAPS、AVX512_4VNNI、AVX512_VPOPCNTDQをサポートしました。これにより、FP32やINT16の演算が高速化され、FP32の行列積演算においてx200と比較して2倍高速になりました。
後継としてKnights Hillが予定されていましたが、キャンセルされています。
対応ソケット: LGA3647
脚注
このテキストには脚注はありません。
参考資料
英語
Rezaur Rahman: "Intel Xeon Phi Coprocessor Architecture and Tools", Apress, ISBN 978-1-4302-5926-8 (2013/09/02).
Jim Jefferes, James Reinders: "
Intel Xeon Phi Coprocessor High-Performance Programming", Morgan Kaufmann, ISBN 978-0-12-410414-3 (2013/03/01).
Andrey Vladimirov, Vadim Karpusenko: "Parallel Programming and Optimization with Intel Xeon Phi Coprocessors", Colfax International, ISBN 978-0-9885234-1-8 (2013).
Endong Wang, Qing Zhang: "High-Performance Computing on the
Intel Xeon Phi:How to Fully Exploit MIC Architectures", Springer, ISBN 978-3319064857 (2014/07/11).
James Reinders, Jim Jeffers: "High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches", Morgan Kaufmann, ISBN 978-0128021187 (2014/11/17).
日本語
ジム・シェファース、ジェームズ・レインダース:「
インテルXeon Phi
コプロセッサー ハイパフォーマンス・プログラミング」, カットシステム, ISBN 978-4-87783-332-9 (2014年1月10日).
関連項目
インテル
OpenCL
OpenMP
外部リンク
インテル プロセッサー
*
Intel Developer Zone - Intel Xeon Phi Coprocessor