神威・太湖之光
「神威・
太湖之光(Sunway TaihuLight)」は、
中華人民共和国の
江蘇省無錫市にある国立スーパー
コンピューターセンターに設置されている、中国開発のスーパー
コンピュータです。その名称は、CPUシリーズ名の「神威」と、
無錫市の名所である「
太湖」に由来しており、
英語名称の「Sunway」は「神威(ShenWei)」を
英語風に表現したものです。
概要
本システムは、中国の国家並列計算機工学技術研究センターによって開発されました。開発費用はおよそ18億人民元(当時のレートで約2.73億ドル)が投じられています。その性能は、
LINPACKベンチマークでの実行性能が93.0146ペタフロップス、理論上の最大性能は125.4359ペタフロップスに達します。オペレーティングシステム(OS)には、独自の「神威睿思 2.0.5」を採用しており、設置面積は約605平方メートルにも及びます。
中核となるCPUには、
無錫市にある江南計算技術研究所が独自に開発した申威シリーズのメニーコアプロセッサ「申威26010(SW26010)」を40,960個搭載しています。1つのCPUには260個のコア(計算用の256コアと管理用の4コア)が集積されており、システム全体では合計1,064万9,600コアという膨大な数で構成されています。命令セットには独自の「申威64(SW64)」を採用。過去の神威シリーズが純国産CPUを使用していた一方で、Intel製CPUで世界一となった天河シリーズは性能が高かったものの、米国の輸出規制によって関連機関が米国製CPUを入手困難になったことが、中国国内での技術開発を加速させた要因の一つとされています。ただし、「純中国製スパコン」と報じられることもありますが、CPU以外の部品には他国産の汎用製品も用いられています。
「神威・
太湖之光」は、
2016年6月発表のスパコン性能ランキング「
TOP500」で93ペタフロップスを記録し、世界最速の座を獲得しました。この地位を
2017年11月まで維持しました。また、省エネ性能を競う
Green500では世界3位、ビッグデータ解析性能を競う
Graph500では日本の「京」に次ぐ世界2位となるなど、総合的に高い評価を得ています。
アーキテクチャ
申威26010のアーキテクチャは独自開発ですが、
2017年に公開された情報では、
PlayStation 3に搭載された
Cell Broadband Engineに類似する部分があることが示唆されています。以前は
DEC Alphaアーキテクチャがベースと推測されることもありましたが、公式には
DEC Alpha命令セットとは無関係であることが明言されています。
OSにはLinuxをベースとした「神威睿思(Raise OS)」を採用。CPUの動作クロックは1.45GHzと比較的低いものの、性能の低い多数のコアを集積することで全体性能を向上させつつ消費電力を抑えるという、メニーコアの思想を極めた構成となっています。システム全体のメモリ容量は1.3PBで、1ノードあたり32GB。メインメモリには
2016年時点の最新規格であるDDR4ではなくDDR3が採用されており、転送速度はやや抑えられています(これは消費電力低減を意図したものと考えられます)。その代わりに、1コアあたり12KBのキャッシュメモリに加え、64KBのスクラッチパッドメモリを備えています。スクラッチパッドメモリを多用するシステムは、プログラミングが複雑になりがちですが、「神威・
太湖之光」では
OpenACCをサポートするなど、開発者の負担を軽減する取り組みも行われています。
電力効率
消費電力は15.3MWです。当時の世界最速だった天河二号と比較して3倍近い性能を持ちながら、消費電力は天河二号の17.8MWを下回っています。また、日本の「京」と同等の消費電力で、「京」の9倍の性能を発揮するなど、高演算領域での電力効率は非常に優れています。
TOP500と同時に発表される
Green500ランキングでも、
理化学研究所の「菖蒲(Shoubu)」、「皐月(Satsuki)」に次ぐ世界3位となりました。
汎用性
開発チームが所属する
清華大学の発表によると、「神威・
太湖之光」は中国の第13次5カ年計画に基づく国家目標達成のため、
江蘇省の産業全般にわたる幅広い分野で活用されています。応用例としては、気候予測シミュレーションがあり、従来の地球シミュレータでは200km単位だったメッシュの分解能を、本システムを用いることで25km(海洋では10km)まで高めることが可能となりました。
開発環境としては、GCCに加え、神威睿思に最適化された
コンパイラ「神威睿智编译器」やJDK「神威睿翔」が提供されており、CやFortranだけでなくJAVAも利用できるようです。スクラッチパッドメモリベースの独自メニーコアアーキテクチャはプログラミングが難しいと予想されましたが、多数のアプリケーションが既に実装され、実用に供されている点が、
TOP500発表時のISC 2016で高く評価されました。特に、気候予測アプリが
2016年度の
ゴードン・ベル賞を受賞し、中国としては初の快挙となりました。さらに、地震予測アプリで
2017年度も連続受賞しており、ハードウェアだけでなくソフトウェア開発能力においても中国が世界レベルに達したことを示しました。
一方で、単精度(32bit)や半精度(16bit)演算が難しいため、高精度を要求しないディープラーニングのようなアルゴリズムには向きません。また、メモリバンド幅が計算能力に対して相対的に遅い(Flops/Byte値が22.4。参考:天河二号のIntel Xeon Phi Knights Landingは7.2)ことから、大量のデータを頻繁にやり取りするアプリケーションでは性能が低下する可能性が指摘されています。
LINPACKでの高い数値に対し、メモリ制約が影響しやすいHPCGベンチマークでは0.37(世界4位)と、「京」(0.60、世界1位)や天河二号(0.58、世界2位)に後れを取っています。ディープラーニング対応としては、申威コア向けライブラリ「swDNN」の開発が進められており、将来的にはCaffeベースのフレームワークを用いて、従来のHPCアプリに加えディープラーニングやビッグデータ処理も扱えるようにする計画が
2017年に示されています。
商用版
2017年からは、「神威・
太湖之光」をスケールダウンし、申威26010を2基搭載したサーバノード「小宝宝(Sunway Micro)」が
無錫市国立スーパー
コンピューターセンターより販売されています。公的な研究機関が
システムインテグレーターのようにソリューション込みで商用販売を行うことは、比較的珍しいケースとされています。