インフィニティソリューションズ株式会社ブログ

NVIDIA、新しいクラウド向けGPUを発表

GPU Technology Conference(GTC)というのが今週、カルフォルニア州サンノゼで開かれており、NVIDIAがそこで、新しいクラウド向けGPUを発表したというニュース。

同社のニュースリリースから。

‘Five years in the making, NVIDIA’s cloud GPU technologies are based on the company’s newKepler GPU architecture, designed for use in large-scale data centers. Its virtualization capabilities allow GPUs to be simultaneously shared by multiple users. Its ultra-fast streaming display capability eliminates lag, making a remote data center feel like it’s just next door. And its extreme energy efficiency and processing density lowers data center costs.’

「NVIDIAのクラウドGPU技術は、5年間開発に費やした同社の新しいKepler GPUアーキテクチャの基づくもので、大規模データセンター用に設計されたもの。仮想化機能により、GPUを複数のユーザで同時に共有することができる。超高速ストリーミング機能により、タイムラグをなくすことができ、リモートのデータセンターがすぐ隣にあるように感じることができる。また極めてエネルギー効率が高く、処理密度が高いことにより、データセンターのコストを削減することができる。」

TESLA® KEPLER (source: NVIDIA)

‘NVIDIA’s introduction of cloud GPU technologies follows its 1999 invention of the GPU, which revolutionized visual computing, and its 2006 creation of CUDA®, a parallel-processing technology enabling dramatic acceleration of computing performance.’

「NVIDIAのクラウドGPU技術は、ビジュアルコンピューティングに革命をもたらした1999年のGPUの発明にさかのぼる。そして、2006年、コンピューティング性能を大幅に加速する並列処理技術CUDA®を開発。」

— そして今回のKeplerが第3世代ということらしい。

Kepler GPUアーキテクチャに基づく製品が、仮想化デスクトップをクラウドで実現するためのNVIDIA VGX™ platform、クラウドゲームサービス向けNVIDIA GeForce GRID、そしてハイパフォーマンス・コンピューティング向けNVIDIA Tesla® GPUsだ。ハイパフォーマンス・コンピューティング向けのTeslaをもう少し見ている。

サイトのページ上には、TESLA K10しか出ていないが、Tesla Kepla Family Overviewのpdfには、TESLA K20も出ている。ただ性能値が未定になっているため、まだ出来ていないのかもしれない。TESLA K10は単精度浮動小数点計算用、TESLA K20は倍精度浮動小数点計算用となっている。なので、TESLA K10は、旧モデルと比べて、単精度では4倍程度の性能向上になっているが、倍精度では、2.5分の1ぐらいに下がっている。ハイパフォーマンス・コンピューティングを標榜するなら、TESLA K20も並べて出してほしかったな。ちょっと片手落ちっぽい。

肝心のKepla GPUアーキテクチャの特徴だが、

  1. SMXと呼ぶ新世代ストリーミングマルチプロセッサ:TESLA K20の場合、旧モデルで32コアであったものが、192コアに増加。1ワットあたりの性能を3倍に増加させた結果、10台のサーバラックで1ペタフロップスも実現可能だとのこと。
  2. ダイナミック並列処理:従来、CPUがGPU上でカーネルを起動しており、新しいカーネルが必要になると、一旦CPUに戻らねばならなかった。ダイナミック並列処理では、CPUの助けを借りずとも、GPU上でカーネルを起動することができるようになった。このため、CPUとの通信頻度が下がり、プログラミングもしやすくなる。
  3. HYPER-Q:従来GPU1台に対して、同時に1つの処理のみが実行可能であった。この場合、その処理がフルにGPUを使っておらず、空きのコアが仮にあったとしても、アイドル状態にしておくしかなかった。HYPER-Qでは、1台のGPUに対して、最大32の処理を同時並行で行える(TESLA K20の場合)。アイドル状態のコアを極力少なくすることができる。

— こういうものは、実際のところどうなの、そんなに効率良く動作するのか、性能を容易に搾り出せるのか、現実論が問題だ。そのあたりを検証するには、ベンチマーク等を待つしかない。でも楽しみだ。