コンテンツ情報
公開日 |
2017/07/26 |
フォーマット |
PDF |
種類 |
製品資料 |
ページ数・視聴時間 |
27ページ |
ファイルサイズ |
2.75MB
|
要約
High Performance Computing(以下、HPC)は、大気シミュレーターや流体シミュレーションといった大規模な物理演算などに特化した利用がほとんどだった。しかし、AI・人工知能、機械学習、深層学習、さらには、ビッグデータのビジネス活用の普及によって、HPCシステムで扱う演算量が爆発的に増えている。
このような状況において、HPCシステムでは、CPUの演算処理能力に加え、GPUの採用が鍵を握る。GPUを大量に搭載することで、人工知能や機械学習の高速演算を実現している。
一方で、大量のGPUを搭載したサーバのハードウェア設定、OS、アプリケーションの配備、消費電力、発熱など、巨大システム全体を迅速に構築し、効率よく管理しなければならない。さらに、HPC基盤のサーバハードウェア、OS、ストレージ、ネットワークまで、発生した問題に一括して対応する万全のサポート体制が必要である。特に、HPCシステムにおけるサポート体制において、GPU搭載サーバ基盤の運用トラブルに長けたノウハウは、絶対に欠かせない。
この記事では、AI・深層学習用の高性能サーバ、ハードウェア設定、OS配備、負荷監視、電力管理、温度監視を一元的に行えるユーティリティーの機能を解説するとともに、HPCシステム導入後のトラブルに確実に対応できる保守サポートサービスを紹介する。