ResNet(画像認識モデル)のようなアプリケーションの学習で重要なGPU間通信を、高速化するにはどのようなサーバを選べばよいのだろうか。本資料は、次世代技術「CDI」(Composable Disaggregated Infrastructure)を採用したシステム実性能を検証したレポートだ。
対象となるシステムは、GPUやストレージ、ネットワーク(NIC)などのPCIeデバイスリソースを外部のPCIeボックスに分離収納し、高速なファブリックスイッチでそれをサーバ本体と接続している。この分離型アーキテクチャにより、高いパフォーマンスはもちろん、構造の合理化や優れたスケーラビリティを実現しているという。
今後は業務の中核としてAIの活用を進めていきたい、AIの利用をさらに推進したいと考えている組織にとって、この検証で判明した性能評価は今後の選定の基準として大いに役立つだろう。検証は、業界標準の機械学習向けベンチマークである「MLPerf」を使用して行われており、既存環境との比較もしやすいので、ぜひ一読してほしい。