機械学習においてGPUが果たす役割は大きい。並列演算能力の高いGPUは、機械学習で必須となる大規模データの処理で、CPUより高いパフォーマンスを発揮する。では、計算サーバに複数枚のGPUを搭載し、それらを並列で使用すれば、さらなるパフォーマンスの向上が期待できるのだろうか。
本資料は、こうした疑問を解消するために実施された検証レポートだ。検証には、計算サーバ/PCIeファブリックスイッチ/PCIeボックスで構成された、従来の製品とは一線を画す次世代技術「CDI」(Composable Disaggregated Infrastructure)を使用。GPUやSSDなどのデバイスは、計算サーバではなく外部のPCIe ボックスに収納されている。その最大の特長は、PCIeボックス内のデバイスを複数の計算サーバに自由に割り当てられる点だ。そのため、ワークロードの負荷に応じて、サーバに割り当てられたGPUの数の切り替えもできる。
本資料は、この検証結果から、使用するGPUの数を増やすとResNet(画像認識モデル)の学習時にスループットがどう向上していくのかをまとめたものだ。次世代技術「CDI」の実力が見えてくる興味深いレポートになっているので、ぜひ参考にしてほしい。