【検証レポート】CDI技術でGPUのスケーラビリティはどう変わるのか？

コンテンツ情報

公開日	2024/03/19	フォーマット	PDF	種類	技術文書・技術解説
ページ数・視聴時間	4ページ			ファイルサイズ	542KB

要約

　機械学習においてGPUが果たす役割は大きい。並列演算能力の高いGPUは、機械学習で必須となる大規模データの処理で、CPUより高いパフォーマンスを発揮する。では、計算サーバに複数枚のGPUを搭載し、それらを並列で使用すれば、さらなるパフォーマンスの向上が期待できるのだろうか。

　本資料は、こうした疑問を解消するために実施された検証レポートだ。検証には、計算サーバ／PCIeファブリックスイッチ／PCIeボックスで構成された、従来の製品とは一線を画す次世代技術「CDI」（Composable Disaggregated Infrastructure）を使用。GPUやSSDなどのデバイスは、計算サーバではなく外部のPCIe ボックスに収納されている。その最大の特長は、PCIeボックス内のデバイスを複数の計算サーバに自由に割り当てられる点だ。そのため、ワークロードの負荷に応じて、サーバに割り当てられたGPUの数の切り替えもできる。

　本資料は、この検証結果から、使用するGPUの数を増やすとResNet（画像認識モデル）の学習時にスループットがどう向上していくのかをまとめたものだ。次世代技術「CDI」の実力が見えてくる興味深いレポートになっているので、ぜひ参考にしてほしい。

ログインして閲覧