動画配信やゲームなど60以上の事業を展開するDMM.com。中核を担う総合動画配信サービス「DMM TV」は、もともとオンプレミスで運用してきたが、現在はGoogle CloudとGKE(Google Kubernetes Engine)を中心としたプラットフォームへ移行している。
同社ではオンプレミス時代から、ある統合監視プラットフォームを採用しており、Google Cloudへの移行後も継続して導入している。SRE(Site Reliability Engineering)チームにとってクラウド環境への導入は初だったが、社内の知見を活用し、フロントエンドとバックエンドの双方から問題を特定できるようAPMやRUMのデータを統合した。
現在はインフラ監視、ログ管理、APM、RUM、ネットワークモニタリングなどに同プラットフォームを活用。SRE、アプリケーション、フロントエンド、バックエンドの各開発者が、個別にカスタマイズしたダッシュボードで全データを関連付けて確認できる体制を構築した。その結果、日次の確認時間は約15分に短縮され、約160人のメンバーによるフルスタックモニタリングと安定運用を実現している。