システムに大きな障害が発生せず、業務を停止させずに運用がうまく回っていれば、安心であることは間違いない。しかし、それは本当に「安定運用」といえるのだろうか。「障害が少ない」「業務停止が起きていない」といった目に見える結果だけでは、運用の中身が適切かどうかは判断できない。
安定運用とは、環境や条件に変化があっても、運用品質を低下させることなく継続できる状態を指す。現状に大きな問題がないように見えても、隠れた問題やリスクを把握することが重要だ。例えば、現場担当者の属人的な経験や判断、時間・工数の負担によって安定運用が成り立っているなら、担当者の異動・退職や体制変更、対象システムの増加・複雑化による負担増などが原因で、破綻する恐れがある。
本資料では、「人」「ツール・システム」「コスト」「情報」の4つの観点から現状を整理して隠れたリスクを把握し、運用フローの問題を洗い出す方法について解説する。併せて、アラート受信・集約から通報自動化、記録・改善まで、人や複雑なツールに依存せずインシデント管理を行えるソリューションも紹介しているので、参考にしてほしい。