現代の複雑化したITシステムにおいて、障害の根本原因を速やかに特定し、安定稼働および迅速な復旧を実現するためには、「オブザーバビリティ(可観測性)」の強化が不可欠だ。そして最近では、オブザーバビリティプラクティスにAIOpsを組み込んで業務効率を高め、MTTD(平均検出時間)とMTTR(平均解決時間)の大幅短縮とコスト削減を実現しようという動きが進んでいる。
例えば、AIOpsによってアノマリ検出は格段に強化される。データのパターンやしきい値を機械学習によって予測し、そこから逸脱した場合に異常として検出することができる。動的しきい値の設定機能があれば、周期的な変化を考慮してしきい値を調整し、過去の同じ時期のパターンと大きく異なる場合に外れ値と見なして警告することで、誤検知を減らすことも可能だ。異常と外れ値の両方を検出することは、予定外のダウンタイムを防ぐために役立つ。
他にも、アラートのノイズ低減、根本原因の究明とインスタントトラブルシューティング、自動化と修復、プロアクティブな障害防止といったユースケースでAIOpsは大きな効果を発揮する。本資料では、AIOpsの5つのユースケースについて解説する。