就活サイトなど複数の就職関連サービスを提供するワンキャリアは、2015年のスタート以来、順調にビジネスを拡大してきた。マルチクラウドでサービス展開しているが、短期間でサービスを拡充し、利用者が急増したことから、分散されたシステムやアプリケーションの並行監視とサービスの信頼性が求められるようになった。
同社では複数の監視ツールを使い分けて対応していたが、それでは定常的な監視ができず、障害発生の対応が大きな課題となっていた。そこで同社では、「オブザーバビリティの強化」「パフォーマンスの計測・改善」を主眼に、複数サービスを横断して監視できる統合監視ツールを導入した。採用の決め手となったのは、“SRE(Site Reliability Engineering)の民主化”を目指す同社にとって、使用量課金が魅力だったからだ。
本ツール導入後は、障害原因の特定時間が大幅に短縮され、復旧時間を1時間以内(従来の約3分の1)に収めることが可能になったという。本資料では、他にも本ツール導入によるメリットを詳しく紹介しているので、ぜひ参考にしていただきたい。