ミッションクリティカルなシステムの障害対策において特に重要になるのが、かけられる費用とシステム停止時の影響度のバランスだ。一般的な商用Availabilityはコストこそ抑えられるものの可用性は99~99.5%、年間のダウンタイムで考えれば約44~87時間になる。一方で年間ダウンタイムが0分、100%の可用性を実現する連続処理は極めて高コストになるため、稼働率99.99%の「フォールトレジリエント」を採用するのが一般的だ。
具体的なシステム構成では「インフラ障害」と「アプリケーション障害」の2つがポイントとなる。主流は2台の同じサーバをソフトウェアで1つにまとめる「クラスタ化」だ。稼働系と待機系の割り振り、障害時の切り替えや死活監視なども合わせて自動化できる。ソフトウェアにはコストのかからないOSSも存在するが、企業ユースでは製品サポートの点から商用製品を選定するケースが多い。
選定においてはハードウェアに依存しないことを前提に、構築のしやすさやサポート体制・言語なども加味して行うのがポイントだ。本資料ではこうした障害対策の判断基準をマンガで分かりやすく解説する。