システム管理とサービス運用に対する新たなアプローチとして、SRE(Site Reliability Engineering)の注目度が高まっている。これは、より高速な開発が求められる現代においても、ソフトウェアやサービスの品質を犠牲にせず、高い信頼性を確保することを目指した開発手法、あるいはサービス運用の方法論だ。
SREにおいて特に重要なのが「信頼性」だ。ただ、その指標は、CPU使用率などのシステム監視によって得られるデータだけでなく、ユーザー利用への影響、ユーザー経験に基づいて判断されることに注意が必要だ。また、信頼性と機能開発によるイノベーションの加速はトレードオフの関係にあり、両者のバランスを取らなければ、サービスの価値を効率的に上げることも難しくなる。
そこで本資料では、それぞれで目的が異なる運用と開発を協調させるための実践方法について、SREが定義する原則に倣って解説している。無理なく着手するためにも、自分たちの組織にとって着手しやすいところがどこなのかを本資料でチェックしてみてはいかがだろうか。