サービスの信頼性を担う「SRE」、NTTドコモの事例に学ぶ具体的な実践法

コンテンツ情報

公開日	2022/04/18	フォーマット	URL	種類	事例
ページ数・視聴時間	39分33秒			ファイルサイズ	-

要約

　今、多くの企業でサービスの信頼性を担うSRE（Site Reliability Engineering）の組織やエンジニアロールが立ち上げられ始めている。SREとは、職能上の枠を超えてソフトウェアエンジニアが運用を設計することであり、これにより拡張性が高く信頼性に重きをおくシステムの構築が可能になる。開発と運用をより効率的に回すため、DevOpsに独自拡張を加えた1プラクティスとも考えられる。

　それでは、もともとはインフラやその運用エンジニアとして活動していたチームがSREを担うエンジニアへと変革を遂げるには、何が必要だろうか。本動画では、SREの基本から、SREのミッションであるサービスの信頼性向上に必要なSLI（計測値）／SLO（目標値）／SLA（契約値）の基礎まで解説する。

　併せて、動画、電子書籍や決済サービスなど50種類以上のデジタルサービスを約7800万人に提供するNTTドコモの事例を紹介する。同社のSREチームでは、月に数十億のトランザクションをさばきながら、今後数十倍に拡大すると予測されているシステムを管理している。実際の運用で生じた課題や解決策など、運用負荷を高めることなくサービスレベルを向上させる取り組みを確認してほしい。

ログインして閲覧