【セッションメモ】AWS Summit 2022 - Design for Resilience - 如何にしてクラウドアプリケーションの耐久力を高めるか
まえおき 先週開催されたAWS Summitのセッションの中で「Design for Resilience - 如何にしてクラウドアプリケーションの耐久力を高めるか」というセッションがとてもよかった&勉強になった。AWS要素は少なくどのクラウドサービスを利用しても適用できるSREの基礎的な内容で、新人やクラウドをこれから始める人はぜひ1回は聞いてほしい内容だった。 6月30日までセッションの動画アーカイブが公開されるらしく、復習しながらメモを書いてみた。 アーカイブを見たい場合は AWS Summit Japnanページ からログインして、 Design for Resilience - 如何にしてクラウドアプリケーションの耐久力を高めるか(SP-04) というセッションを検索すると出ると思う。 資料も早く公開になったらいいな。 レジリエンスとは 言葉の定義 「抵抗力」、「回復力」、「弾力性」 最近では「困難な状況にも関わらず、しなやかに適応する能力」と言われる 情報システムにおけるレジリエンス 定常的に発生しうる部分的な障害に対する適応力 → HA(High Availability) MTBF(平均故障間隔)・MTTR(平均復旧時間) めったに発生しない広範囲の障害に対する回復力 → DR(Disaster Recovery) RTO(目標復旧時点)・RPO(目標復旧時間) 両方の目的は「アップタイムを長く、ダウンタイムを短く、データ損失は最小限にする」 レジリエンスの重要性 我々の日常生活・ビジネスはシステムに大きく依存している メール、生産、物流、ネットの買い物、銀行のATM... 今後システム依存度はどんどん強くなり、代替手段を戻すことも簡単ではない 障害とは システムが正常な稼働状態を維持できなくなること 障害の原因 → コントロールが効きにくい(すべての原因・変化を事前に想定して取り除くことは難しい) コードや設定、データや状態、コアインフラ、災害シナリオ 障害の影響 → コントロールが効きやすい(...