障害対応

SRE実務プラクティス

SREのドキュメント文化|RunbookとPlaybookの書き方・運用方法を徹底解説

「あの手順、〇〇さんに聞かないとわからない」——その状態が続いている組織は、障害時に必ず詰まります。 深夜2時にアラートが鳴って、担当エンジニアがオンコールに応答する。でも手順書がないか古くて信用できないため、ゼロから調査を始めることになる...
SRE実務プラクティス

AWSの本番環境で障害が起きたときの初動対応チェックリスト

AWS本番環境で突然アラートが鳴り響く。「何から確認すればいいか迷って、貴重な初動5分を無駄にした」という経験は、SREであれば誰でも一度は通る道です。 初動対応で最も大切なのは「速さ」ではなく「順序の正しさ」です。闇雲にログを掘り始めても...