インシデント対応

SRE実務プラクティス

オンコール設計のベストプラクティス|疲弊しない体制の作り方をSRE視点で解説

オンコール対応が「特定の人に集中する」「深夜対応が続いて疲弊する」状態になっていませんか。 「またアラートが来た」「今週で3回目の深夜対応だ」「ちゃんと引き継ぎが完了していなくて障害の詳細を知らないまま対応しなきゃいけない」——こういった状...
SRE実務プラクティス

インシデント対応フローの設計|検知から復旧・振り返りまでSRE流に解説

本番環境で障害が起きたとき、「誰が何をすべきか」が曖昧なまま動いていませんか。 アラートが飛んでくる。Slackが騒ぎ始める。でも初動で5分・10分と時間を無駄にし、気づいたら「誰かが対応してると思ってた」という状況——これはフローが設計さ...
SRE実務プラクティス

ポストモーテムの書き方完全ガイド|blameless文化を現場に根付かせる5つのポイント

障害が起きるたびに「誰が悪かったのか」を探す振り返りになっていませんか。 同じような障害が何度も繰り返される。振り返り会議が「責任の押し付け合い」になってエンジニアが発言しなくなる。形式的にドキュメントは書くが、アクションアイテムが誰も実行...
SRE転職

SRE技術面接で聞かれる質問と模範解答【SLO・インシデント対応編】

SRE転職の技術面接で、「SLOを設計した経験はありますか?」「インシデント対応のフローを説明してください」と聞かれて、頭が真っ白になった経験はないでしょうか。 このような質問は「知識を問う」のではなく、実際に現場で使えるかどうかを見極める...