オンコール

SRE実務プラクティス

オンコール設計のベストプラクティス|疲弊しない体制の作り方をSRE視点で解説

オンコール対応が「特定の人に集中する」「深夜対応が続いて疲弊する」状態になっていませんか。 「またアラートが来た」「今週で3回目の深夜対応だ」「ちゃんと引き継ぎが完了していなくて障害の詳細を知らないまま対応しなきゃいけない」——こういった状...
SRE実務プラクティス

インシデント対応フローの設計|検知から復旧・振り返りまでSRE流に解説

本番環境で障害が起きたとき、「誰が何をすべきか」が曖昧なまま動いていませんか。 アラートが飛んでくる。Slackが騒ぎ始める。でも初動で5分・10分と時間を無駄にし、気づいたら「誰かが対応してると思ってた」という状況——これはフローが設計さ...