SRE技術

SRE実務プラクティス

ポストモーテムの書き方完全ガイド|blameless文化を現場に根付かせる5つのポイント

障害が起きるたびに「誰が悪かったのか」を探す振り返りになっていませんか。 同じような障害が何度も繰り返される。振り返り会議が「責任の押し付け合い」になってエンジニアが発言しなくなる。形式的にドキュメントは書くが、アクションアイテムが誰も実行...
AWS監視・オブザーバビリティ

CloudWatch Syntheticsで死活監視を自動化する方法【SRE実践ガイド】

AWSのメトリクスやログを監視しているのに、ユーザーからの「サイトが落ちています」という報告で初めて障害に気づいた——そんな経験はないでしょうか。 CloudWatchでCPU使用率やエラー率を監視していても、実際にユーザー目線でサービスに...
AWS監視・オブザーバビリティ

CloudWatch SLI/SLO設計入門|Application Signalsでエラーバジェットを管理する方法

CloudWatchでアラームを設定しているのに、「どの障害が本当に重要か」「どこまで対応すれば十分か」の判断基準が曖昧なまま運用していませんか? 属人的な判断で優先度を決め続けると、軽微なアラートに深夜対応し、本当に重要なインシデントを見...
AWS監視・オブザーバビリティ

CloudWatchダッシュボードの作り方|SREが最初に作るべき5種類とウィジェット設定

CloudWatchにメトリクスやアラームを設定したのに、障害が起きると「どの画面を見ればいいか」を探すところから始まっていませんか? サービスごと・担当者ごとにバラバラなダッシュボードが乱立し、インシデント発生時に「あの数値はどこで確認で...
AWS監視・オブザーバビリティ

CloudWatch Logs Insightsクエリ入門|SREがよく使うパターン10選

本記事では、Amazon CloudWatch Logs Insightsのクエリ構文と、SRE実務でよく使うパターン10選を解説します。 この記事でわかること CloudWatch Logs Insightsの基本クエリ構文(fields...
AWS監視・オブザーバビリティ

CloudWatch Logsの使い方完全ガイド|SREが実務で使うログ監視・Insights分析

本記事では、Amazon CloudWatch Logsの基本設定からCloudWatch Logs Insightsを使った実務的なログ分析まで、SRE視点で解説します。 この記事でわかること CloudWatch Logsのロググループ...
AWS監視・オブザーバビリティ

CloudWatchアラートの設定方法|閾値・通知先をSRE視点で設計する手順

CloudWatchのアラームを設定したものの、誤検知が多くて通知を無視するようになっていませんか? 「とりあえずCPU使用率が80%を超えたらアラート」という設定を入れたまま放置していると、業務時間中に毎日アラートが飛んでくるようになりま...
AWS監視・オブザーバビリティ

CloudWatch入門|SREが最初に設定すべき5つの機能と優先順位

CloudWatchの機能が多すぎて、何から設定すればいいかわからない——そう感じたことはないでしょうか。 「とりあえずデフォルトのアラームだけ入れた」という状態が続くと、障害が起きても検知が遅れ、深夜に手動でコンソールを確認することが常態...
セキュリティ・コスト最適化

【IT初心者向け】AWSでできることとは【AWS学習開始前に知っておくべき】

AWS
セキュリティ・コスト最適化

【AWS初心者向け】 EC2 運用担当者が知っておくべきこと

こういった疑問に答えます。 【AWS初心者向け】 EC2 運用担当者が知っておくべきこと 本記事を読むことでこれからEC2の運用者が知っておくとよいことがわかります。 EC2の利用イメージをつかめる EC2作成時のパラメータを理解できる(パ...