「SREって転職したいけど、実際に入社したらどんな組織でどんな役割になるんだろう?」
こういった疑問を持つエンジニアは多いです。SREという職種は広く知られるようになりましたが、「SREチームがどう動いているか」「誰が何を担当しているか」は外からわかりにくい部分です。
組織モデルを理解しないまま転職すると、「面接では自由にシステム改善できると聞いたのに、実際はチケット消化ばかりだった」「Embedded SRE専任だと聞いていなかったので、開発チームとの調整コストが想定外だった」といった入社後ギャップが生まれやすくなります。
この記事では、SREチームの代表的な3つの組織モデルの特徴・メリット・デメリット、チーム内の主な役割、開発チームとの連携方法、そして転職時に組織モデルを見極めるポイントまでを解説します。
この記事でわかること
– SREチームに存在する3つの組織モデルの違い
– SREチーム内の主なポジションと役割分担
– SREと開発チームが連携する仕組み(エラーバジェット・オンコール)
– 転職前に求人票と面接で確認すべきポイント
この記事の対象読者
– SRE転職を検討しているインフラ・バックエンドエンジニア
– 社内SREチームの立ち上げや組織変更を検討しているマネージャー
– SREの仕事内容・チーム文化をより深く理解したい方

SREチームの基本的な役割とは
SREチームの役割を一言で表すなら、「システムの信頼性を工学的手法で継続的に向上させること」です。ここでいう「工学的手法」とは、運用業務を手作業ではなくコード・自動化・測定によって管理することを指します。
開発チームとの違い
SREと開発チームの最大の違いは「責任の軸」にあります。
| チーム | 主な責任 | 成功の指標 |
|---|---|---|
| 開発チーム | 新機能を速く届ける | リリース速度・機能完成度 |
| SREチーム | システムを安定して動かし続ける | SLO達成率・インシデント件数・MTTR |
ただし、この2つは対立するものではありません。SREの目的は「開発を止める」ことではなく、信頼性の範囲内で開発スピードを最大化することです。エラーバジェットという概念がその橋渡しをします(後述)。
SREが担う4つの責任領域
実務上、SREチームが担う業務は大きく4つに分類できます。
1. 信頼性設計(SLI/SLO/エラーバジェット)
サービスのどの指標をどの水準で維持するか定義し、継続的に計測します。「99.9%の可用性」といった目標値を設定するだけでなく、日々の状態を可視化するダッシュボードを整備します。
2. 観測性の整備(Observability)
障害を素早く検知し、根本原因を特定できる環境を作ります。メトリクス(CloudWatch等)・ログ(CloudWatch Logs等)・トレース(X-Ray等)の3本柱を整備することが中心業務です。
3. 自動化とToil削減
繰り返し発生する手作業(Toil)をコード化・自動化します。インフラのIaC化、デプロイパイプラインの構築、定期的なバックアップ確認の自動化などが典型例です。
4. インシデント対応とポストモーテム
障害発生時の初動・エスカレーション・復旧フローを整備し、オンコール体制を運用します。インシデント収束後はポストモーテム(事後検討)を実施し、再発防止策を文書化します。
SREチームに求められるスキル
SREの業務範囲の広さから、求められるスキルも多岐にわたります。
- インフラ知識: AWS・GCP・Azureなどのクラウド運用経験
- プログラミング: Python・Go・Bashによるスクリプト作成・自動化
- コンテナ・オーケストレーション: Docker・Kubernetes(EKS等)の運用
- IaC: Terraform・CDKによるインフラコード化
- 観測性ツール: CloudWatch・Datadog・Prometheusなどの活用
- コミュニケーション: 開発チームとのSLO交渉・インシデント振り返りのファシリテーション
これらを全部こなせる人材は少なく、実際のチームでは得意領域が異なる複数人で補い合うのが一般的です。

SREの代表的な3つの組織モデル
SREチームの組織モデルは大きく3つに分類されます。企業のフェーズ・規模・プロダクト数によって最適な形は異なります。
graph TD A["SRE組織モデル"] --> B["中央集権型 Central SRE"] A --> C["組み込み型 Embedded SRE"] A --> D["ハイブリッド型 Hybrid SRE"] B --> B1["SREチームが独立部門として存在 標準ツール・プロセスを全社整備"] C --> C1["SREが各開発チームに常駐 現場密着で改善を推進"] D --> D1["Central SRE + Embedded を併用 大規模組織・複数プロダクト向け"]
中央集権型(Central SRE)
Central SRE(中央集権型)は、SREが独立した部門・チームとして組織内に存在するモデルです。複数の開発チームに対して、SREがプラットフォームや共通ツールを提供する「サービスプロバイダー」として機能します。
特徴
– SREチームが独自のロードマップを持ち、プラットフォーム整備に専念できる
– 標準化されたツール・運用プロセスを全社横断で整備しやすい
– 各開発チームはSREが用意したプラットフォームを使うことで、インフラ運用を意識しなくてよくなる
メリット
– SRE同士でノウハウを共有しやすく、スキルアップしやすい
– 開発チームへの依存度が低く、自律的に動ける
デメリット
– 開発チームの現場課題から距離が生まれやすい
– プラットフォームが「使いにくい」と思われてもフィードバックが届きにくいことがある
向いている企業: 数十人以上の開発組織、複数プロダクトを抱えるスタートアップ〜中規模企業
組み込み型(Embedded SRE)
Embedded SRE(組み込み型)は、SREが特定の開発チームに常駐(embed)するモデルです。SREは開発チームのメンバーとして働きながら、信頼性改善を推進します。
特徴
– SREが開発チームに深く入り込み、現場の課題をリアルタイムで把握できる
– 開発チームとのコミュニケーションコストが低く、改善施策を素早く実装できる
– 開発チームが自律的に信頼性に取り組めるよう、SREが伴走・教育する役割も担う
メリット
– 現場課題に即した実用的な改善ができる
– 開発チームとの信頼関係を構築しやすい
デメリット
– SREが孤立しやすく、横のSRE同士の連携が弱くなりがち
– 担当開発チームの文化・雰囲気にSREのパフォーマンスが左右されやすい
向いている企業: プロダクトが1〜2本の初期フェーズ企業、Googleなど大企業で成熟したプロダクトチームに対して適用するケース
ハイブリッド型(Hybrid SRE)
Hybrid SRE(ハイブリッド型)は、Central SREとEmbedded SREを組み合わせたモデルです。「Core SREチームが共通インフラ・標準を整備しつつ、プロダクトチームにはEmbedded SREが入る」という形が典型的です。
特徴
– Core SREはプラットフォーム・ガバナンスを担当
– Embedded SREは個別プロダクトの信頼性改善を担当
– SREが「プラットフォームエンジニアリング」と「現場支援」の両方をカバーできる
メリット
– Central・Embeddedそれぞれのメリットを活かせる
– スケールしやすく、企業成長に合わせて柔軟に構造を変えられる
デメリット
– 組織が複雑になりやすく、Core SREとEmbedded SREの役割分担が曖昧になると機能しない
– 人数・マネジメントコストが増える
向いている企業: 100人以上のエンジニア組織、複数のプロダクトラインを持つ中〜大企業

SREチーム内の主な役割(ポジション)
SREチームの内部には、いくつかの役割(ポジション)が存在します。転職時に自分がどのポジションに当たるかを理解しておくと、入社後のギャップを防げます。
SRE(Individual Contributor)
一般的に「SRE」と呼ばれるポジションです。現場で直接、システムの信頼性向上に取り組みます。
主な業務:
– SLO設計・測定・レビュー
– 監視・アラート設定
– インシデント対応・オンコール
– インフラのIaC化・自動化スクリプト開発
– ポストモーテム実施・改善策の実装
スキルレベルによってJunior SRE→SRE→Senior SREとキャリアが進みます。転職市場で最も多い求人はこのポジションです。
SREマネージャー
SREチームのマネジメントを担当します。個人の技術貢献よりも、チームとしての成果に責任を持ちます。
主な業務:
– SREチームのロードマップ策定
– 採用・育成・評価
– 経営・プロダクト部門との調整
– SLO・エラーバジェットの意思決定
– オンコール体制の設計
実務では「プレイングマネージャー」として技術貢献しながらマネジメントを兼任するケースも多いです。
プラットフォームエンジニア
SREと近いポジションですが、より「開発者体験(Developer Experience)」の向上に特化した役割です。CI/CDパイプラインの整備・内部開発者向けポータルの構築・共通Terraform moduleの管理などが主な業務です。
近年は「Platform Engineering」という独立した領域として注目されており、SREからプラットフォームエンジニアにキャリアシフトするエンジニアも増えています。
SRE組織が開発チームと連携する仕組み
SREチームが真価を発揮するには、開発チームとの適切な連携が欠かせません。代表的な連携の仕組みを解説します。
graph TD A["プロダクト開発チーム"] -->|"機能開発・リリース要求"| B["SREチーム"] B -->|"SLO設定・エラーバジェット管理"| A B --> C["信頼性向上施策 監視・自動化・IaC"] B --> D["インシデント対応 オンコール・ポストモーテム"] A --> E["エラーバジェット消費"] E -->|"バジェット枯渇時"| F["リリース凍結 信頼性改善優先"] E -->|"バジェット余裕時"| G["機能開発継続 リリース加速"]
チームトポロジーとの関係
近年、組織設計の文脈では「チームトポロジー」という考え方が普及しています。SREはこの文脈では 「プラットフォームチーム」 または 「イネーブリングチーム」 として位置づけられます。
- プラットフォームチーム: 開発チームが使う共通インフラ・ツールを整備し、開発者が自律的に動けるように支援する
- イネーブリングチーム: 開発チームのスキルアップや信頼性文化の醸成を支援する
どちらの役割を強く持つかは、組織のフェーズや文化によって異なります。面接で「御社のSREチームはチームトポロジー的にどちらに近いですか?」と聞くと、組織の成熟度と方向性をうかがい知ることができます。
エラーバジェット交渉の実際
エラーバジェットはSREと開発チームが共通言語で会話するための仕組みです。「SLOが99.9%なら、1ヶ月あたり43.8分のダウンタイムが許容される」というように、許容できる障害量を数値化します。
実務では以下のような形で運用されます。
- エラーバジェットが十分に残っている → 開発チームは新機能のリリースを積極的に進められる
- エラーバジェットが枯渇に近い → SREと開発チームが共同で信頼性改善スプリントを組む
- エラーバジェットが枯渇した → リリースを一時凍結し、信頼性改善を最優先にする
このルールが機能するには、経営・プロダクト部門がエラーバジェットを尊重する文化が必要です。転職先の企業でエラーバジェットが実際に運用されているかは、面接で確認すべき重要なポイントです。
オンコール当番の運用方法
SREチームのオンコール体制は、企業によって大きく異なります。主なパターンは以下の通りです。
| 体制 | 特徴 | 注意点 |
|---|---|---|
| SRE専担オンコール | SREのみがアラートを受け取り、一次対応する | SREの夜間対応負荷が高くなりやすい |
| 開発チームとの共同オンコール | SREと開発チームが交代でオンコールを担当 | 開発チームの信頼性スキルが向上しやすい |
| 開発チームへの段階的移管 | SREが整備したのち、開発チームに当番を移管 | 持続可能なオンコール文化を作りやすい |
理想的なSRE組織では、オンコールが「SREだけが苦労する構造」にならないよう設計されています。入社前に「オンコール当番は何チームで回しているか」「夜間アラートの月平均件数はどのくらいか」を確認することを強く推奨します。

SRE転職で組織モデルを見極めるポイント
求人票から読み取れる情報
SREの求人票には、組織モデルを判断するヒントが含まれていることがあります。
| 求人票の表現 | 推測できる組織モデル |
|---|---|
| 「各プロダクトチームに入ってSREとして活動」 | Embedded SRE の可能性が高い |
| 「SREチームとして全社のプラットフォームを構築」 | Central SRE の可能性が高い |
| 「SRE組織の立ち上げ・初期メンバー」 | これから組織設計を作る段階(裁量大・不確実性大) |
| 「開発チームと連携して信頼性を向上」 | どちらでもあり得る(面接で確認必須) |
曖昧な表現が多い場合は、面接で直接確認するしかありません。
面接で確認すべき3つの質問
転職面接では、以下の3点を必ず確認することを推奨します。
① 「SREチームの構成を教えてください(人数・役割・組織モデル)」
Central/Embedded/Hybridのどれに近いか、チーム人数が適切かを把握できます。SREが1〜2人しかいない場合は、実質的にインフラ担当に近い業務になる可能性があります。
② 「エラーバジェットは実際に運用されていますか?」
「あります」と答えるだけでなく、「エラーバジェットが枯渇したときに開発が止まった経験がありますか?」と深掘りすると、形骸化しているかどうかがわかります。
③ 「オンコールの当番体制と月平均のアラート件数を教えてください」
夜間対応の実態を把握するために重要です。「アラートが多すぎて疲弊している」「アラートのほとんどは自動解消される」など、チームの成熟度が見えてきます。
自分に合った組織モデルの選び方
どの組織モデルが「良い」かは一概には言えません。自分のキャリア志向に合わせて選ぶことが重要です。
| キャリア志向 | 向いているモデル |
|---|---|
| SRE技術を深く磨きたい | Central SRE(専門性が高いメンバーと働ける) |
| 現場課題を素早く解決したい | Embedded SRE(開発チームとの距離が近い) |
| 組織設計・マネジメントにも関わりたい | Hybrid SRE(構造設計の経験ができる) |
| SREとしての基礎を固めたい | いずれでも可(チームのメンバー構成・文化を優先して選ぶ) |
まとめ
本記事のポイントをまとめます。
- SREチームの役割: 信頼性設計・観測性整備・自動化・インシデント対応の4領域が中心
- 3つの組織モデル:
- Central SRE: 独立部門として全社標準を整備。専門性を磨きやすい
- Embedded SRE: 開発チームに常駐。現場課題を素早く解決しやすい
- Hybrid SRE: 両方を組み合わせ。大規模組織向け
- 開発チームとの連携: エラーバジェットが共通言語。オンコール体制の成熟度が組織の健全さを示す
- 転職時の確認ポイント: 組織モデル・エラーバジェットの実運用状況・オンコール体制の3点は面接で必ず確認する
SRE転職を成功させるには、スキルを磨くだけでなく「どんな組織でSREをやりたいか」を言語化できることが重要です。
SRE転職に向けて具体的に動き出したい方には、SRE転職に強いエンジニア向け転職サービス「レバテックダイレクト」の活用をおすすめします。SRE・インフラ系の求人が充実しており、スカウト形式で企業側から声がかかるため、組織の実態を把握しやすい面接機会を得やすいです。
また、SREのキャリアパス全体像については「SREのキャリアパス|シニアSRE・SREマネージャーへの道を徹底解説」、SREの日々の業務内容については「SREの仕事って何をするの?1日の業務タイムラインとツール一覧」も参考にしてください。

コメント