SREチームの構成と役割とは?3つの組織モデルを現役が解説

SREとは・職種理解

「SREって転職したいけど、実際に入社したらどんな組織でどんな役割になるんだろう?」

こういった疑問を持つエンジニアは多いです。SREという職種は広く知られるようになりましたが、「SREチームがどう動いているか」「誰が何を担当しているか」は外からわかりにくい部分です。

組織モデルを理解しないまま転職すると、「面接では自由にシステム改善できると聞いたのに、実際はチケット消化ばかりだった」「Embedded SRE専任だと聞いていなかったので、開発チームとの調整コストが想定外だった」といった入社後ギャップが生まれやすくなります。

この記事では、SREチームの代表的な3つの組織モデルの特徴・メリット・デメリット、チーム内の主な役割、開発チームとの連携方法、そして転職時に組織モデルを見極めるポイントまでを解説します。

この記事でわかること
– SREチームに存在する3つの組織モデルの違い
– SREチーム内の主なポジションと役割分担
– SREと開発チームが連携する仕組み(エラーバジェット・オンコール)
– 転職前に求人票と面接で確認すべきポイント

この記事の対象読者
– SRE転職を検討しているインフラ・バックエンドエンジニア
– 社内SREチームの立ち上げや組織変更を検討しているマネージャー
– SREの仕事内容・チーム文化をより深く理解したい方


SRE team working together in a modern office environment, engineers monitoring dashboards on multipl

SREチームの基本的な役割とは

SREチームの役割を一言で表すなら、「システムの信頼性を工学的手法で継続的に向上させること」です。ここでいう「工学的手法」とは、運用業務を手作業ではなくコード・自動化・測定によって管理することを指します。

開発チームとの違い

SREと開発チームの最大の違いは「責任の軸」にあります。

チーム 主な責任 成功の指標
開発チーム 新機能を速く届ける リリース速度・機能完成度
SREチーム システムを安定して動かし続ける SLO達成率・インシデント件数・MTTR

ただし、この2つは対立するものではありません。SREの目的は「開発を止める」ことではなく、信頼性の範囲内で開発スピードを最大化することです。エラーバジェットという概念がその橋渡しをします(後述)。

SREが担う4つの責任領域

実務上、SREチームが担う業務は大きく4つに分類できます。

1. 信頼性設計(SLI/SLO/エラーバジェット)
サービスのどの指標をどの水準で維持するか定義し、継続的に計測します。「99.9%の可用性」といった目標値を設定するだけでなく、日々の状態を可視化するダッシュボードを整備します。

2. 観測性の整備(Observability)
障害を素早く検知し、根本原因を特定できる環境を作ります。メトリクス(CloudWatch等)・ログ(CloudWatch Logs等)・トレース(X-Ray等)の3本柱を整備することが中心業務です。

3. 自動化とToil削減
繰り返し発生する手作業(Toil)をコード化・自動化します。インフラのIaC化、デプロイパイプラインの構築、定期的なバックアップ確認の自動化などが典型例です。

4. インシデント対応とポストモーテム
障害発生時の初動・エスカレーション・復旧フローを整備し、オンコール体制を運用します。インシデント収束後はポストモーテム(事後検討)を実施し、再発防止策を文書化します。

SREチームに求められるスキル

SREの業務範囲の広さから、求められるスキルも多岐にわたります。

  • インフラ知識: AWS・GCP・Azureなどのクラウド運用経験
  • プログラミング: Python・Go・Bashによるスクリプト作成・自動化
  • コンテナ・オーケストレーション: Docker・Kubernetes(EKS等)の運用
  • IaC: Terraform・CDKによるインフラコード化
  • 観測性ツール: CloudWatch・Datadog・Prometheusなどの活用
  • コミュニケーション: 開発チームとのSLO交渉・インシデント振り返りのファシリテーション

これらを全部こなせる人材は少なく、実際のチームでは得意領域が異なる複数人で補い合うのが一般的です。


Three different organization models comparison chart, Central SRE vs Embedded SRE vs Hybrid SRE, fla

SREの代表的な3つの組織モデル

SREチームの組織モデルは大きく3つに分類されます。企業のフェーズ・規模・プロダクト数によって最適な形は異なります。

graph TD

  A["SRE組織モデル"] --> B["中央集権型
Central SRE"]

  A --> C["組み込み型
Embedded SRE"]

  A --> D["ハイブリッド型
Hybrid SRE"]

  B --> B1["SREチームが独立部門として存在
標準ツール・プロセスを全社整備"]

  C --> C1["SREが各開発チームに常駐
現場密着で改善を推進"]

  D --> D1["Central SRE + Embedded を併用
大規模組織・複数プロダクト向け"]

中央集権型(Central SRE)

Central SRE(中央集権型)は、SREが独立した部門・チームとして組織内に存在するモデルです。複数の開発チームに対して、SREがプラットフォームや共通ツールを提供する「サービスプロバイダー」として機能します。

特徴
– SREチームが独自のロードマップを持ち、プラットフォーム整備に専念できる
– 標準化されたツール・運用プロセスを全社横断で整備しやすい
– 各開発チームはSREが用意したプラットフォームを使うことで、インフラ運用を意識しなくてよくなる

メリット
– SRE同士でノウハウを共有しやすく、スキルアップしやすい
– 開発チームへの依存度が低く、自律的に動ける

デメリット
– 開発チームの現場課題から距離が生まれやすい
– プラットフォームが「使いにくい」と思われてもフィードバックが届きにくいことがある

向いている企業: 数十人以上の開発組織、複数プロダクトを抱えるスタートアップ〜中規模企業

組み込み型(Embedded SRE)

Embedded SRE(組み込み型)は、SREが特定の開発チームに常駐(embed)するモデルです。SREは開発チームのメンバーとして働きながら、信頼性改善を推進します。

特徴
– SREが開発チームに深く入り込み、現場の課題をリアルタイムで把握できる
– 開発チームとのコミュニケーションコストが低く、改善施策を素早く実装できる
– 開発チームが自律的に信頼性に取り組めるよう、SREが伴走・教育する役割も担う

メリット
– 現場課題に即した実用的な改善ができる
– 開発チームとの信頼関係を構築しやすい

デメリット
– SREが孤立しやすく、横のSRE同士の連携が弱くなりがち
– 担当開発チームの文化・雰囲気にSREのパフォーマンスが左右されやすい

向いている企業: プロダクトが1〜2本の初期フェーズ企業、Googleなど大企業で成熟したプロダクトチームに対して適用するケース

ハイブリッド型(Hybrid SRE)

Hybrid SRE(ハイブリッド型)は、Central SREとEmbedded SREを組み合わせたモデルです。「Core SREチームが共通インフラ・標準を整備しつつ、プロダクトチームにはEmbedded SREが入る」という形が典型的です。

特徴
– Core SREはプラットフォーム・ガバナンスを担当
– Embedded SREは個別プロダクトの信頼性改善を担当
– SREが「プラットフォームエンジニアリング」と「現場支援」の両方をカバーできる

メリット
– Central・Embeddedそれぞれのメリットを活かせる
– スケールしやすく、企業成長に合わせて柔軟に構造を変えられる

デメリット
– 組織が複雑になりやすく、Core SREとEmbedded SREの役割分担が曖昧になると機能しない
– 人数・マネジメントコストが増える

向いている企業: 100人以上のエンジニア組織、複数のプロダクトラインを持つ中〜大企業


SRE team roles hierarchy diagram, Individual Contributor engineer at workstation, SRE Manager in mee

SREチーム内の主な役割(ポジション)

SREチームの内部には、いくつかの役割(ポジション)が存在します。転職時に自分がどのポジションに当たるかを理解しておくと、入社後のギャップを防げます。

SRE(Individual Contributor)

一般的に「SRE」と呼ばれるポジションです。現場で直接、システムの信頼性向上に取り組みます。

主な業務:
– SLO設計・測定・レビュー
– 監視・アラート設定
– インシデント対応・オンコール
– インフラのIaC化・自動化スクリプト開発
– ポストモーテム実施・改善策の実装

スキルレベルによってJunior SRE→SRE→Senior SREとキャリアが進みます。転職市場で最も多い求人はこのポジションです。

SREマネージャー

SREチームのマネジメントを担当します。個人の技術貢献よりも、チームとしての成果に責任を持ちます。

主な業務:
– SREチームのロードマップ策定
– 採用・育成・評価
– 経営・プロダクト部門との調整
– SLO・エラーバジェットの意思決定
– オンコール体制の設計

実務では「プレイングマネージャー」として技術貢献しながらマネジメントを兼任するケースも多いです。

プラットフォームエンジニア

SREと近いポジションですが、より「開発者体験(Developer Experience)」の向上に特化した役割です。CI/CDパイプラインの整備・内部開発者向けポータルの構築・共通Terraform moduleの管理などが主な業務です。

近年は「Platform Engineering」という独立した領域として注目されており、SREからプラットフォームエンジニアにキャリアシフトするエンジニアも増えています。


SRE組織が開発チームと連携する仕組み

SREチームが真価を発揮するには、開発チームとの適切な連携が欠かせません。代表的な連携の仕組みを解説します。

graph TD

  A["プロダクト開発チーム"] -->|"機能開発・リリース要求"| B["SREチーム"]

  B -->|"SLO設定・エラーバジェット管理"| A

  B --> C["信頼性向上施策
監視・自動化・IaC"]

  B --> D["インシデント対応
オンコール・ポストモーテム"]

  A --> E["エラーバジェット消費"]

  E -->|"バジェット枯渇時"| F["リリース凍結
信頼性改善優先"]

  E -->|"バジェット余裕時"| G["機能開発継続
リリース加速"]

チームトポロジーとの関係

近年、組織設計の文脈では「チームトポロジー」という考え方が普及しています。SREはこの文脈では 「プラットフォームチーム」 または 「イネーブリングチーム」 として位置づけられます。

  • プラットフォームチーム: 開発チームが使う共通インフラ・ツールを整備し、開発者が自律的に動けるように支援する
  • イネーブリングチーム: 開発チームのスキルアップや信頼性文化の醸成を支援する

どちらの役割を強く持つかは、組織のフェーズや文化によって異なります。面接で「御社のSREチームはチームトポロジー的にどちらに近いですか?」と聞くと、組織の成熟度と方向性をうかがい知ることができます。

エラーバジェット交渉の実際

エラーバジェットはSREと開発チームが共通言語で会話するための仕組みです。「SLOが99.9%なら、1ヶ月あたり43.8分のダウンタイムが許容される」というように、許容できる障害量を数値化します。

実務では以下のような形で運用されます。

  • エラーバジェットが十分に残っている → 開発チームは新機能のリリースを積極的に進められる
  • エラーバジェットが枯渇に近い → SREと開発チームが共同で信頼性改善スプリントを組む
  • エラーバジェットが枯渇した → リリースを一時凍結し、信頼性改善を最優先にする

このルールが機能するには、経営・プロダクト部門がエラーバジェットを尊重する文化が必要です。転職先の企業でエラーバジェットが実際に運用されているかは、面接で確認すべき重要なポイントです。

オンコール当番の運用方法

SREチームのオンコール体制は、企業によって大きく異なります。主なパターンは以下の通りです。

体制 特徴 注意点
SRE専担オンコール SREのみがアラートを受け取り、一次対応する SREの夜間対応負荷が高くなりやすい
開発チームとの共同オンコール SREと開発チームが交代でオンコールを担当 開発チームの信頼性スキルが向上しやすい
開発チームへの段階的移管 SREが整備したのち、開発チームに当番を移管 持続可能なオンコール文化を作りやすい

理想的なSRE組織では、オンコールが「SREだけが苦労する構造」にならないよう設計されています。入社前に「オンコール当番は何チームで回しているか」「夜間アラートの月平均件数はどのくらいか」を確認することを強く推奨します。


Engineer preparing for job interview, checklist with organization model evaluation points, laptop sh

SRE転職で組織モデルを見極めるポイント

求人票から読み取れる情報

SREの求人票には、組織モデルを判断するヒントが含まれていることがあります。

求人票の表現 推測できる組織モデル
「各プロダクトチームに入ってSREとして活動」 Embedded SRE の可能性が高い
「SREチームとして全社のプラットフォームを構築」 Central SRE の可能性が高い
「SRE組織の立ち上げ・初期メンバー」 これから組織設計を作る段階(裁量大・不確実性大)
「開発チームと連携して信頼性を向上」 どちらでもあり得る(面接で確認必須)

曖昧な表現が多い場合は、面接で直接確認するしかありません。

面接で確認すべき3つの質問

転職面接では、以下の3点を必ず確認することを推奨します。

① 「SREチームの構成を教えてください(人数・役割・組織モデル)」
Central/Embedded/Hybridのどれに近いか、チーム人数が適切かを把握できます。SREが1〜2人しかいない場合は、実質的にインフラ担当に近い業務になる可能性があります。

② 「エラーバジェットは実際に運用されていますか?」
「あります」と答えるだけでなく、「エラーバジェットが枯渇したときに開発が止まった経験がありますか?」と深掘りすると、形骸化しているかどうかがわかります。

③ 「オンコールの当番体制と月平均のアラート件数を教えてください」
夜間対応の実態を把握するために重要です。「アラートが多すぎて疲弊している」「アラートのほとんどは自動解消される」など、チームの成熟度が見えてきます。

自分に合った組織モデルの選び方

どの組織モデルが「良い」かは一概には言えません。自分のキャリア志向に合わせて選ぶことが重要です。

キャリア志向 向いているモデル
SRE技術を深く磨きたい Central SRE(専門性が高いメンバーと働ける)
現場課題を素早く解決したい Embedded SRE(開発チームとの距離が近い)
組織設計・マネジメントにも関わりたい Hybrid SRE(構造設計の経験ができる)
SREとしての基礎を固めたい いずれでも可(チームのメンバー構成・文化を優先して選ぶ)

まとめ

本記事のポイントをまとめます。

  • SREチームの役割: 信頼性設計・観測性整備・自動化・インシデント対応の4領域が中心
  • 3つの組織モデル:
  • Central SRE: 独立部門として全社標準を整備。専門性を磨きやすい
  • Embedded SRE: 開発チームに常駐。現場課題を素早く解決しやすい
  • Hybrid SRE: 両方を組み合わせ。大規模組織向け
  • 開発チームとの連携: エラーバジェットが共通言語。オンコール体制の成熟度が組織の健全さを示す
  • 転職時の確認ポイント: 組織モデル・エラーバジェットの実運用状況・オンコール体制の3点は面接で必ず確認する

SRE転職を成功させるには、スキルを磨くだけでなく「どんな組織でSREをやりたいか」を言語化できることが重要です。

SRE転職に向けて具体的に動き出したい方には、SRE転職に強いエンジニア向け転職サービス「レバテックダイレクト」の活用をおすすめします。SRE・インフラ系の求人が充実しており、スカウト形式で企業側から声がかかるため、組織の実態を把握しやすい面接機会を得やすいです。

また、SREのキャリアパス全体像については「SREのキャリアパス|シニアSRE・SREマネージャーへの道を徹底解説」、SREの日々の業務内容については「SREの仕事って何をするの?1日の業務タイムラインとツール一覧」も参考にしてください。

コメント

タイトルとURLをコピーしました