サーバ200台の現場で学んだ「通る報告書」の鉄則〜マネージャーが本当に求めている3つの情報〜

もっち

  • 関東大手SIer勤務
  • 10システム、仮想サーバ約200台の基幹系システムが稼働する仮想化基盤のインフラ運用リーダー

以下3点について、ブログで役立つ情報を発信

  1. インフラ技術・システム運用
  2. キャリア・マネジメント
  3. エンジニア実務・仕事術

「復旧作業でヘトヘトなのに、やっと出した報告書が『これじゃわからない』と突き返された……」 「結局、何が悪かったの?と聞かれて言葉に詰まってしまった……」

インフラエンジニアなら、一度はこんな経験があるのではないでしょうか。

こんにちは、もっちです。私は現在、大手SIerで約200台のサーバを支えるインフラ運用リーダーをしています。18年のキャリアの中で、数えきれないほどの障害報告書を書き、そして現在はマネージャーとして、多くの報告書を「チェックする側」にいます。

その経験から断言できることがあります。 報告書で苦労する理由は、文章力ではなく「情報の整理の仕方」にあります。

今回は、管理職が一発で「わかった、ありがとう」と頷く、プロの報告書の書き分け術を公開します。

この記事の想定読者

  • どのように障害報告書を書くべきか迷っている
  • 障害を報告する場合の要点を知りたい

この記事を読むことでのメリット

  • 障害報告書を作成する際の指針を理解できる
  • 障害報告の要点をおさえられる
目次

報告書の目的を「再定義」しよう

多くのエンジニアは、報告書を「起きたことの記録(または反省文)」だと思っています。しかし、それは大きな誤解です。

マネージャーにとっての報告書は、「その上の役員や顧客に、あなたの代わりに説明し、判断するための武器」です。

私が報告書を受け取るとき、実は最初の5秒で以下の3点(BLUF: Bottom Line Up Front)を探しています。

  • 復旧の有無: 今、システムは動いているのか?(RTOとの乖離)
  • 影響の範囲: 誰が、何に困っているのか?(ビジネスへの実損)
  • 再発の懸念: 今夜、私は安心して寝ていいのか?

これらが冒頭に「概要」としてまとまっていない報告書は、どれだけ技術的に正しくても、マネージャーにとっては「使い物にならない武器」なのです。

最重要:「事実」と「原因」を徹底的に分ける

報告書を突き返される最大の原因は、「事実」と「推測(原因)」が混ざっていることです。

「事実」は誰が見ても疑いようのないデータ

事実は、ログ、エラー画面、発生時刻などです。

例: 10:00にDBサーバーのCPU使用率が100%に達し、サービスが5分間停止した。

「原因」はそこから導き出される論理

原因は、事実を元にした分析です。

例: 特定の集計バッチが無限ループし、リソースを枯渇させた。

なぜ分けるのか? 事実と推測が混ざると、上司は「それはあなたの思い込みじゃないのか?」と疑念を持ちます。まず「事実」で外堀を埋め、その後に「原因」を置く。この順番が、信頼を勝ち取る鉄則です。

「トリガー」と「ルート原因」を混同しない

200台規模の運用現場で特に重視されるのが、「なぜそれが起きたか」の深掘りです。

  • トリガー(引き金): 「コマンドの打ち間違い」「設定ミス」
  • ルート原因(根本原因): 「本番環境へのアクセス制限が不十分だった」「作業手順書にダブルチェックの項目がなかった」

「担当者がミスをしました」という報告は、マネージャーからすれば「また同じことが起きるな」という恐怖でしかありません。「仕組みのどこに穴があったのか」まで踏み込むのが、プロのインフラエンジニアの仕事です。

【詳細版】そのまま使える!障害報告の基本テンプレートと徹底解説

私が現場で実際に使用し、メンバーにも推奨しているテンプレートの構成です。各項目には、マネージャー視点での「チェックポイント」を添えました。

① 概要(BLUF:結論を最優先)

マネージャーが最初に知りたいのは「今、どういう状況か」だけです。

  • 内容: 発生日時、復旧状況、事象を一言で。
  • 書き方のコツ: 3行以内でまとめます。例: 2026年1月10日 10:00〜10:15(15分間)、DBサーバの応答遅延により全サービスが停止。現在は暫定対処により完全復旧済み。

② 影響範囲(ビジネスインパクト)

サーバ200台規模になると、1つの障害がどこまで波及したかの特定が最重要です。

  • 内容: 影響を受けたシステム名、ユーザー数、停止した機能。
  • マネージャーの視点: 「お客様への補償や謝罪が必要なレベルか?」を判断します。「影響は調査中」が最も嫌われるため、不明な場合は「最大で〇〇名の可能性」と、最悪のケースを提示しましょう。

③ 発生経緯(タイムライン:事実に徹する)

ここでは一切の推測を排除し、ログに基づいた「事実」だけを並べます。

  • 内容: アラート検知 → 調査開始 → 原因特定 → 復旧作業 → 復旧確認。
  • 書き方のコツ: 「〇〇だと思われる」は厳禁です。「〇〇ログに××の記録あり」と、証拠をベースに書きます。

④ 原因分析(トリガーとルート原因)

ここが報告書の「心臓部」です。

  • 直接原因(トリガー): 何が引き金になったか。(例:設定ファイルの記述ミス)
  • 根本原因(ルート原因): なぜそのミスが起きたか。(例:ダブルチェックの項目が不足していた、作業環境の識別が困難だった)
  • 解説: 「担当者の不注意」で終わらせず、「仕組みの欠陥」を見つけることがプロの仕事です。

⑤ 対応内容(暫定対処と恒久対策)

「とりあえず直した」だけで終わらせないのが、200台を支えるリーダーの流儀です。

  • 暫定対処(止血): サービスを再開させるために何をしたか。(例:プロセス再起動)
  • 恒久対策(根治): 二度と起こさないために何をするか。(例:設定変更の自動化プログラム導入、監視しきい値の見直し)
  • アドバイス: 恒久対策に期限(いつまでに完了するか)を入れると、管理職からの信頼度が格段に上がります。

【比較表】報告書の質を分けるポイント

項目修正前のよくある書き方修正後の「通る」書き方
原因設定を間違えました手順書に記載がなく、個人の判断で作業した
対策今後は気をつけます手順書を修正し、指差し確認の工程を追加する
影響多くの人に影響が出ました決済機能を利用中のユーザー約50名に影響
トーン申し訳ありません(謝罪中心)次の再発防止は〇〇です(改善中心)

【コピペOK】障害報告書・基本テンプレート

💡 使い方のヒント 各項目の [ ] 内を書き換えて使用してください。不要な項目は削除してOKです。 マネージャーが見るのは「結論」と「仕組みとしての再発防止」です。

1. Markdown形式(GitHub, Backlog, Notion等に)

Markdown

## 1. 障害概要(BLUF)
- **発生日時:** 202X年[ ]月[ ]日 [ ]時[ ]分 〜 [ ]時[ ]分(継続時間: [ ]分)
- **現在の状況:** [完全復旧 / 暫定復旧(監視継続) / 調査中]
- **事象:** [例:DB接続遅延により、サービス画面がタイムアウトした]

## 2. 影響範囲
- **対象システム:** [ ]
- **影響機能:** [例:ログイン、新規登録]
- **推定影響ユーザー数:** 約[ ]名([ ]%のユーザー)

## 3. 発生経緯(タイムライン)
- [XX:XX] アラート検知([ ]監視より)
- [XX:XX] 一次調査開始
- [XX:XX] 原因特定([ ]ログの××を確認)
- [XX:XX] 暫定対処実施([ ]の再起動)
- [XX:XX] 正常稼働を確認(復旧完了)

## 4. 原因分析
- **直接原因(トリガー):** [例:手動パッチ適用時のコマンド入力ミス]
- **根本原因(ルート原因):** [例:手順書にダブルチェックの工程がなかった / 検証環境との識別が困難なターミナル設定だった]

## 5. 対応内容
- **暫定対処(止血):** [例:プロセスの再起動、旧Verへの切り戻し]
- **恒久対策(根治):** [例:手順書の改訂(XX/XX締切)、設定変更の自動化プログラムの作成]

2. プレーンテキスト形式(メール、Slack、Teams等に)

Plaintext

【障害報告】[件名を簡潔に記入]

■1. 概要
・発生時刻:202X/XX/XX XX:XX 〜 XX:XX
・復旧状況:復旧済み
・事象:[ここに簡潔に記入]

■2. 影響範囲
・対象:[システム名]
・内容:[サービス停止、一部機能制限など]
・規模:約[ ]件 / [ ]名

■3. 発生経緯
XX:XX アラート検知
XX:XX 調査開始
XX:XX 原因特定、復旧作業開始
XX:XX 復旧確認完了

■4. 原因
・直接原因:[何が起きたか]
・根本原因:[なぜ起きたか(仕組みの不備)]

■5. 今後の対策
・暫定策:[実施済みの内容]
・恒久策:[いつまでに、何をするか]

「テンプレートはあくまで『型』です。大切なのは、これを使って『上司の時間を奪わず、チームの安心を作る』という意識です。最初は時間がかかるかもしれませんが、この型を守ることで、あなたの信頼は着実に積み上がっていきます。」

報告書を「個人の反省文」にしない

2026年現在の運用現場では、「Blameless Post-mortem(非難なき事後検証)」が主流です。

「誰がミスをしたか」を責めるのではなく、「なぜ防げなかったか」をチームで考える。報告書はそのための資料です。むしろ、報告書を通じて「今のチームにはこれだけの技術的負債がある」「リソースが足りない」という現実を上層部に可視化し、改善予算を勝ち取るチャンスに変えてしまいましょう。

まとめ:報告書が書けるエンジニアは「重宝」される

技術力は素晴らしいのに、報告が苦手なために評価を落としている人は本当に多いです。

「事象を正しく、ビジネスの言葉で伝える力」。 これができるようになると、上司からの信頼は劇的に変わり、結果として自分自身の仕事の裁量権(やりやすさ)が増えていきます。

ぜひ、次の障害対応(起きないのが一番ですが!)の際には、この「書き分け術」を試してみてください。

あとがき: 実は私自身、かつては「技術的に正しい説明さえすればいい」と慢心していた時期がありました。そのせいで、大きな障害の際、報告書が書けずに逃げ出したくなったことがあります……。

私の「院卒のプライド」がズタズタになり、そこからどうやってこの考え方に至ったのか。そんな泥臭い裏話は、Noteの方に綴ってみました。

https://note.com/infra_mocchi/n/nc9c249dbe6e0

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

もっちのアバター もっち インフラエンジニア/サービスマネージャ

・関東大手SIer勤務
・10システム、仮想サーバ約200台の基幹系システムが稼働する仮想化基盤のインフラ運用リーダー

以下3点について、ブログで役立つ情報を発信
1.インフラ技術・システム運用
2.キャリア・マネジメント
3.エンジニア実務・仕事術

目次