
もっち
- 関東大手SIer勤務
- 10システム、仮想サーバ約200台の基幹系システムが稼働する仮想化基盤のインフラ運用リーダー
以下3点について、ブログで役立つ情報を発信
- インフラ技術・システム運用
- キャリア・マネジメント
- エンジニア実務・仕事術


もっち
以下3点について、ブログで役立つ情報を発信
「復旧作業でヘトヘトなのに、やっと出した報告書が『これじゃわからない』と突き返された……」 「結局、何が悪かったの?と聞かれて言葉に詰まってしまった……」
インフラエンジニアなら、一度はこんな経験があるのではないでしょうか。
こんにちは、もっちです。私は現在、大手SIerで約200台のサーバを支えるインフラ運用リーダーをしています。18年のキャリアの中で、数えきれないほどの障害報告書を書き、そして現在はマネージャーとして、多くの報告書を「チェックする側」にいます。
その経験から断言できることがあります。 報告書で苦労する理由は、文章力ではなく「情報の整理の仕方」にあります。
今回は、管理職が一発で「わかった、ありがとう」と頷く、プロの報告書の書き分け術を公開します。
この記事の想定読者
この記事を読むことでのメリット
多くのエンジニアは、報告書を「起きたことの記録(または反省文)」だと思っています。しかし、それは大きな誤解です。
マネージャーにとっての報告書は、「その上の役員や顧客に、あなたの代わりに説明し、判断するための武器」です。
私が報告書を受け取るとき、実は最初の5秒で以下の3点(BLUF: Bottom Line Up Front)を探しています。
これらが冒頭に「概要」としてまとまっていない報告書は、どれだけ技術的に正しくても、マネージャーにとっては「使い物にならない武器」なのです。
報告書を突き返される最大の原因は、「事実」と「推測(原因)」が混ざっていることです。
事実は、ログ、エラー画面、発生時刻などです。
例: 10:00にDBサーバーのCPU使用率が100%に達し、サービスが5分間停止した。
原因は、事実を元にした分析です。
例: 特定の集計バッチが無限ループし、リソースを枯渇させた。
なぜ分けるのか? 事実と推測が混ざると、上司は「それはあなたの思い込みじゃないのか?」と疑念を持ちます。まず「事実」で外堀を埋め、その後に「原因」を置く。この順番が、信頼を勝ち取る鉄則です。
200台規模の運用現場で特に重視されるのが、「なぜそれが起きたか」の深掘りです。
「担当者がミスをしました」という報告は、マネージャーからすれば「また同じことが起きるな」という恐怖でしかありません。「仕組みのどこに穴があったのか」まで踏み込むのが、プロのインフラエンジニアの仕事です。
私が現場で実際に使用し、メンバーにも推奨しているテンプレートの構成です。各項目には、マネージャー視点での「チェックポイント」を添えました。
マネージャーが最初に知りたいのは「今、どういう状況か」だけです。
サーバ200台規模になると、1つの障害がどこまで波及したかの特定が最重要です。
ここでは一切の推測を排除し、ログに基づいた「事実」だけを並べます。
ここが報告書の「心臓部」です。
「とりあえず直した」だけで終わらせないのが、200台を支えるリーダーの流儀です。
| 項目 | 修正前のよくある書き方 | 修正後の「通る」書き方 |
| 原因 | 設定を間違えました | 手順書に記載がなく、個人の判断で作業した |
| 対策 | 今後は気をつけます | 手順書を修正し、指差し確認の工程を追加する |
| 影響 | 多くの人に影響が出ました | 決済機能を利用中のユーザー約50名に影響 |
| トーン | 申し訳ありません(謝罪中心) | 次の再発防止は〇〇です(改善中心) |
💡 使い方のヒント 各項目の
[ ]内を書き換えて使用してください。不要な項目は削除してOKです。 マネージャーが見るのは「結論」と「仕組みとしての再発防止」です。
Markdown
## 1. 障害概要(BLUF)
- **発生日時:** 202X年[ ]月[ ]日 [ ]時[ ]分 〜 [ ]時[ ]分(継続時間: [ ]分)
- **現在の状況:** [完全復旧 / 暫定復旧(監視継続) / 調査中]
- **事象:** [例:DB接続遅延により、サービス画面がタイムアウトした]
## 2. 影響範囲
- **対象システム:** [ ]
- **影響機能:** [例:ログイン、新規登録]
- **推定影響ユーザー数:** 約[ ]名([ ]%のユーザー)
## 3. 発生経緯(タイムライン)
- [XX:XX] アラート検知([ ]監視より)
- [XX:XX] 一次調査開始
- [XX:XX] 原因特定([ ]ログの××を確認)
- [XX:XX] 暫定対処実施([ ]の再起動)
- [XX:XX] 正常稼働を確認(復旧完了)
## 4. 原因分析
- **直接原因(トリガー):** [例:手動パッチ適用時のコマンド入力ミス]
- **根本原因(ルート原因):** [例:手順書にダブルチェックの工程がなかった / 検証環境との識別が困難なターミナル設定だった]
## 5. 対応内容
- **暫定対処(止血):** [例:プロセスの再起動、旧Verへの切り戻し]
- **恒久対策(根治):** [例:手順書の改訂(XX/XX締切)、設定変更の自動化プログラムの作成]
Plaintext
【障害報告】[件名を簡潔に記入]
■1. 概要
・発生時刻:202X/XX/XX XX:XX 〜 XX:XX
・復旧状況:復旧済み
・事象:[ここに簡潔に記入]
■2. 影響範囲
・対象:[システム名]
・内容:[サービス停止、一部機能制限など]
・規模:約[ ]件 / [ ]名
■3. 発生経緯
XX:XX アラート検知
XX:XX 調査開始
XX:XX 原因特定、復旧作業開始
XX:XX 復旧確認完了
■4. 原因
・直接原因:[何が起きたか]
・根本原因:[なぜ起きたか(仕組みの不備)]
■5. 今後の対策
・暫定策:[実施済みの内容]
・恒久策:[いつまでに、何をするか]
「テンプレートはあくまで『型』です。大切なのは、これを使って『上司の時間を奪わず、チームの安心を作る』という意識です。最初は時間がかかるかもしれませんが、この型を守ることで、あなたの信頼は着実に積み上がっていきます。」
2026年現在の運用現場では、「Blameless Post-mortem(非難なき事後検証)」が主流です。
「誰がミスをしたか」を責めるのではなく、「なぜ防げなかったか」をチームで考える。報告書はそのための資料です。むしろ、報告書を通じて「今のチームにはこれだけの技術的負債がある」「リソースが足りない」という現実を上層部に可視化し、改善予算を勝ち取るチャンスに変えてしまいましょう。
技術力は素晴らしいのに、報告が苦手なために評価を落としている人は本当に多いです。
「事象を正しく、ビジネスの言葉で伝える力」。 これができるようになると、上司からの信頼は劇的に変わり、結果として自分自身の仕事の裁量権(やりやすさ)が増えていきます。
ぜひ、次の障害対応(起きないのが一番ですが!)の際には、この「書き分け術」を試してみてください。
あとがき: 実は私自身、かつては「技術的に正しい説明さえすればいい」と慢心していた時期がありました。そのせいで、大きな障害の際、報告書が書けずに逃げ出したくなったことがあります……。
私の「院卒のプライド」がズタズタになり、そこからどうやってこの考え方に至ったのか。そんな泥臭い裏話は、Noteの方に綴ってみました。
この記事が気に入ったら
フォローしてね!