非難しないポストモーテム

インシデントを将来の信頼性への投資に変える
Contributed by

Jakub Filipczak

Published March 22, 2022
Collection
2

概要

ポストモーテムとは、インシデントやその他のタイプのシステム停止、そのタイムライン、環境条件、およびインシデントの発生につながった可能性のあるすべての要因を評価する、インシデント後のプラクティスです。ポストモーテムは通常、インシデントのタイムラインと、ある組織においてインシデントを発生させたすべての要因、および停止が発生する前、発生中、発生後のオペレーターの行動への影響も対象とします。このプラクティスにより、参加者とステークホルダーは、インシデントに寄与した最も重要な要因について、迅速に結論を出すことができます。また、参加者に深い経験を提供し、すべての関係者と共有できる事後サマリーを作成することで、学習の目的も果たします。ポストモーテムは、ほとんどすべての主要なITサポート組織で行われている根本原因分析(RCA)の発展形として扱うことができます。

RCAと非難しないポストモーテムの大きな違いは、両者の実施方法であり、後者は根本的な原因を特定するだけでなく、その過程で好ましくない判断がなされる可能性がないことを確認することに重点を置きます。多くの場合、ポストモーテムはあまり形式化されない方法で実施され、文書化よりも実際のストーリーが優先されます。

“私たちの仕事は、間違った設定ファイルを適用した不運なエンジニアを非難することではありません、私たちの仕事は、そのエンジニアがなぜ間違った設定ファイルを選択したのか、そして今後それを防ぐために私たち個人や組織として何ができるのかを解明することなのです。”

メリット

非難しないポストモーテムには、いくつかの重要な目的があります:

  • インシデントを引き起こし、インシデントのタイムラインに良い意味でも悪い意味でも影響を与えた要因を特定する
  • チーム内だけでなく、インシデント対応やポストモーテムに関わるチーム間のコミュニケーションを改善する - ”失敗についてオープンに話すことができれば、どんなことでも話すことができる”
  • ”失敗しても大丈夫”という安全文化を促進する

実施方法

非難しないポストモーテムの成功は、次の2つの土台の上に成り立っている:

  • インシデントに関する情報の入手可能性。
  • オープンな発言を促す、参加者全員の心理的安全性。

可能な限り多くの情報をポストモーテム会議の前に確保し、インシデントチケット、報告書、そして最も重要なこととして、インシデントの修復と解決の間に取られたアクションのリストを集めるべきです。アクションの追跡の形式がどのようなものであれ、タイムスタンプとともに、何が行われたか、できればアクションの結果がどうであったかについての情報があることを確認します。行動と結果の順序を追跡することは、一般的な「状況」を把握する上で極めて重要でになります。また、インシデント対応に関与するすべての関係者を特定し、それらの関係者全員がポストモーテム会議に参加するようにします。主要なステークホルダーは、非難しないポストモーテムに参加したいと思うかもしれません。ステークホルダーがいると、他の利害関係者が自由に発言できなくなる可能性があるため、ポストモーテム自体には参加しないことを強く推奨します。ステークホルダーを参加させる最良のタイミングは、ポストモーテムが作成され、シニアエンジニアが正確性を確認した後です。

会議の前に、期待値が正しく設定されていることを確認します。ポストモーテムは、非難を確立する目的で行われるものではなく、何がうまくいき、何が悪かったのかを明確にするためのものです。どのような結論であれ、尊重されるべきであり、純粋な行動にのみフォーカスするべきです。ポストモーテムから信頼できる結果を得るためには、参加者全員の心理的安全が鍵となります。取られた行動に関して意見の相違がある場合は、相違の対象を詳細に説明し、別のアプローチを提示するようにします。非難しないポストモーテムでは、すべてのインシデント参加者が、その時点で持っていた情報に基づいて最善の意図で行動したと仮定します。また、物事は失敗するものであり、人間は過ちを犯すものであることも認めます。このような前提を念頭に置けば、失敗や間違いを説明し、それに備えることは組織の責任であることは明らかになります。

これらのルールが参加者全員に受け入れられ、情報が確保され、すべての関係者が召集されていれば、会議を運営する準備は整ったことになります。会議は、インシデントの時系列に沿った形で構成します。参加者は、インシデントがどのように確認されたか、どのようなアクションが取られたかなど、各項目を確認していきます。インシデントの解決に必要なすべての関係者がタイムリーに関与したかどうかについても議論します。それだけにとどまらず、インシデント対応に重要と思われる項目についても話し合います。ロールプレイングゲームを考え、スクリプトは行動の軌跡に基づきます。参加者が決定した粒度にもよるが、主要な行動はすべて議論されるべきです。アクションのコンテキストと、そのアクションが起こった時点で入手可能であった情報に留意します。また、後から振り返ることで、今後より良い道を選択できるようにします。. 一般的に、行動は次のような次元で議論されるべきです:

  • なぜそのような措置が取られたか?
  • アクションの結果はポジティブかネガティブか?
  • その結果を知った上で、私たちにできることは何だろうか?

議論によって、小さな問題から大きな問題まで明らかになる可能性があります。また、特定の事柄がインシデント対応に肯定的または否定的な影響を与えたという一般的な意見がある場合は、必ずその改善策について議論してください。改善策を追跡し、信頼性のためのリスクレベルを下げるために、アクションポイントを上げるべきです。オープンマインドを保つこと、あるものは技術的な手段で解決できるかもしれないし、あるものはより手続き的なものに基づくかもしれないが、最終的にはすべてが統合され、インシデント発生のリスクを下げるためにはすべてが重要となります。

参加者全員がインシデントについて説明し、よく理解したと判断した時点で会議を終了し、ポストモーテムサマリーを作成し、出席者全員に承認されるべきです。ステークホルダーやその他の関係者と共有できるようなポストモーテムサマリーは、事実に焦点を当て、個人的な要因はすべて脇に置いて、簡潔かつ正確に作成すべきです。サマリーは、他の人が同じ過ちを犯さないようにすることを目的として作成します。最後になるが、アクション・ポイントは必ず調べ、対処するべきです。次回のポストモーテムに向けては、前回のポストモーテムが時間の無駄ではなく、組織の働き方を本当に改善したという参加者の自信や達成感ほど、良いブースターとなるものはありません。ポストモーテムのために、スクリプトやコンテンツを提供してくれる「不幸の輪(Wheel-of-Misfortune)」と呼ばれる別の有用なプラクティスもお忘れなく。

実施例

参考

非難しないポストモーテム をチームや顧客、ステークホルダーと実施するにあたりより詳細にお知りになりたい場合は、以下のリンクを参照してください。


Except where noted, content on this site is licensed under a Creative Commons Attribution 4.0 International license. This site is graciously hosted by Netlify