ファイアードリル

インシデント管理をゲーム化してチームの自信を高める
A practice ofFOUNDATION
Contributed by

Joris Cramwinckel

Zeid Adabel

Published April 12, 2025
Collection
2

概要

ファイアードリルは、インシデント管理と対応を実践的に練習するための楽しく安全な方法です。システムへの信頼性を高める分野であるカオスエンジニアリングの拡張であり、ファイアードリルはエンジニアリングの人的側面に焦点を当て、チームの自信を高めることを目的としています。

クラウドネイティブアプリケーションへの移行は、コードとデプロイメント以上のものを変えます。組織の役割とプロセスも変革します。ファイアードリルはクエストゲーム形式のインシデントシミュレーションで構成され、チームが適応し、クラウド上でのソフトウェアの構築と運用を中心にビジネス全体を結束させるのに役立ちます。

ファイアードリルフレームワークは、ルールブック・ロールプレイ・ゲームセットアップに関するパターンの構造化されたセットです。ファイアードリルはリアルな環境でのシミュレートされたインシデントにチームを没入させます。標準のデプロイ先となるクラウドプラットフォーム上でサービスを継続稼働させるために必要なスキルを構築し、チームに様々なシナリオの検知・識別・コミュニケーション・解決を教えます。ゲームモデレーターは、専門的・心理的に失敗しても安全な技術的・非技術的インシデントにおける参加者のアクション・スキル・コラボレーションを評価します。

メリット

インシデントは幸いそう頻繁には発生しませんが、発生したときは適切な対応が重要です。特にプロダクトアーキテクチャの大きな変更やチームトポロジーの変更時には、チームとのファイアードリル実施が効果的です。チームがコミュニケーションのギャップ・システムの欠落したメトリクスやアラート・最も重要なコラボレーションの強化を特定し、全員がSRE関連の問題にプロアクティブに対処するために協力できるようになります。

実施方法

ファイアードリル本体(私たちは「ゲームデー」と呼びます)は基本的に、ゲームモデレーターが本番レプリカ環境でインシデントを発生させ、エンジニアリングチームがそれを検知・識別・コミュニケーション・解決するというものです。これがファイアードリルの基本ループです。モデレーターがチームをよく知っていれば、これだけで十分に雰囲気を掴むことができます。エンジニアリングチームがループの各フェーズを報告する方法は、SlackやTeamsのようなコミュニケーションプラットフォームの共有チャンネルを使います。そこでチームはエスカレーション・ベンダーとのやり取り・バグレポートの提出・ポストモーテムの共有なども行います。

ファイアードリルは1日の一部または丸1日実施することができます。参加者にできる限りリアルなインシデント体験をさせることが目的です。したがって、数日間ファイアードリルをスケジュールし、その中の特定のタイミングでシナリオを実行することが推奨されます。推奨目安は参加者1人あたり1日です。

ファイアードリルを適切にファシリテートするために、2つの役割設置を推奨します:

  • ゲームカウンシル
  • ゲームモデレーター

ゲームカウンシルの役割は最小限で、プロダクトオーナーの希望がファイアードリルで実施するシナリオと一致しているかを管理する独立した第三者として機能します。

ゲームモデレーターはクラウド分野の専門家であり、シナリオを作成・実施する能力と創造性を持つ人物です。また、プレイヤーとのアフターケアとコミュニケーションを担当するための教育的スキルも推奨されます。

ゲームカウンシルとゲームモデレーターの両役割は最低1名で構成できますが、2名を推奨します。

画像:oksmith作、Teaching Emergency Preparedness、Open ClipArt

実施例

参考

ファイアードリル をチームや顧客、ステークホルダーと実施するにあたりより詳細にお知りになりたい場合は、以下のリンクを参照してください。


Except where noted, content on this site is licensed under a Creative Commons Attribution 4.0 International license. This site is graciously hosted by Netlify