Marcin Sanecki
不幸の輪(Wheel of Misfortune)は、サービスが停止した場合を想定してオンコールエンジニア(緊急時対応を受け持つ運用担当)の対応を模擬し、対応力の自信をつけるためのゲームです。 インシデント(不幸な出来事)を書いたルーレット(Wheel、輪)を回してインシデントをゲームで取り組む対象を選び、解決に取り組みます。
このゲームを通じて:
Thanks to:
これは、新入社員、インターン、経験豊富なエンジニアを、万能なオンコールエンジニアに育成するための優れた方法です。
チームや組織が予期せぬ出来事にどれだけ備えているかをチェックするためにも使えます。
やり方によっては、意図した通りにモニタリングやアラートが機能しているかどうかを確認することも可能です。
シナリオ:過去または架空のインシデントケース。
ゲームマスター:セッションのホスト兼コーディネーター。
ボランティア:トレーニング中のオンコールエンジニア。
ゲームマスター
プライマリーオンコールエンジニアとなるボランティアを選びます。
ボランティアの経験とインシデントの難易度を把握しておきます。
インシデントへの対応アクションやダッシュボードの観察から生じる質問に答え、ボランティアを支援します。さらに、ボランティアの説明に基づいて、問題解決のためのさまざまなアプローチをチームの他のメンバーと共に探求します。また、チームメンバー様々なトピックに関する支援を提供できるように成長することでしょう。
最後に、セッションの学びについての報告会を実施します。
ボランティア
ルーレットを回して取り組むインシデントシナリオを決定します。
インシデントに対してどのようなアクションを取るか(クエリの検索、ダッシュボードでのチェックなど)をゲームマスターや他のグループメンバーに説明し、根本原因を見つけてインシデントを解決します。
これはインシデント対応の模擬であり、通常のトラブルシューティングプロセスではないですが、本番同様に常に時間を意識すべきです。実際のインシデントではSLAやSLO違反が発生する可能性があるため、時間を考慮する必要があります。
グループの残りのメンバーを巻き込みましょう。専門知識に応じて異なるメンバーに質問します。
ツール
右記の有用なツールが利用できます: https://dastergon.gr/wheel-of-misfortune/
説明: https://dastergon.gr/wheel-of-misfortune/instructions.html
最も重要なことは, 楽しく実践することです!
このエクササイズをどのように行うかについての包括的な例はこちら。