インシデントレビュー: テスト結果の処理の失敗 2022-04-29

(こちらは Public IR Test Results Processing Failure 2022-04-29 の参考訳です)

概要:

4 月 29 日 19 時 15 分 (UTC) から 22 時 50 分 (UTC) までの間、テスト結果の処理に失敗しました。 お客様のジョブでテスト結果が利用できず、テスト分割が機能しませんでした。

ステータスページの原文

インシデントの詳細

時刻はすべて UTC (世界協定時間) で表示されています。

現在弊社では、従来のテスト結果処理サービスからの移行を進めています。 この移行の一環として、お客様のワークロードのテスト結果データの実際のサイズを把握する必要がありました。 4 月 29 日 19 時 15 分にデプロイした変更で、このデータを収集するための計測機能を追加しました。 しかしこの変更には、ファイルではなく NULL 値が返されるバグが含まれていました。

この NULL 値は有効なレスポンスに見えたため、エラーは通知されず、アラートも送信されませんでした。 また、テスト結果の処理を報告するメッセージシステムも正常に動作し、テスト結果の取得は成功と登録されました。 22 時 50 分に、チームメンバーがダッシュボードの定期チェックを行ったところ、テスト結果の処理が行われていなかったため、今回の障害が発覚し、変更を直ちにロールバックしました。

月曜日にこの障害を調査したところ、当該バグの影響範囲が明らかになったため、過去にさかのぼり、インシデントを宣言しました。

今後の予防とプロセスの改善

弊社では、テスト結果の処理の失敗に対する監視は行っていましたが、監視に基づくアラートは行っていませんでした。 今後、アラートを追加するとともに、デプロイ後の検証方法についても検討していく予定です。 さらに、従来のサービスからの移行を継続するにあたり、新しいサービスでは今回のシナリオに対応するテストを実装いたします。

1 Like