インシデントレビュー: GCR がホストするカスタム Docker イメージを使用した Docker ジョブのスピンアップの低速化 2022-04-26

(こちらは Public IR Slow spin up times for docker jobs using a custom docker image hosted on GCR 2022-04-26 の参考訳です)

概要:

4 月 25 日 14 時 15 分 (UTC) から 4 月 28 日 3 時 (UTC) までの間、Google Container Registry (GCR) がホストするコンテナイメージを使用されているお客様で、ビルドの遅延と、それに起因するタイムアウトによるビルドの失敗が発生しました。 この間、約 2% の Docker ジョブで問題が発生しました。 このうち、GCR を使用した全ジョブの約 0.9% が失敗しました。 これは、この期間に GCR サービスのパフォーマンスが低下し、プル遅延が増加したことによるものです。 この間ご迷惑をおかけしましたが、お客様のご協力に感謝いたします。

ステータスページの原文は、こちらをご覧ください。 同様の障害が発生した場合のガイダンスや回避策も記載されています。

インシデントの詳細

時刻はすべて UTC (世界協定時間) で表示されています。

4 月 25 日 14 時に、以下のグラフで示すように GCR でプル遅延が急増しました。 その後、数時間にわたり複数のお客様からビルドの失敗の報告があり、22 時 48 分に考えられる内部原因の調査を開始しました。


GCR でのプル遅延は、4 月 25 日 14 時 (UTC) 頃から急増し、4 月 28 日 22 時 30 分 (UTC) までに解消しました。

弊社では、4月26日 1 時 07 分までにこの遅延が内部でのコード変更によるものではないことを確認し、最新のステータスページを掲載しました。 この問題の対象をプライベートレジストリ (お客様指定) に絞り、お客様に失敗したビルドの再試行を推奨しました。

今後もサポートパートナーと協力し、詳細が分かり次第お客様に通知いたします。 弊社では、お客様に回避策として代替のコンテナレジストリを推奨し、また問題が解決するまで GCR からのプル遅延の監視を行いました。 4 月 27 日 20 時 47 分 に、GCR のステータスページにこの障害が反映され、4 月 28 日 22 時 30 分までにサービスが通常の状態に戻りました。

今後の予防とプロセスの改善

この種の問題を防ぐことはできませんが、弊社ではシステムやプロセスの改善点を見出すことができました。

今後、レジストリ固有のコンテナプル遅延の監視を追加する予定です。 それにより、今回のようなパフォーマンスの低下が発生した際に、早期にお客様に通知し、回避策をより迅速にアドバイスできるようになります。

弊社ではまた、ロールバックスクリプトのバグを発見し、その後修正いたしました。 これにより今回の結果が変わるわけではありませんが、今対処しておくことで、今後の問題を未然に防ぐことができます。

1 Like