クラウドフレアは、昨日発生した大規模なインターネット障害の原因について、ソフトウェア更新のミスであったと発表しました。
昨日、多くのウェブサイトやサービスが完全に利用できなくなり、他の多くのサイトが遅延を経験しました。問題はクラウドフレアのネットワークにあることがすぐに明らかになりましたが、真の原因を特定するまでには時間がかかりました。
クラウドフレアは当初、大規模なサイバー攻撃を受けていると考えていましたが、その後、問題はソフトウェア更新における「痛ましい」エラーによるものであることが判明しました。
クラウドフレアのCDNは多くの著名なアプリを支えており、クラウドフレアの障害は広範囲に影響を及ぼします。これには、現在新しい投稿ができない、またはタイムラインの更新ができないソーシャルメディアサイトのX(旧Twitter)も含まれます。問題は世界中のウェブユーザーに影響を及ぼしているようです。
クラウドフレアが攻撃を受けていると考えた理由について、クラウドフレアは接続が約5分ごとにオフラインになり、その後復旧するというパターンを確認しました。このパターンは、技術的なエラーでは通常自動的に修正されないため、同社が大規模なDDoS攻撃を受けていると信じるに至ったということです。
しかし、実際には、ボット管理システムで使用されるファイルの更新にミスがあったことが原因でした。データベースシステムの権限に変更が加えられ、その結果、ボット管理システムで使用される「フィーチャーファイル」のエントリーが増加しました。このファイルが予想以上に大きくなり、ネットワークを構成するすべてのマシンに伝播しました。
このソフトウェアは、ネットワーク全体でトラフィックをルーティングするためにこのフィーチャーファイルを読み取り、ボット管理システムを最新の脅威に対応させる役割を持っています。しかし、ファイルのサイズが制限を超えたため、ソフトウェアが正常に動作しなくなりました。
クラウドフレアはこの障害について謝罪し、「深く痛ましい」と表現しました。クラウドフレアの重要性を考えると、いかなるシステムの障害も受け入れられないとしています。
詳細な説明はクラウドフレアのブログ投稿で読むことができます。
