AWSに続きAzureでも大規模障害。問われるクラウドの安定性

日本時間の10月29日夕方から30日にかけて、米マイクロソフトのクラウドサービスであるMicrosoft Azureで世界規模の障害が発生。これに伴い、業務ソフトMicrosoft 365をはじめとする多数のサービスが影響を受け、世界中の企業活動に支障をきたした。

この障害は、先日世界を震撼させたAWSの大規模障害（詳細はこちら）からわずか1週間前に発生。その影響範囲の広さから、現代社会がいかにクラウド基盤に依存しているか、その現実を改めて突きつける結果となった。

この記事では、今回起きたAzure障害の技術的な背景とタイムライン、そして先週起きたAWSの大規模障害を振り返る。そして、我々がこの経験から何を学び、どう行動すべきかを考える。

障害のタイムラインと技術的背景

マイクロソフトの公式発表によると、障害の根本原因は、同社のグローバルコンテンツ配信ネットワークサービスであるAzure Front DoorにおけるDNS設定の意図しない変更にあった。

この変更がトリガーとなり、Azure Front Doorを経由するサービスへのトラフィックが適切にルーティングされず、世界中のAzureサービスへの接続性が著しく低下した。

障害の経緯は以下の通りだ。

時間（日本時間）	詳細
10月29日夕方	一部のユーザーからAzure portalやMicrosoft 365サービスへの接続問題が報告され始める。
10月29日夜	Microsoftが問題を公式に認識し、調査を開始。Azure Statusページにてインシデント情報を公開。
10月30日午前8時20分	Microsoftは、大半のサービスが復旧したと発表。根本原因の特定と修正作業が進められた。
10月30日 12時（執筆時点）	公式サイトにて、主要なグローバル障害は「Mitigated（解決済み）」であることが確認できる。なお、Microsoftは後日、詳細な原因と再発防止策を記載した事後分析レポート（PIR）を公開するとしている。

なお、障害の最新状況や過去のインシデントレポートは、Microsoft公式のAzure Statusページで誰でも確認できる。運用担当者にとって、このページはインシデント発生時の一次情報源として極めて重要だ。

今回の障害は、Azure基盤上で稼働する非常に広範なサービスに影響を与えた。企業活動に不可欠なものから、個人の生活に密着したものまで、その影響範囲は大きい。

影響を受けたサービス種別	サービス名
業務アプリケーション	Microsoft 365 (Teams, Outlook, SharePoint, Exchange Online)
ビジネスプラットフォーム	Dynamics 365, Power Platform
開発・実行環境	Azure App Service, Azure Functions, Azure Kubernetes Service (AKS)
エンターテインメント	Xbox Live

これらのサービスが利用できなくなったことで、世界中の企業で業務が停滞し、コミュニケーションに支障をきたした。