
クラウドの障害情報をいち早く知るには?リアルタイムな調査方法を解説!
クラウドサービスは近年、国内でも利用する企業が圧倒的に増え、社会に提供されている多くのサービスの基盤となりつつあります。しかし、ハードウェアやソフトウェアを用いたシステムである関係上、障害とは無縁とはいきません。障害が発生する可能性がゼロになることはないため、クラウドを利用する企業は障害情報を迅速に入手する必要があります。
「どうやって障害情報を調べるんだろう?」
「障害情報が出ていたら何をしたらいい?」
こういった疑問に答えるため、この記事ではクラウドで発生する障害の概要、障害を調査する方法、障害による影響、障害の時に取るべき行動を解説していきます。
クラウドの利用を既に始めている、または現在検討している企業の方は、この記事を読めば障害にいち早く対応する方法を知ることができます。障害の情報と影響を正しく理解して、クラウドを有効活用してみましょう。
クラウドで発生する障害とは

AWSやAzureをはじめとしたクラウドサービスは、何らかの問題によりサービスが満足に利用できない状況となる場合があります。これがクラウドにおける「障害が発生している状態」です。障害が発生すればサービスに接続できなくなったり、提供されている機能が利用できなくなったりする可能性があります。過去の大規模障害では、企業の業務や私たちの日常生活に影響があったケースも実在します。クラウドの普及でより身近になっているのが、クラウドで発生する障害です。
障害にはさまざまな種類があり、それぞれ原因や対策が異なります。代表的な障害の種類を3つ解説します。
ネットワークの障害
インターネット上やシステム内部のネットワークに問題があり、クラウドサービスが利用できなくなった状態です。回線のひっ迫や、サーバー間の接続が切れたことが原因となって発生する場合があります。クラウドサービス側だけでなく、自社の通信環境が原因となる場合もあるので注意が必要です。対策として、回線の帯域幅増強やシステム内部のネットワーク冗長化などが有効です。
ハードウェア、インフラ面の障害
クラウドサービスを提供する基盤であるハードウェアやインフラストラクチャに問題が発生し、クラウドサービスが利用できなくなった状態です。データセンターで運用されているサーバーや回線の故障の他、それらへの電力供給が絶たれた場合にも発生します。定期的な点検や複数の電源経路確保でも対策可能ですが、クラウドサービスによってはハードウェアの管理はサービス提供元の管轄です。その場合はサービスの提供元が責任をもって対策を行っています。
利用しているクラウドサービスがどのような対策や可用性を保証しているか確認してみましょう。
ソフトウェアの障害
クラウド上で動作しているサービスのアプリケーションが正常に動作できなくなった状態です。ソフトウェアのバグやOSとの互換性、アップデートの影響などが原因となる場合があります。「常に最新のバージョンにしていれば良い」というものではなく、アップデートした直後に動作が不安定になることもあります。事前のデバッグ(バグのテスト)やアップデート前のバックアップ取得などで対策が可能です。
クラウドの障害情報を調査する方法

いざクラウドで障害が発生しても、障害情報を調査する方法を知らなければ障害に気づけなかったり、対応が遅れたりする可能性があります。それらを避けるには、リアルタイムに障害情報を調べられる方法を知っておくことが有効です。
障害情報を調査する方法はいくつかあります。ここでは、その中でもリアルタイムかつ情報が確認しやすい3つを紹介していきます。
各クラウドサービスのサポートサイト
利用するクラウドサービスによっては、公式がリアルタイムな障害情報をサポートサイトで公開している場合があります。この場合公式が公開しているため、情報の正確性が確保されているうえ、障害の原因や対処法が合わせて公開されている可能性が高いです。自社で利用しているクラウドサービスが、サポートサイトを用意しているか、確認してみましょう。
また、これらのサポートサイトには当面のメンテナンス情報が公開されている場合もあります。予期せぬメンテナンスが入ってサービスが使えず業務が停止しないように、事前にメンテナンスの時刻やサービス停止の有無を確認しておくと安心です。
サービスで障害通知を設定する
AWSやAzureといった自身でクラウド上にシステムを構築するサービスの場合、障害発生を検知して通知できる機能が備えられている場合があります。運用するシステムなどによって通知すべき内容が変化するため、設計者などシステムの専門家による設定が必要です。一度設定すれば、クラウドに障害があった時点で通知してくれるようになり、障害監視の回数を減らすことが可能になります。
また障害が起こる前に、回線のひっ迫や使用率の上昇を検知する機能もあるため、障害を未然に防ぐ対策も可能になります。検知・通知できる内容はサービスによって異なり、システムに沿った設定が必要です。障害通知の体制が整っているか確認してみましょう。
Downdetector
公式が出している情報ではありませんが、さまざまなクラウドサービスの障害情報を調べられる手段として、Downdetectorがあります。DowndetectorはOokla社が運営する障害情報確認ツールです。世界中の数千に及ぶサービスを常にチェックしているため、複数のクラウドサービスを利用している場合などに有用です。SNS上に投稿された内容を元に判定している関係で、誤検知が発生する場合があるので十分に注意しましょう。
クラウドの障害による影響

クラウド上で障害が発生した場合、企業にはどのような影響があるでしょうか。想定される影響を知っておくことは、障害の危険性を理解し、対策や障害確認を積極的に行うきっかけになるかもしれません。ここでは想定される代表的な影響を4つ解説していきます。
サービスが停止する
障害が発生してクラウド上のシステムやアプリケーションが停止した場合、当然それを利用したサービスは停止します。実際にクラウドサービスが停止したことで、航空機の搭乗受付システムが使用できなくなったり、WEBサイトが表示されなくなったりした事例が存在しています。サービスの停止による影響は、影響する範囲が大きいほど深刻です。
社内向けに運用しているサービスなら業務に利用している可能性が高く、停止状態が長引けば業務に支障があります。一方で顧客が利用するサービスの場合には、サービスの停止時間分の売上損失を招く恐れがあります。どちらの場合でも、サービスの停止時間を最短にすることが望ましく、そのためには障害発生時の迅速な調査・対応が必要です。
データの破損・消失の危険性がある
クラウドで障害が発生した際にデータ送受信や保存が行われていた場合に、完了前のデータが破損する可能性があります。障害から復旧しても発生前の状態に戻せず、大規模なロールバック(データの巻き戻し)が必要になると、復旧には膨大な対応工数がかかります。運が悪ければデータ自体が消失して、復元できない状態となる可能性もあるため破損・消失対策は必須です。定期的なバックアップを外部に保管して、復元が可能な状態を保ちましょう。
また、データを保存するデータベースに障害が発生し、一時的にデータが参照できないパターンもあります。この場合、表示できないだけでデータ自体は消失していないため、焦ってロールバックや復元を進めないように注意が必要です。原因の切り分けと確認を行ってから、対応を進めましょう。
復旧にコストが生じる
クラウドで障害が発生した際の対応には多くのコストが発生します。担当者がシステムの状態を確認し、原因の切り分けと解決を実施しますが、障害の発生が営業時間内とは限りません。営業時間外に長時間の対応を必要とする場合もあり、その時間に応じた人件費がかかります。
また、本格的な復旧にさらに高度な専門家の協力や外部の診断が必要となるケースもあり、それらのコストも考慮しなくてはなりません。復旧後もデータの修復や設計の見直しにコストがかかり、問題のあったシステムの経過監視も必要です。システムが完全に復旧するまでに、大きなコストが必要になることを把握しておきましょう。
自社サービスに対する評価が下がる
顧客となる企業や一般向けに提供しているサービスが停止することで、そのサービスの評価が下がってしまう可能性があります。
特に自社にとっての顧客が企業で、業務に利用するシステムを提供している場合は注意が必要です。設計や要件定義の段階で、顧客とダウンタイムの取り決めをしていても、実際に発生すれば早急な回復が求められます。ダウンタイムが長引けば、顧客の業務やビジネスそのものに影響が出てしまい、悪い評価へとつながります。長期的に築いてきた評価やイメージが悪くなれば、その後の自社の信頼性にも悪影響です。
また顧客が一般の個人である場合でも、サービスの停止があれば顧客満足度の低下を招く恐れがあり、離脱による機会損失の原因にもなります。
顧客の離脱や企業価値低下を防ぐために、事前の対策と発生時の迅速な対応が必要です。
障害の情報があったらするべき4つの行動

障害が発生していることが発覚し、前述の障害情報を調査する方法で調べたあとは、障害への対応を進めなくてはなりません。とはいえ対応の方法を知らなかったり、クラウドを利用したサービスの提供を受けている側で社内に詳しい人間がいなかったりする場合もあるでしょう。
そこでここからは障害の情報を確認したあと、どのような行動を起こすべきなのかを解説していきます。障害確認後の対応を把握しておけば、緊急度の高い障害が発生した時もその障害の内容を踏まえて落ち着いて行動できます。以下に示す4つの行動は、上から順番に実施できるよう記載しました。実際の障害発生時でも順番に対応していただくことで、障害を解決するまでの前準備を整えることが可能です。
実際に障害の情報があったらするべき4つの行動を見ていきましょう。
影響範囲を確認する
障害の発生が確認されたら、前述した調査方法を用いて障害情報を収集します。この時、情報の中に影響範囲の言及がないかを確認しましょう。ここでいう影響範囲とは、その障害によってシステムの停止や通信不可といった影響が及ぶことが予想される範囲を指します。この範囲に自社が提供・利用するサービスが含まれているか確認することで、その後の対応や緊急性の認識が変わってきます。
仮に影響範囲に含まれていれば、そこからサービスがどのような影響を受けるのかを調査する必要があり、緊急性も高くなります。
一方でその時点では影響範囲に含まれていない場合でも、障害が発生しているクラウドサービスが影響して、障害につながる可能性がないわけではありません。関連するクラウドサービスで障害が発生していれば、それを念頭に警戒しておくようにしましょう。
上記のどちらでも、障害情報が確認された場合は次項の内容まで実施することを推奨します。
提供・利用しているサービスを確認する
障害情報から影響範囲を確認したら、自社が提供・利用しているサービスの現状を確認してみましょう。
より具体的には、以下のような内容が確認できるとベストです。
【確認したいサービスの状態】
- サービスにアクセスできるか(社内回線と社外回線の両方で確認するとなお良い)
- サービスの機能が問題なく利用できているか(ページの閲覧や商品の購入など)
- 画像やリンクが正常に表示されているか
- ログイン機能がある場合、正常にログイン・ログアウトができるか
こういったサービスの状態を確認することで、障害の原因を切り分けることができ、より迅速に対応を進めることができます。次項でベンダーに連絡する際にも、報告することでサービスの状態を詳細に伝えることができるため、この手順は非常に重要です。
その時点で影響範囲に含まれておらず、かつ上記の状態確認で異常が見つからない場合は、障害の影響を受けていないものとして、ひとまず様子見に切り替えても問題ありません。
サービスを提供しているベンダーに連絡する
自社が利用しているサービスに障害が発生し、その提供元となるベンダーと契約している場合には、障害が発生している現状を連絡する必要があります。障害が検知できていれば、先にベンダー側から連絡が来ることもありますが、社内向けのサービスなどでは利用者からの報告が最速であるケースも多くあります。事前に確認した障害情報や現在のサービスの状態を交えて連絡することで、ベンダー側も迅速に対応を開始することが可能です。
またベンダー側に連絡する場合は、復旧の目安を併せて確認することを推奨します。復旧の目安は、そのサービスの利用を再開する目安として社内または顧客に共有する必要があるためです。
障害の情報を通知する
ベンダー側から連絡をもらうか、自社で影響の調査が完了した時点で、障害の情報を社内やサービスを提供している顧客に通知しましょう。
障害が発生したことで、サービスが利用できず混乱している可能性があり、可能な限り早く現状を伝えることで不安感やマイナスイメージを払拭できます。
ベンダーの提供するサービスを利用していて、通知するべき内容が分からない場合は、ベンダー側に通知する内容を相談しましょう。ベンダー側は現在進行形で障害解決の対応を進めており、リアルタイムの状況も把握しています。正確な通知を行うために、専門家であるベンダーの提示した内容を踏まえて考えるのは有効な方法です。
障害情報の通知まで進めることができれば、そこから先は障害の解決に向けた原因の究明や対応が始められます。落ち着いてここまでの手順を進め、迅速な障害解決を試みましょう。
まとめ
クラウドで障害が発生すれば、関連するシステムやサービスは大きな影響を受けます。クラウドにおいて障害の情報を確認する方法は欠かせません。その障害について情報を調べることができれば、その後の対応をスムーズに始められるためです。情報の調査方法や障害の影響、障害発生時の対応を把握しておくことで、解決をより早められるようになります。
本記事では、クラウドで発生する障害の概要、障害を調査する方法、障害による影響、障害の時に取るべき行動を解説してきました。
クラウド上のサービスを利用する企業の方は、この記事で解説した障害情報にまつわる知識を最大限活用して、障害の影響を最小限に抑えられるよう対策を確立してみてください。この記事をご覧になったあなたの参考となれば幸いです。