
クラウドの障害を迅速に復旧するには?被害を最小限にする障害対策や復旧方法を解説!
クラウド環境は日々進化を続け、高い可用性と安全な設計が保証されています。しかし、それでも障害の発生を完全に防ぐことはできず、毎年いずれかのサービスで障害が発生しています。障害の発生はクラウド環境では前提とすべき課題です。そのためクラウドで障害が発生した場合、システムやサービスの提供側に求められるのは迅速な復旧となります。迅速な復旧を行うためには、事前の準備と障害発生時の適切な対応が必要です。
「迅速な障害復旧で得られるメリットとは?」
「障害復旧はどんな手順で行えばいい?」
こういった疑問に答えるため、この記事ではクラウドで発生する障害の概要、迅速な障害復旧のメリット、障害復旧の流れ、おすすめの障害対策について解説していきます。
クラウドを利用したシステムやサービスを提供する企業にとって、障害は最小限のダメージで復旧したい事態です。そのために必要となる前提知識を把握して、自社の環境に必要な対策を講じる参考にしてみましょう。
クラウド環境で起こる障害

可用性とは「システムが継続して稼働できる度合い」を示しており、高い可用性は有事の際でも変わらずシステムやサービスを利用できることを示しています。クラウドサービスでは、サービスを継続的に提供し続けることを前提に、高い可用性が保証されています。しかし、それでも障害の発生を完全に防ぐことはできず、毎年いずれかのサービスで障害が発生しているのが現状です。
その背景には、クラウドで発生する障害の原因を排除しきれないことが理由として挙げられます。代表的な障害の原因は以下の通りです。
人為的なミス
サーバーを管理する提供元か、サービスを利用する企業側のどちらかで、メンテナンス担当者が誤った操作を行った場合に発生します。入力したコマンドの誤りなどによってサーバーがダウンしたり、通信が正常でなくなったりすることで障害につながります。
想定外の過負荷
システムが想定していないレベルの過負荷にさらされた場合に障害が発生するパターンです。多くのサービスでは過負荷の対策が取られていますが、その許容量を超えた負荷がかかった場合に、システムが対応しきれず発生します。通信の中断やサーバーのダウンが引き起こされる可能性があります。
サーバー冷却装置の故障
データセンターでサーバーを冷却している装置が故障した場合に障害が発生するパターンです。高熱を発するサーバーを冷却できず、サーバーがオーバーヒートを起こすことでダウンし、障害に発展します。物理的な修理やオーバーヒートしたサーバーの点検などが必要になる場合があります。
天災
データセンターのある地域が豪雨や地震などの天災による被害を受けた場合に発生します。停電が起こるか、サーバー等のハードウェアが損壊することで、サーバーが正常に動作できず、アクセス不可になります。地域単位の災害による障害となるため、復旧に時間を要する場合がある点に注意が必要です。
迅速な障害復旧のメリット

迅速に障害を復旧することは、システムやサービスを利用する側だけでなく提供する側にもメリットがあります。ここに示すメリットは障害の状態が長期化した場合のデメリットと表裏一体です。障害により正常なシステムやサービスの提供が停止している状態を早々に解消することで、デメリットとなりうる要素を最小限にしましょう。
機会損失を減らせる
システムやサービスの提供が停止した状態は、売上やビジネスチャンスを逃すことにつながります。例えばECサイトが停止した場合、そのサイトが停止していた時間の間に販売できるはずだった商品は購入されず、その分の売上が減ってしまいます。一般的に機会損失と呼ばれる売上や顧客獲得の損失は、障害のデメリットの中でも特に直接的な被害です。
迅速に障害を復旧することで、この機会損失を減らすことができます。
データの損壊を回避できる
クラウドで障害が発生した際にデータ送受信や保存が行われていた場合に、完了前のデータが破損する可能性があります。障害から復旧しても発生前の状態に戻せず、大規模なロールバック(データの巻き戻し)が必要になると、復旧には膨大な対応工数がかかります。運が悪ければデータ自体が消失して、復元できない状態となる可能性もあるため、その後の復旧のことも考えると迅速な障害復旧が必要です。より少ないデータの損壊で済ませるため、迅速に障害復旧できる体制を整えましょう。
顧客満足度が維持できる
システムやサービスの提供継続は、顧客満足度と密接に関係しています。障害が発生しても短時間の停止で解消できれば、顧客満足度を維持できます。反対に障害が長期化して提供停止が長引けば、顧客のシステムやサービスに対する満足度が低下し、利用の離脱や顧客喪失につながりかねません。システムやサービスを提供している先が企業の場合は、障害のあった環境を業務に利用していることも考えられます。障害による停止で業務に支障があれば、その後の利用を取りやめられてしまう可能性もあり、特に注意が必要です。顧客満足度を下げないため、迅速な障害復旧を目指しましょう。
レピュテーション低下を防げる
前項の顧客満足度につながる要素として、レピュテーション(社会的な評価)の低下を防げるというメリットがあります。自社に原因があるか無いかに関わらず、障害への対応力は社会的に見て「可用性の高いサービスを提供できる企業か」を判断する重要な要素です。障害により長期にわたってシステムやサービスの提供が停止することは、レピュテーションの低下につながります。新規顧客の獲得や投資家からの印象に影響するため、迅速な復旧で低下を防ぐことは、長期的に見たメリットといえます。
障害復旧の基本的な流れ

実際に障害復旧の対応を行うときに重要なのは、前もって組まれた復旧計画に沿った適切な復旧対応手順の実行です。提供しているシステムやサービス、利用するクラウド環境によって手順は異なります。ここでは一般的に想定される障害発生から復旧後までの流れを解説していきます。自社のクラウド環境に合わせて復旧計画を検討するときの参考にしてみてください。
影響範囲の確認
障害の発生が発覚して、最初に行うのはその障害による影響範囲の確認です。ここでいう影響範囲とは、その障害によってシステムの停止や通信不可といった影響が及ぶことが予想される範囲を指します。利用するクラウド環境で障害があった場合、この範囲に自社が提供・利用するサービスが含まれているか確認することで、その後の対応や緊急性の認識が変わってきます。仮に影響範囲に含まれていれば、そこからサービスがどのような影響を受けるのかを調査する必要があり、緊急性も高くなります。
一方でその時点では影響範囲に含まれていない場合でも、障害が発生しているクラウドサービスが影響して、障害につながる可能性がないわけではありません。関連するクラウドサービスで障害が発生していれば、それを念頭に警戒しておくようにしましょう。
また上記のどちらでも、障害情報が確認された場合は次項の内容まで実施することを推奨します。
利用サービスの確認
障害情報から影響範囲を確認したら、自社が提供・利用しているサービスの現状を確認してみましょう。
より具体的には、以下のような内容が確認できるとベストです。
【確認したいサービスの状態】
・サービスにアクセスできるか(社内回線と社外回線の両方で確認するとなお良い)
・サービスの機能が問題なく利用できているか(ページの閲覧や商品の購入など)
・画像やリンクが正常に表示されているか
・ログイン機能がある場合、正常にログイン・ログアウトができるか
こういったサービスの状態を確認することで、障害の原因を切り分けることができ、より迅速に対応を進めることができます。
その時点で影響範囲に含まれておらず、かつ状態確認で異常が見つからない場合は、障害の影響を受けていないものとして、ひとまず様子見に切り替えても問題ありません。
サービス利用者への通知
ここまでの手順で障害の影響があり、サービスの不具合や停止が確認された場合は、サービスを利用する顧客へ障害発生を通知します。この時点では原因や復旧の目途が立たないことも多いため、この手順は第一報としての役割です。通知する内容はシステムやサービスの内容によっても変わりますが、主に「障害の発生によるサービスの停止」や「現在、原因調査と復旧を進めている」といった旨の情報を知らせることが求められます。
通知が来ないままサービスの停止が続くと利用者に不安を与えるため、ここまでの手順は迅速に行う必要があります。
原因の切り分け
障害の状態確認ができ、利用者への通知まで完了したら、本格的に障害への対応を開始します。まず行う必要があるのが、原因の究明です。直接的に原因がわかる状態にある場合はその原因を取り除くだけで良いですが、目に見えないクラウド環境で発生する障害の多くは、原因がすぐにわかりません。そこで、原因を明らかにするために切り分けを行います。
原因の切り分けの多くは、通信の不具合やクラウドサービス上で停止が起こっている箇所を見つけるため、疑わしい地点までの動作を確認していきます。

例えばA~Eの構成で成り立つシステムを使っていたとします。順番にアクセスの状況を確認し、C・D間でのみ正常な通信が行えない場合、そこに発生している問題が原因とわかります。
このような切り分けによって原因となっている障害箇所を見つけ、対処へと進みます。
障害への対処
原因となっている箇所が判明したら、障害の復旧を試みます。先述した通り障害によって原因は異なり、サーバーの再起動と再接続だけで復旧するものから、クラウドサービス側の責任範囲でこちらは手が出せないものまで、多岐に渡ります。それらの原因と使用しているクラウドサービスの性質を専門的な観点から判断し、復旧対応を進めていきます。
サーバーの停止や接続経路の一時的な切替を含む場合は、誤った手順を踏むと障害をより深刻にしてしまう場合があります。前もって用意したマニュアルや、障害内容に応じた対処法を原因と照らし合わせて、慎重に対応しましょう。
データやサービス画面の確認
原因に対処し通信や障害が回復したと判断したら、システムやサービスが復旧したかを確認します。この時点でのポイントとして、システムがデータを格納している場合それらのデータが破損・消失していないかを確認するよう注意してください。ここで障害により一部のデータが失われていた場合、障害の対処に続いてデータの復旧を行う必要があります。
データや先述した「確認したいサービスの状態」に問題がないことが確認できれば、障害は復旧した状態です。あらかじめ用意したチェック項目を確認し、ダブルチェックなどを通して最終確認をしたうえで、障害の解消をサービスの利用者に通知しましょう。
経過観察
障害復旧後、数日から1週間程度の間は経過観察期間として、該当のシステムやサービスの稼働状況に注意しましょう。障害の種類によっては、同様の原因で障害が再発したり通信のひっ迫が発生したりする場合があります。
一定の期間が経っても、稼働状況や収集したアナリティクスに異常が見られなければ、経過観察としての注視を終了し、最終的に障害は復旧完了したものとみなします。
おすすめの障害対策4選

クラウドの障害は、いつどのような規模でどこに発生するかわかりません。発生自体を完全に予防できないため、障害対策は「事前に発生時のための対策をする」形で行う必要があります。そこで、ここでは障害発生時に迅速に復旧するためにおすすめの障害対策を紹介していきます。
障害に強いシステム設計
障害自体を完全に防ぐことは難しいですが、障害に強いシステムやサービスを設計することは可能です。具体的には冗長性やデータのバックアップの確保によって、障害が発生しても正常に通信できる経路や情報を確保しておく方法が、これに該当します。
特に冗長性の確保は障害に強いシステム設計として、多くのクラウド環境で推奨されています。特定の通信経路で障害が発生しても、他の経路に通信を切り替えることで継続してシステムやサービスを提供できるのが、冗長な設計です。特定のリージョンだけでなく、異なるリージョンにもまたがる経路を確保することで、冗長性を確保して耐障害性を高めましょう。
障害復旧計画の作成
障害発生から復旧までをどのように進めるかを計画することで、緊急時に焦ることなく行動できます。そのための計画が障害復旧計画です。利用しているクラウドサービスによっては、サービス側の問題で障害があった場合の計画が提示されている場合があります。それらも参考に、自社が利用・提供する環境で障害があった場合に、どのような復旧の目安とするか事前に決めておくと安心です。クラウドの専門家が自社にいない場合などは、専門家の協力を得て復旧計画の策定を行うのがおすすめです。
障害復旧のマニュアル化
障害復旧計画に基づき、実際に「どの時点でどのページを開き、どこのボタンを押すか」まで記載した復旧マニュアルが用意できると、より安心です。
復旧計画だけでは実際の復旧を担当する作業者がどのような手順を実施すればよいかわからない可能性があります。実際の障害によって対処が異なる場合はあるものの、共通する手順や原因の確認方法が確立されているだけで、復旧の迅速化につながります。
マニュアル化できる要素を検討し、汎用的な復旧マニュアルを用意しておきましょう。
障害復旧のアウトソーシング
障害復旧には、少なからず専門的な知識やクラウドサービスのノウハウが必要です。社内に専門的な人材がおらず、ベンダーに提供されたシステムを利用している場合は、自社での復旧対応はほぼ不可能になります。そこで、障害の対処をアウトソーシングできるサービスが展開されています。障害対応支援サービスを利用することで、専門知識のあるスタッフが緊急事態に対応してくれるため、障害対策として非常におすすめです。
また、多くの障害対応支援サービスはシステムやサービスの常時監視がセットになっています。平常時から状態を監視して、異常時すぐに対応が開始できるよう備えておくことで、緊急時も迅速な対処が可能になります。
まとめ
障害はシステムやサービスを利用する側にとっても、提供する側にとっても、迅速に復旧したい緊急事態です。迅速な復旧には、原因の把握や事前の準備が欠かせません。クラウド環境を利用する企業にとって、対策を行わなければ被害が大きくなる可能性があります。前もって用意した復旧計画やマニュアルに基づいて、冷静かつ慎重に対処を進められるよう、今から準備を進めておきましょう。
本記事では、クラウドで発生する障害の概要、迅速な障害復旧のメリット、障害復旧の流れ、おすすめの障害対策について解説してきました。
クラウドサービスを利用する企業の方は、この記事の内容を元にして、改めて障害復旧の計画やマニュアル化を検討してみてください。この記事をご覧になったあなたの参考となれば幸いです。