インシデントからの復旧時間、日本とグローバルとの違い企業はどのように対応を強化すべき？

インシデント管理の分野で著名なグローバル企業であるPagerDutyは、2024年10月にシステム障害の発生状況やインシデントによる被害額に関する調査結果を発表しました。

本調査は、日本国内の従業員数1,000人以上の企業のITリーダーおよび意思決定権者300名を対象に実施されました。

今回はこの調査結果について詳しく解説しつつ、企業は本調査結果をどのように解釈し、どのような対応を進めるべきかについてご紹介します。

調査のポイント

はじめに、本調査のポイントを整理してご紹介します。

重大インシデントは増加傾向に

2024年7月に発生したCrowdStrike社のセキュリティソフト更新を原因とする世界規模のインシデントは、日本でも大きな影響を与えました。また、日本においても2022年に発生した大手通信会社のネットワーク障害は甚大な被害をもたらし、政府による行政指導も行われるなど、社会的な問題として認識されることとなりました。

このように、重大インシデントの発生事例は後を絶ちません。

本調査では「過去12か月間で、顧客体験に直接かかわるようなサービス停止などの重大なシステム障害は何件あったか」との問いに対し、58％が重大なシステム障害を経験し、平均で19件の重大なシステム障害が発生したという結果となりました。また、重大システム障害について「増加傾向にある」と回答した企業にシステム障害の増加率を聞いたところ、平均37％増加していることも明らかになりました。

急速なデジタルサービスの拡大とともにITインフラが複雑化し、近年では重大インシデントは増加傾向にあることが読み取れます。

想定被害コストは1企業当たり52億にも

一方で、企業はインシデントに対して迅速な対応が取れていない現状も明らかとなっています。本調査で「重大なシステム障害の平均的な対応時間」を聞いたところ、インシデントの発生から解決に要した平均的な対応時間は6時間12分という結果に。さらに、1分あたりの平均被害コストについては、平均で74万円であるという結果も明らかとなりました。

これらを踏まえると、サービス停止などの重大インシデントが発生した際のコストは、1企業あたり年間52億円にも達すると推定されます。

相次ぐインシデント対応に社員は疲弊

また、本調査で「インシデントがビジネスに与えた影響」を調査したところ、「システム障害に対応する社員の疲弊」が中間管理職などの現場層および経営層のいずれでも第一に挙げられるという結果となりました。

特にIT管理者に限定すると、インシデント対応による疲弊感を回答した方は全体の28%となり、現場レベルでインシデント対応に苦労している現状が見受けられます。

また、経営層ではインシデント対応により「イノベーションが停滞する」という点を課題として考えているという結果も明らかとなっています。

日本企業はインシデント対応に対する投資が不足

インシデント対応に対して、IT担当者の方の53%が「IT運用コストの削減」について経営層からプレッシャーがあると回答しています。このように、現場には高いコスト削減圧力がかかる一方で、IT担当者の方の50％は「顧客の信頼を守るための投資が不足している」と感じているという結果も明らかに。

この結果から、短期的なコスト削減を優先してしまい、長期的なリスクが増大するという悪循環を生み出していると推測できます。

インシデント対応の自動化が進んでいない

コスト削減やインシデント対応の迅速化に有効なIT運用の自動化ですが、日本企業ではまだまだ自動化の取り組みが進んでいないという現状も明らかとなりました。

「インシデント対応の自動化を進めているか」という質問に「当てはまる」と回答したIT管理者の方は10％にとどまりました。

「マニュアルで行っている作業のうち最も時間を浪費しているもの」に対する質問で多かった回答は「障害の修復作業（20%）」「障害の詳細/対応策/調査結果の記録（16%）」「社内ステークホルダーへの連絡（10%）」という結果に。

これらの作業は自動化の余地があるものです。多くのタスクがいまだマニュアル対応により実施されていることから、まだまだIT運用管理の効率化余地が残されているといえます。

一方で、自動化を進める上での課題として「IT組織全体での連携不足」をあげるIT管理者の方は36%にのぼりました。同調査では、このような連携不足が発生する背景として、「開発」「運用」といった役割ごとの組織サイロ化に言及しています。DevOpsの推進など、それぞれの機能ごとに開発から運用まで一気通貫に担う組織が求められます。

グローバルとの比較

本調査では、日本市場への調査と合わせてグローバルでも同様の調査を実施しています。それぞれの調査を比較した結果は下表のとおりです。

	日本（平均値）	グローバル（平均値）
重大インシデントの数（年間）	19件	25件
1分あたりのダウンタイムコスト	74万円	64万円（$4,537）
平均修復時間（MTTR）	6時間12分（372分）	2時間55分（175分）
重大インシデント発生時の累積コスト（年間）	52億円	28億円（$19.8M）

調査の結果、年間での重大インシデントはグローバルのほうが多く発生しているものの、平均修復時間（MTTR）がグローバルと比較して圧倒的に長期化している状況が明らかとなりました。結果として、グローバルの平均よりも2倍近い被害コストが発生しています。

同調査では、このような差が生まれている原因について、日本企業の自動化の遅れについて言及しています。グローバルでは「システム障害対応ツールに十分な投資をしている」と回答したIT管理者は46％であったのに対し、日本では12％という結果となりました。日本企業はグローバルと比較してIT運用やソフトウェア開発をアウトソースする比率が高く、インシデント対応は業務委託先の責任となっています。結果として、インシデント発生が自社ビジネスに与える影響が自分ごととなっておらず、インシデント対応への投資が進んでいないと思われます。

インシデント対応の強化に求められる観点

本調査結果は、日本企業においてはインシデント対応に対する意識が低く、投資も進んでいないという点を示唆しています。それでは、企業はインシデント対応を強化し、システム障害による被害を抑えるためにどのような観点を持ち、どのような対策を進めていくべきなのでしょうか。

以下では、4つの観点から対応すべきポイントをご紹介します。

経営課題として認識する
インシデント対応プロセスを細分化して評価する
自動化・標準化を推進する
モダナイゼーションを推進する

①経営課題として認識する

システム障害によるビジネスの停止は、企業経営において大きなインパクトを与えるものです。とくに近年では、ビジネスにおいてシステムを利用しないケースは少なくなっており、システムの停止はすなわちビジネスの停止となる状況にあります。

一方で、まだまだIT運用管理に対する理解が進んでいないのも現実です。特に経営層は、システムに対して投資を行った後も、継続的にメンテナンスや運用管理を行わなければならないことを認識する必要があります。

どうしても、日本企業においてはインシデントのような不確実な事項は「発生しない」とみなす傾向があります。いわゆる安全神話にも通じるものですが、システムの利用が一般化した現代においてはこの態度は不適切です。インシデントは必ず発生するものとみなし、インシデントからの復旧速度を上げることを目標とするべきでしょう。

インシデントの復旧時間が早ければ早いほど、ビジネスの収益性は高まります。この意識を持つべきです。

②インシデント対応プロセスを細分化して評価する

インシデント対応の迅速化を図るためにも「良いインシデント対応とは何か？」を定義し、それに基づきインシデント対応を評価するべきです。

多くの企業では、インシデント対応の評価にあたってMTTR（平均復旧時間）を利用していることが多いのではないでしょうか。しかしながら、MTTRだけではインシデント対応に要している各プロセスの時間まで評価することはできません。

ここでおすすめしたいのが、MTTRを分解し、インシデント対応にかかるプロセスごとに指標を設定して評価する方法です。具体的な分解方法は以下のとおりです。

＜MTTRを分解した指標の設定＞

〇MTTD（Mean Time To Detect：平均検出時間）
障害などのインシデントが発生した際に、管理者がそのインシデントを検出するまでの時間を評価する指標。

〇MTTI（Mean Time To Investigate：平均調査時間）
インシデントの内容を調査するために要した時間を評価する指標。

〇MTTK（Mean Time To Know：平均把握時間）
障害の原因把握に要した時間を指す指標

〇MTTF（Mean Time To Fix：平均修正時間）
障害の原因を把握した後、実際の修正に要した時間を表す指標

〇MTTV（Mean Time To Validate ：平均検証時間)）
障害の復旧作業を実施した後、実際に問題が解決されたことを確認するのにかかる時間を表す指標

MTTRを細分化することで、自社のインシデント対応における問題点を理解しやすくなります。もちろん、これらの全ての指標を利用する必要はありません。しかし、指標を細分化することでインシデント対応の評価における解像度を高めることができますので、ぜひ検討ください。

③自動化・標準化を推進する

インシデント対応を効率化するために有効なのが、自動化や標準化の実施です。

具体的には、以下のようなアプローチが有効です。

〇AIOpsの検討
AIOpsとは「Artificial Intelligence for IT Operations」の略称であり、AIや機械学習の技術を活用し、IT運用管理業務をできるだけ自動化・効率化していくことを指す言葉です。具体的には、異常検知の予測やアラートの最適化、使用リソースの将来予測などを行います。

AIOpsの概念を自社の運用管理に取り入れることで、インシデント対応にかかる時間を削減できる可能性があります。さらに、日々大量のアラートに悩まされている運用管理者にとっては業務負荷の軽減にもつながります。

〇統合型IT運用管理ツールの導入
システムごとに個別にツールを導入し、運用管理を行っている企業も多いのではないでしょうか。このような場合、統合型のIT運用管理ツール導入が有効です。自社システムの全てを一元的なツールで管理できるようにすることで、効率化につながります。

統合型のIT運用管理ツールは一般的にマルチテナントに対応しており、複数のシステムの運用管理においても適切な権限分離を行うことができます。これにより、セキュリティを保ちつつ効率的な運用管理やインシデント対応を実現できます。

〇インシデントの自動修復
運用管理の範疇のみで実施できるものではありませんが、システムにインシデント発生時の自動修復機能を構築することで、そもそもインシデントの発生を防ぐという方法もあります。

近年では、Kubernetesなどのコンテナオーケストレーションツールを利用した自動修復の仕組みが利用されることも増えています。この仕組みにおいては、あるコンテナに障害が発生した際には、自動でコンテナを再起動・再配置することで、自動修復を実現します。

④モダナイゼーションを推進する

運用管理の自動化や標準化を検討するにあたって、障害となるのがレガシーなテクノロジーやアーキテクチャが利用されたシステムです。これらのシステムにおいては、そもそもログが適切に取得されていなかったり、システム内部がブラックボックス化していたりします。

システムの保守性を高めつつ、運用管理を効率化できる手段としてモダナイゼーションが挙げられます。

モダナイゼーションとは、レガシーシステムを最新のアーキテクチャに置き換えることを指します。具体的にはクラウドへシステムを移行する「クラウドリフト」「クラウドシフト」や、利用するプログラミング言語を変更しまったく新しいシステムを開発する「リライト」といった手法が存在します。

モダナイゼーションを通して、システムの運用保守を効率化できます。この取り組みもなかなか運用管理の範疇だけで実施できるものではありませんが、自社システムが抱える問題を大上段から解決できる手法として押さえておくべきでしょう。

まとめ

この記事では、PagerDutyが2024年10月に公表した調査結果について解説しつつ、企業が進めるべきインシデント対応の強化方法についてご紹介しました。

ビジネスにおけるシステムの利用が一般化する中で、インシデント対応の強化は重要です。システムの停止は、ビジネスチャンスの喪失だけでなく、ユーザーに対して不満を与える原因ともなります。経営層含めてインシデント対応強化の重要性を認識しつつ、自動化や効率化、モダナイゼーションなどの方法によりインシデント対応を効率化していく必要があります。