なぜ日本の電車は”秒単位”で動けるのか？鉄道運行システムに学ぶSREの設計思想

今年に入ってからテレワークが廃止され、毎日出社する日々。先日、朝の通勤ラッシュで駅のホームに立っていると、ふと電光掲示板が目に入りました。

━ 次の電車 8:22 発。
その後、寸分の狂いもなく滑り込んでくる電車。

当たり前すぎて普段は気にも留めませんが、数分、時には秒単位の正確さで運行される首都圏の鉄道は、世界でも類を見ない高信頼性・高可用性を実現した巨大システムとして有名です。

信号やポイントの切り替え、優等列車の待避…。まるで、巨大なコンピュータ上で無数のプロセスが動いているかのようです。

調べてみると、鉄道の運行システムは、我々SREが学ぶべきことの宝庫でした。今日は、そんな日本が世界に誇る鉄道システムに隠された、システム設計の哲学について少しお話ししてみたいと思います。

信号システムから学べる「確実な排他制御」

列車の安全運行の根幹をなすのが、閉塞（へいそく）という考え方です。

これは、一つの線路区間には同時に一つの列車しか入れないようにする仕組みで、列車の追突という最悪の事態を防ぎます。いわば、データベースにおけるトランザクション処理の「ロック（排他制御）」と同じ考え方です。

ここから学べるのは、「クリティカルなリソースは、シンプルかつ絶対的なルールで保護すべし」という点です。「1閉塞区間に1列車」という単純明快なルールが、複雑なダイヤグラムで運行される大規模システムの安全性を根底から支えています。

我々のシステムにおいても、複数のサーバーやプロセスが同時に書き込む可能性がある設定ファイルや共有メモリは、まさに「閉塞区間」です。意図しない競合は、データ破損やシステムダウンに直結します。

この学びから、共有リソースへのアクセス制御の設計を見直し、より堅牢な排他制御の仕組みを導入する、もしくはそもそも共有リソースに依存しない設計を検討する、といったアクションに繋げられます。

普通列車に乗っていると、特急や快速列車を先に通すために駅で数分間停車することがあります。この「待避」で使われるのが、本線とは別に設けられた「待避線」です。

待避線からは、システム全体のスループットを最大化するためには、リクエストに優先順位をつけ、リソースを賢く割り当てることが重要だ、という点が学べます。

すべてのリクエストを平等に扱うのではなく、ビジネスインパクトの大きい処理（優等列車）を優先することで、全体の効率とユーザー満足度を向上させているのです。

例えば、ユーザーからのリクエストを処理するAPIと、時間のかかるバッチ処理を同じリソースで実行していませんか？待避線の考え方は、ワークロードを分離し、重要な処理が遅い処理に引きずられないようにする設計の重要性を示唆しています。

AWSのAuto Scaling やGoogle CloudのManaged Instance Groups でリソースを増やすだけでなく、リクエストの種類に応じてキューを分離したり、優先度を付けたりすることで、より応答性の高いシステムを目指せます。