
Amazon SageMaker HyperPod クラスターの Slurm でマルチヘッドノードのサポートを発表
本記事は、2025 年 3 月26 日にAWS公式サイトの What’s New with AWS? に掲載された英語記事を自動翻訳したものです。
ニュース内容
Amazon SageMaker HyperPod クラスターのマルチヘッドノードのサポートを導入できることを嬉しく思います。この新しい機能により、大規模な生成 AI モデル開発ワークロードのフォールトトレランスと可用性が向上します。
単一のヘッドノードがジョブのスケジュールとリソース割り当てを管理する場合、大規模な AI ワークロードを実行しているお客様にとって重大なボトルネックになる可能性があります。このノードに障害が発生したり応答しなくなったりすると、ジョブの失敗やダウンタイムが発生し、最終的にはトレーニング時間に影響する可能性があります。
今回のリリースにより、お客様は単一の HyperPod Slurm クラスター内に複数のヘッドノードを構成できるようになりました。1 つのプライマリ ヘッド (コントローラー) ノードですべてのコンピューティング (ワーカー) ノードを制御して Slurm 操作を管理し、追加のバックアップ ヘッド ノードをスタンバイ状態にします。プライマリ ヘッド ノードに障害が発生すると、Slurm はクラスター操作をバックアップ ノードに自動的に移行し、ダウンタイムを最小限に抑えてワークロードの継続的な可用性を確保します。さらに、お客様は独自の会計データベースと Slurm 構成を管理しながら、ワークロードの継続的な可用性を確保できます。
この機能は、HyperPod が一般提供されているすべてのリージョンで利用できます。新しいマルチヘッドノード機能の詳細と、複数のヘッドノードを備えた最初の HyperPod クラスターのセットアップについては、Amazon SageMaker HyperPod のドキュメントをご覧ください。
原文
We’re excited to introduce multi-head node support for Amazon SageMaker HyperPod clusters. This new capability enhances fault tolerance and availability for large scale generative AI model development workloads.
When a single head node manages job scheduling and resource allocation, it can become a critical bottleneck for customers running large scale AI workloads. When this node fails or becomes unresponsive, it can lead to job failures and downtime ultimately impacting the time to train.
With this launch, customers can now configure multiple head nodes within a single HyperPod Slurm cluster—one primary head (controller) node to control all compute (worker) nodes and manage Slurm operations, and additional backup head nodes in standby. If the primary head node fails, Slurm automatically transitions cluster operations to a backup node minimizing downtime and ensuring continuous workload availability. Additionally, customers can still manage their own accounting databases and Slurm configuration while ensuring workloads remain continuously available.
This capability is available in all regions where HyperPod is generally available. To learn more about the new multi-head node feature and set up your first HyperPod cluster with multiple head nodes, visit the Amazon SageMaker HyperPod documentation.
引用元:Announcing multi-head node support in Slurm for Amazon SageMaker HyperPod clusters