
Amazon SageMaker Inference が推論コンポーネントエンドポイントのローリングアップデートをサポートするようになりました
本記事は、2025 年 3 月 10 日にAWS公式サイトの What’s New with AWS? に掲載された英語記事を自動翻訳したものです。
ニュース内容
Amazon SageMaker Inference は、推論コンポーネント (IC) エンドポイントのローリング更新をサポートするようになりました。これにより、お客様は、以前のようにインスタンスを 2 倍にする必要はなく、最小限の追加インスタンスを使用して、トラフィックを中断することなく実行中の IC エンドポイントを更新できます。SageMaker Inference を使用すると、基盤モデル (FM) を含む ML モデルを簡単にデプロイできます。SageMaker Inference の機能である IC を使用すると、同じエンドポイントに複数の FM をデプロイし、各モデルのアクセラレーター割り当てを制御できます。
ローリング更新により、お客様は、以前のブルー/グリーン更新方法のように一度にすべてではなく、エンドポイント内の IC をバッチごとに更新できるようになりました。ブルー/グリーン更新では、トラフィックを古いフリートから新しいフリートに移行する前に、更新されたモデルで新しい IC フリートをプロビジョニングする必要があり、必要なインスタンスの数が実質的に 2 倍になりました。ローリング更新では、新しい IC が小さなバッチで作成されるため、更新中に必要な追加インスタンスの数が大幅に削減されます。これにより、お客様は余分な容量によるコストを最小限に抑え、容量予約のバッファ要件を小さく保つことができます。
IC のローリング アップデートは、IC がサポートされているすべてのリージョンで利用できます: アジア太平洋 (東京、ソウル、ムンバイ、シンガポール、シドニー、ジャカルタ)、カナダ (中部)、ヨーロッパ (フランクフルト、ストックホルム、アイルランド、ロンドン)、中東 (UAE)、南米 (サンパウロ)、米国東部 (バージニア北部、オハイオ)、米国西部 (北カリフォルニア、オレゴン)。詳細については、ドキュメントを参照してください。
原文
Amazon SageMaker Inference now supports rolling updates for inference component (IC) endpoints. This allows customers to update running IC endpoints without traffic interruption while using minimal extra instances, rather than requiring doubled instances as in the past. SageMaker Inference makes it easy to deploy ML models, including foundation models (FMs). As a capability of SageMaker Inference, IC enables customers to deploy multiple FMs on the same endpoint and control accelerator allocation for each model.
Now, rolling updates enables customers to update ICs within an endpoint batch by batch, instead of all at once like the previous blue/green update method. Blue/green updates required provisioning a new fleet of ICs with the updated model before shifting traffic from the old fleet to the new one, effectively doubling the number of required instances. With rolling updates, new ICs are created in smaller batches, significantly reducing the number of additional instances needed during updates. This helps customers minimize costs from extra capacity and maintain smaller buffer requirements in their capacity reservations.
Rolling update for IC is available in all regions where IC is supported: Asia Pacific (Tokyo, Seoul, Mumbai, Singapore, Sydney, Jakarta), Canada (Central), Europe (Frankfurt, Stockholm, Ireland, London), Middle East (UAE), South America (Sao Paulo), US East (N. Virginia, Ohio), and US West (N. California, Oregon). To learn more, see the documentation.
引用元:Amazon SageMaker Inference now supports rolling update for inference component endpoints