【AWS re:Invent 2024】KEY001 | Monday Night Live with Peter DeSantis(講演レポート)
AWS re:Invent とは?
re:Inventとは、Amazon Web Services(以下、AWS)が主催するAWSに関する技術的なセッションや、展示ブース、試験準備のためのブートキャンプ、ゲーム化された演習などを通じて、参加者が主体的に学習できるAWS最大のイベントです。
2024年は12月2日から6日までの5日間開催されており、日本をはじめ世界中から多くの人が参加しています。
セッション情報
セッション名 | Monday Night Live with Peter DeSantis |
---|---|
セッション概要 | AWS ユーティリティ コンピューティング担当シニア バイスプレジデントの Peter DeSantis が、Monday Night Live の伝統を引き継ぎ、AWS サービスを支えるエンジニアリングについて深く掘り下げます。当社独自のアプローチとイノベーションの文化が、パフォーマンスやコストを犠牲にすることなく、シリコンからサービスまで、あらゆる分野にわたって最先端のソリューションを生み出すのにどのように役立つかを詳しくご覧ください。 |
登壇者 | Dave Brown Tom Brown Peter DeSantis |
基調講演の内容
1回目の基調講演レポートとなる今回の内容は、AWSのデータセンターに設置されているサーバで使用されているハードウェアやストレージ及びAWS AIサーバを中心とした内容になります。
最初にAWS Graviton と AWS Nitroのパフォーマンス及びセキュリティついてのお話がございましたので、リポートします。
AWS Nitro + AWS Graviton
2018年にAWS Gravitonが導入され、最初の目標はデータセンターにおけるARMを軸とした業界コラボレーションに火をつけることを目指してきました。
Graviton 2はスケールアップされたワークロードに焦点を当て、Graviton 3ではパフォーマンスを大幅に向上させてきました。
Graviton 4は最もパワフルなチップで、ワークロードに基づくパフォーマンス最適化が行われ、サービスの改善を実現してきました。
現在AWSのデータセンターにおいて50%以上のCPU容量を占めているAWS Gravitonでございますが、AWS Gravitonよりも前に火をつけたのが「AWS Nitro」でした。
AWS Nitroは、EC2インスタンスに対しパフォーマンスとセキュリティを向上し、ハードウェアのサプライチェーンとその整合性に対する考え方を大きく見直しました。
特にセキュリティ面では、Nitroチップに固有の秘密鍵が生成及び保存される仕組みとなっており、公開鍵はセキュアな製造記録の一部となります。
また、認証プロセスが合格するまで、AWSの他の部分へのアクセスが制限される為、セキュアなハードウェアとなっております。
これにAWS Gravitonが組み合わさることで、最もセキュアでパフォーマンスが高い環境が提供出来るようになりました。
ストレージ容量増加の取り組み
ストレージシステムの容量を増やす為、ドライブのサイズと台数を増やす取り組みを行ってきました。
最初は12台~24台のドライブから始まり、技術の進歩に伴い、最終的には288台のドライブを搭載した高密度ストレージサーバーが誕生しました。
このサーバーは、初期のAWSデータセンターのストレージ容量を上回りますが、物理的な制約や振動の影響など懸念点があり、特に、サーバーの故障は全体に大きな影響を及ぼす為、運用上の複雑さを軽減する必要がありました。
そこで、ストレージサービス(S3、EBS、EFSなど)を活用し、コンピューティングとストレージを分離することに注目しました。
Nitro card(EBSなどインスタンスストレージの機能を担当する専用カード)をドライブへ導入することで、分離を実現し以下メリットあります。
・物理的な制約を排除
・セキュリティのすべてをNitroが管理
・高性能かつ低レイテンシーでネットワーク経由でアクセスが可能
・ドライブに対して個別にIPアドレスが付与される為、可用性が向上
※故障したドライブは迅速に交換出来る、サーバが故障してもドライブを再接続するだけで復旧が可能
AWS AIサーバ
AIが進歩していく為に、より高性能なハードウェアの開発及び新技術との相互関与が必要になってきました。
特にAIモデルが大きくなることで、膨大な計算能力が必要になります。ただし、単一サーバですと時間を要する為、複数のサーバを用いてデータ並列処理を行い、モデルの重みを共有し、負荷を分散させています。
より大きなAIモデルを構築する為、強力なサーバーを用意することが重要になってきます。
現在は、2023年に発表された次世代のTrainiumチップ「Trainium2」を用いたTrainium2サーバーが最も強力なAWS AIサーバであり、今後も最新のAIハードウェアやソフトウェア最適化機能を提供し、最高のパフォーマンスを実現していくとのことでした。
まとめ
今回の発表は、データセンターで使用しているハードウェアやAWS AIサーバについてのお話でございました。
今後もハードウェアの性能が向上し、強力なAIサーバを構築していくとのことで、AIもより進化していくと思われます。
明日以降も基調講演の内容をお届けしますのでご確認ください。