GPUクラスタ

NVIDIA Mission Control

NVIDIA Mission Control™ は、AIファクトリーの運用を包括的に支援するソフトウェアです。開発ワークロードからインフラ・施設までを強化し、熟練した運用チームのスキルをソフトウェアとして提供します。 NVIDIA Blackwell™ データセンターに対応し、トレーニングや推論を迅速かつ柔軟に実行できる環境を実現。高いインフラ回復力とフルスタックのインテリジェンスにより、企業はハイパースケール並みの効率でAIを活用し、研究や実験を加速できます。

POINT
01

自律復旧機能

ハードウェアやジョブの異常を自動で検知し、問題を切り分けて自動修復または再起動可能

POINT
02

ワークロードとクラスタ管理の統合

モデルのトレーニング・推論を含むさまざまな AI ワークロードに対して、クラスタのプロビジョニング(構成設定)、ジョブスケジューリング、リソース割り当てを最適化

POINT
03

24時間365日運用の可視化とインフラ回復力

テレメトリ(監視データ)ダッシュボード、ハードウェアヘルスチェック、ファシリティ(電力・冷却系など)との統合監視を具備