NVIDIA Mission Control

NVIDIA Mission Control™ は、AIファクトリーの運用を包括的に支援するソフトウェアです。開発ワークロードからインフラ・施設までを強化し、熟練した運用チームのスキルをソフトウェアとして提供します。 NVIDIA Blackwell™ データセンターに対応し、トレーニングや推論を迅速かつ柔軟に実行できる環境を実現。高いインフラ回復力とフルスタックのインテリジェンスにより、企業はハイパースケール並みの効率でAIを活用し、研究や実験を加速できます。
POINT
01
自律復旧機能
ハードウェアやジョブの異常を自動で検知し、問題を切り分けて自動修復または再起動可能
POINT
02
ワークロードとクラスタ管理の統合
モデルのトレーニング・推論を含むさまざまな AI ワークロードに対して、クラスタのプロビジョニング(構成設定)、ジョブスケジューリング、リソース割り当てを最適化
POINT
03
24時間365日運用の可視化とインフラ回復力
テレメトリ(監視データ)ダッシュボード、ハードウェアヘルスチェック、ファシリティ(電力・冷却系など)との統合監視を具備



