GPU製品 / サービス

Hopper アーキテクチャ

Hopperアーキテクチャ

概要

Ampareモデルの後継となる次世代GPUアーキテクチャ「Hopper」ベースのNVIDIA H100 Tensor コア GPUは、大規模言語モデル (LLM)におけるパフォーマンスを前世代比30倍に高速化。現在飛躍的な発展を遂げる生成AI(ジェネレーティブAI)の活用領域においても、業界の一歩先を行く性能を発揮します。

H100 は80GB GPUメモリ、第4世代のTensorコアを搭載し、3,026 teraFLOPSのFP8 Tensor コア性能を誇ります。専用のTransformer Engineを利用することで、兆単位のパラメーターを持つ言語モデルを実装できます。

さらに、「H100 NVL」では、94GB HBM3 メモリ GPUを2基組み合わせ、合計188GBのメモリを搭載。メモリ帯域幅は計7.8TBpsとなり、大規模AIモデルに求められるメモリ容量/帯域の拡張を実現しています。

GPUとGPUを毎秒900Gbpsで相互接続する第4世代NVLink、ノード全体でGPU間の通信を加速する NVLINK Switch System、PCIe Gen5、NVIDIA Magnum IO™ ソフトウェアの組み合わせにより、エンタープライズ用途はもとより、大規模な統合 GPU クラスタに至るまで、幅広い拡張性を提供します。

前モデル(A100)との性能比較

特長

大規模言語モデル(LLM)における最大のパフォーマンスを発揮

前世代のA100と比べて最大30倍の推論性能を発揮し、遅延を最小限に抑えています。
第4世代のTensorコアは、ムーアの法則を超えるパフォーマンス向上を継続的に提供し、多くのパラメーターを持つ大規模な言語モデルであっても、精度を維持しながらメモリ消費を削減して性能を向上します。
生成できるものは画像、動画、楽曲等、プログラムのコード、文章など多岐にわたり、クリエイティブな成果物を生み出せる点が特徴です。

FP8(8ビット浮動小数点演算)

前世代のA100ではFP16(16ビット浮動小数点演算)での処理を行っていましたが、H100では新たにFP8(8ビット浮動小数点演算)を採用することで、4000TFLOPSという非常に高い演算性能を実現しました。これはA100の処理性能の約6倍にのぼります。

また、FP16では2000TFLOPS、TF32で1000TFLOPS、FP64で60TFLOPSとなっており、いずれもA100の3倍のパフォーマンスを誇ります。

TRANSFORMER ENGINE

H100では、FP8 と FP16 の精度を混在させることができます。さらなる高速化・正確性を実現できるAIモデルにはFP8を適用し、それ以外はFP16を利用するといったように、それぞれのワークロードに適したものを使い分けることが可能です。

演算結果の統計情報を基に、GPUが自動的にFP8/FP16を使い分けるため、フレームワーク側が選択する必要はありません。

CONFIDENTIAL COMPUTING

世界で初めて、CPU と H100 GPU の間のデータ転送をPCIe ラインレートで暗号化し、GPUが使用中のデータ・ワークロードの機密性と完全性を守るセキュリティ機能を実装しました。
ホストOSやハイパーバイザーなど、許可しないユーザがデータを覗き見たり、ユーザの意図しない変更が加えられるリスクから保護します。

第2世代MIG(マルチインスタンスGPU)

A100で実装されたマルチインスタンス GPU (MIG) 機能では、1枚のGPUを最大7つのインスタンスに分離することができます。それぞれのインスタンスにメモリ・キャッシュ・GPUコアを割り当てられ、異なるユーザ・用途で利用することが可能です。

H100ではMIG機能をさらに強化。他のインスタンスの影響を受けることなく、よりセキュアにマルチテナント/マルチユーザー構成を利用できます。

DPX命令

動的プログラミングは、複雑な再帰的問題を単純な小問題に分割して計算する手法です。他の手法に比べ、短時間で幾何級数的な難問を解決することができるため、最短な配送ルートの割り出し、病理診断などさまざまな産業で活用されています。

H100では、DPX 命令で動的プログラミングの計算速度をさらに向上します。 CPUと比較すると 40 倍、A100と比べても 7 倍の演算スピードを実現。

技術解説

ホワイトペーパー(英語版)

GTC2022 Keynote

NVIDIA H200 Tensor Core GPU

HBM3e GPUメモリを初めて搭載したNVIDIA H200 GPUは、生成AIやLLM (大規模言語モデル)のトレーニングにおいて革新的なパフォーマンスを発揮します。
旧世代のNVIDIA H100 GPUと比べ、 LLM推論においては約2倍、HPC解析では110倍の性能向上を実現します。

NVIDIA H200 Tensor Core GPU
NVIDIA公式サイトの情報を見る

NVIDIA GH200 Grace Hopper Superchip

NVIDIA Hopper™ベースの H100 GPUとArmベースのNVIDIA Grace™ 72コア CPUを、NVIDIA NVLink®-C2C インターコネクトテクノロジを用いて1基のコアに統合したモデル。8ペタFLOPSのAIパフォーマンスを誇り、生成AIやLLM (大規模言語モデル)のトレーニングにおいて革新的なパフォーマンスを発揮します。
従来の PCIe Gen5 レーンと比較して 7 倍広い最大 900 GB/秒の総帯域幅を実現。NVIDIA NVLink🄬システムに対応し、複数のGH200を高速・低遅延に接続することが可能です。

NVIDIA GH200 Grace Hopper Superchip
NVIDIA公式サイトの情報を見る

NVIDIA H100 Tensor Core GPU

Hopperアーキテクチャを採用したAI/ディープラーニング向けGPU。第4世代の Tensor コアと、FP8 精度の Transformer Engine を搭載し、MoE (Mixture-of-Experts) モデルのトレーニングを前世代よりも最大 9 倍高速化します。
NVIDIA マルチインスタンス GPU (MIG) テクノロジを利用することで、1基のGPUを最大7つのインスタンスに分割し、それぞれのリソースを複数の用途に活用することができます。

NVIDIA H100 Tensor Core GPU
NVIDIA公式サイトの情報を見る

NVIDIA DGX™ H100

Hopperアーキテクチャを採用した「NVIDIA H100 GPU」を8基搭載するAI/ディープラーニング向けアプライアンス。32PetaFLOPS(FP8の場合)のパフォーマンスを発揮できる世界最高性能のAIエンタープライズインフラストラクチャです。

  • NVIDIA H100 GPU:8基
  • 合計GPUメモリ:640GB
  • GPU間の双方向帯域幅:7.2TB/秒(NVIDIA 🄬 NVSwitches™:4基)
  • デュアルCPU
  • NVIDIA CONNECTX®-7 x8 および、NVIDIA BLUEFIELD® DPU 400Gb/秒 ネットワーク インターフェイス x2(ピーク時の双方向ネットワーク帯域幅 1TB/秒)
  • NVMe SSD:最大30TB
  • ソフトウェア:NVIDIA Base Command™ / NVIDIA AI Enterprise プリインストール
NVIDIA DGX™ H100
NVIDIA公式サイトの情報を見る

HGX H100

DGX H100のOEMモデル。Hopperアーキテクチャを採用した「NVIDIA H100 GPU」を4基または8基搭載可能な、SXM5/Gen5対応ラックマウント型GPUスーパーコンピューター。
NVLinkおよびNVSwitchによるGPUダイレクト通信で高速・高度な演算性能を発揮します。
NIC、メモリ容量、搭載CPU、ストレージなど、スペックは要件に合わせて任意にカスタマイズが可能です。

HGX H100
見積シミュレーター

DGX H100 / HGX H100条件比較

DGX H100 HGX H100
価格 営業担当へお問い合わせください。
【適用可能な特価プログラム】
・アカデミック
・NVIDIA Inception Parter
見積シミュレーター
サーバ仕様 ユニットサイズ 10U 8U
定格消費電力 11.3kVA 10.3kVA (搭載構成により変動)
NVSwitch 対応 対応
NVLink 対応 対応
構成-
GPU/CPU/メモリ/ディスク/NIC等
アプライアンス (変更不可) カスタマイズ可
保守/サポート ・3-5年オンサイト保守(※)
 ・NVIDIAテクニカルサポート
※GPU/CPUのみ。他パーツはクロスシップ
・1-5年オンサイト保守 or センドバック保守(※)
・SUpermicroテクニカルサポート
※保守年数、保守レベルは選択可能
ソフトウェア NVIDIA AI Enterprise 有償オプション
NVIDIA Base Command ×
NVIDIA Bright Cluster Manager 有償オプション
OS Ubuntu Linux OS 自由選択可