トレンドコラム

基礎知識

データセンターGPU性能比較:指標別に見る製品の選定ポイント

2025.06.25

GPUエンジニア

GPUエンジニア

データセンターGPU性能比較:指標別に見る製品の選定ポイント

昨今、AIや3Dレンダリング、高性能計算(HPC)をはじめ、さまざまな分野でGPUが利用されています。特に大規模言語モデル(LLM)の登場やディープラーニングの普及により、GPUの活用は一層高度化・多様化しています。
しかし、現在のGPU製品は用途別・世代別に多くの種類が存在し、それぞれに異なる性能特性やアーキテクチャが存在します。そのため「どのGPUが自社のワークロード(用途)に適しているのか」「性能指標のどこに注目すればいいのか」といった点で悩むケースも少なくありません。

本記事では、GPU性能比較の基本となる考え方から、用途別に注目すべき性能要素・選定のポイントまでをわかりやすく解説します。

1. GPUの性能とは

GPUの性能とは、単に処理速度の速さだけでなく、処理への適性、演算精度の対応、メモリ帯域幅、電力効率等、複数の技術要素から成り立っています。

特にAIやHPCといった用途では、「トレーニング」と「推論」それぞれに求められる性能要件が異なるため、GPUの世代・アーキテクチャ・演算精度といった観点から丁寧に比較・検討する必要があります。

その一方で、GPU製品は世代・用途ごとに多くのバリエーションが存在し、それぞれが異なる性能特性を持っているため、「どれが自社のワークロードに最適なのか」「どの指標を重視すべきか」がわかりづらいと感じる場面も多いのではないでしょうか。

そのためには、まずNVIDIAの製品体系や命名規則を理解することが重要です。各GPUモデルの位置づけや性能の傾向を把握しやすくなりますので、ここではその仕組みと読み解き方をわかりやすく解説していきます。

2. NVIDIA データセンターGPU製品名の読み方・命名ルール

NVIDIA製品の命名には、アーキテクチャ世代や用途、構成の特徴が反映されています。製品名の構造を理解することで、そのGPUがどの世代に属し、どのような用途に適しているのかを素早く把握することができます。

例えば、「B200」という名称は、最新のBlackwell世代に属する高性能GPUであることを指しています。一方、「DGX™ H200」は、H200 GPUを搭載した統合型のAIサーバーであることを意味しています。

以下に、NVIDIAデータセンターGPU製品名に含まれる主な記号や要素とその意味を整理しました。なお、NVIDIA RTX PRO製品ラインナップの命名規則とは異なります。

記号・要素 意味・役割
H Hopper世代(2022〜)のGPU H100、H200
GH Grace CPUとHopper世代のGPUが統合されたSuperchip GH200
B Blackwell世代(2024〜)のGPU B200
GB Grace CPUとBlackwell世代のGPUが統合されたSuperchip GB200
NVL NVIDIA® NVLink®構成(複数GPUを高速接続する技術) H200 NVL、B200 NVL
DGX NVIDIA製AIスーパーコンピューター(完成品) DGX™ H100、DGX™ B200
数値(例:200) 原則、数字が大きいほど新しい世代・性能グレードが上であることを示す H100 < H200、B100 < B200

基本的な命名ルールを理解することで、モデル名から基本的な性能特性や用途、アーキテクチャ等を判断しやすくなります。

2.1 主要アーキテクチャの特徴

現在のNVIDIA GPUでは、複数の世代のアーキテクチャが同時に展開されており、それぞれが異なる用途や性能特性を備えています。命名ルールの表に登場した「B」「H」等の文字は、まさにこうしたアーキテクチャ世代を表しており、製品名から世代や設計思想を読み取る手がかりになります。

ここでは、代表的なアーキテクチャの特徴を紹介します。

代表的なアーキテクチャと特徴
Blackwellの特徴
  • 2024年に発表されたAI推論向けアーキテクチャ
  • 大規模なAIモデルのトレーニングおよび推論処理、膨大なデータ処理の高速化、リアルタイムシミュレーションなどで利用
  • 前世代比でトレーニング性能3倍、推論性能15倍を実現
  • 低精度演算(FP6/FP4)のサポートにより、大規模言語モデルの推論を大幅に高速化
  • 代表的な製品: B200、GB200、DGX™ B200等
Hopperの特徴
  • 2022年に登場したAI処理向けアーキテクチャ
  • 生成AIやLLM (大規模言語モデル)のトレーニングを高速化、データ分析やHPCの高度な計算処理などで利用
  • Transformer Engineを搭載し、自己注意機構の高速処理を実現
  • FP8精度をサポートし、トレーニングと推論の両方で高性能を発揮
  • 代表的な製品: H200、GH200、H100等
Ada Lovelaceの特徴
  • グラフィックス処理とAI推論の両立に優れたアーキテクチャ
  • AI開発やデータサイエンス、3Dモデリング・レンダリングや映像編集などのクリエイティブ業務で利用
  • プロフェッショナル向けGPUとして、幅広い用途に対応
  • メディア処理や可視化処理に強く、生成AI用途にも活用可能
  • 代表的な製品: L40S、RTX 6000 Ada Generation等

こうしたアーキテクチャはそれぞれ異なる性能特性を持っており、用途によって向き・不向きがあります。これらを正しく見極めるためには、GPUの性能を示す主要な指標について理解しておくことが重要です。

3. GPU性能を左右する主要な指標

GPUの性能は、いくつかの技術的な指標によって構成されており、どの指標を重視すべきかはワークロードによって異なります。例えば、LLMの学習ではFP8演算やメモリ帯域が重視される一方で、推論用途では低レイテンシや電力効率が重要となります。

ここでは、最新の NVIDIA Blackwell、Hopper、Ada Lovelace アーキテクチャを中心に、GPU性能を比較する際に確認すべき代表的な指標とその意味について解説します(※製品によってはカタログに明記されない場合もあります)。

3.1 コア構成・演算精度

GPUの処理性能を比較するうえで基本となるのが、演算ユニット(コア)の構成と対応する演算精度です。特にAIトレーニングや推論処理では、並列演算性能や行列演算の高速化が実効性能に大きく影響します。

コア構成の役割

GPUには、用途に応じて異なる種類のコアが搭載されており、それぞれが特定の処理を高速に実行する役割を持っています。

製品仕様では、「CUDAコア数」や「Tensorコア数」、「RTコア数」等の形でコア構成が記載されており、GPUの演算性能を比較するうえで基本となる指標のひとつです。

以下に、代表的なコアの種類とその特徴をまとめました。

コアの種類 主な役割 特徴
CUDAコア 汎用的な並列演算(浮動小数点演算やベクトル演算) ベースとなる演算性能を構成。多いほど良いが、AI用途では補助的に使われる。
Tensorコア 行列演算等、AI処理向けの高速演算 AI学習・推論に特化。FP8 / FP16といった低精度演算や、CUDA・cuDNN・TensorRT等のライブラリが最適化されている場合に最大性能を発揮。
RTコア リアルタイムレイトレーシング(光線追跡)向けの専用演算 光の反射・屈折等をリアルタイムに描画。3Dグラフィックスや可視化用途で重要。AI処理での直接的な使用は少ないが、視覚シミュレーション等一部用途で活用されることもある。

特にTensorコアは、対応するソフトウェアや演算精度と組み合わせることで、はじめて本来の性能を発揮します。

演算精度の役割

GPUの演算精度とは、数値計算を行う際のビット数(精度の高さ)を示すもので、処理内容に応じて適切な精度が求められます。

製品仕様では、各精度に対応した性能値が「FLOPS(Floating Point Operations Per Second:1秒あたりの浮動小数点演算回数)」として示されます。

以下に、代表的な演算精度とその特徴、FLOPSの表記例をまとめました。

精度 ビット数 特徴 カタログ表記例
FP64(倍精度) 64ビット 高精度が求められる処理向け 40TFLOPS
FP32(単精度) 32ビット 幅広い用途に対応 2.2PFLOPS
FP16 / FP8 / FP4(低精度) 16ビット以下 精度を抑えて高速・省電力化 FP16: 4.5PFLOPS
FP8: 9PFLOPS 等

例えば、科学シミュレーションではFP64のような高精度演算が必要ですが、高速処理が求められるAI推論ではFP16やFP8といった低精度演算を活用することで、演算効率を飛躍的に高めることができます。

3.2 メモリ帯域幅・VRAM容量

GPUの処理性能を最大限に引き出すには、演算ユニットだけでなく、メモリの転送速度と容量も大切です。

製品カタログでは、「メモリ帯域幅(GB/s)」や「VRAM容量(GB)」といった形でスペックが記載されており、処理速度や対応可能なモデルサイズに大きく影響します。

以下に、それぞれの指標の役割と特徴をまとめました。

指標 内容 性能への影響 カタログ表記例
メモリ帯域幅 メモリとGPU間のデータ転送速度 幅が広いほど大量のデータを高速に処理可能 最大8TB/s等
VRAM容量 データを一時的に保持するGPU専用メモリ容量 容量不足時にスワップが発生し、処理速度が大幅に低下する可能性あり 192GB等

また、帯域幅は処理速度全体に直結するため、演算性能とあわせて確認することが重要です。

3.3 NVIDIA® NVLink®対応

大規模なAIモデルの学習や複雑なシミュレーションでは、単一GPUでは処理性能やメモリ容量が不足することがあります。このため、複数のGPUを連携させ、効率的に動作させるための高速な接続技術(NVIDIA® NVLink®)が用いられます。

以下に、それぞれの指標の特徴をまとめました。

指標 内容 性能への影響 カタログ表記例
接続世代 NVIDIA® NVLink®規格世代 世代が新しいほど帯域幅が広く、高速な通信が可能 第5世代NVIDIA® NVLink®、NVIDIA® NVLink®-C2C等
帯域幅 GPU間、またはシステム全体の通信速度 帯域幅が広いほどマルチGPU構成の効率が向上 900GB/s、1.8TB/s、21TB/s等

特に分散学習やモデル並列処理を行う場合、これらの接続構成の有無が、システム全体の処理性能やスケーラビリティに大きく影響するため、選定時の確認ポイントとして重要です。

3.4 消費電力(TDP)・熱設計(冷却方式)

GPUの高性能化に伴い、消費電力(TDP)と熱設計(冷却方式)は、性能を安定して発揮するために欠かせない要素です。
どれだけ高い演算性能を持っていても、電源容量や冷却性能が不足していると、動作の不安定化やパフォーマンス低下の原因となるため、製品選定時には注意が必要です。

TDPの役割

TDPは、GPUがフル稼働時に発生する熱量の目安であり、それに対応する電力消費と冷却設計の指標となります。

指標 内容 性能との関係 カタログ表記例
TDP(W) 最大負荷時にGPUが発生する熱に基づく設計電力量 TDPが高い=高性能だが、冷却・電源設計が重要 700W、1000W等

また、TDPだけでなく「Performance per Watt(1Wあたりの性能)」も比較指標として利用されます。特にデータセンターや大規模クラスタにおいては、処理性能と消費電力のバランスを考慮することが、運用コストや電源設計に重要でしょう。

冷却方式の役割

TDPに応じて発生する熱をいかに効率的に処理するかが、GPUの持続的な性能発揮に寄与します。また、冷却が不十分だと、サーマルスロットリング(熱を抑えるための性能制御)やクロックダウン(動作速度の自動低下)、さらには故障の原因にもなり得ます。代表的な冷却方式としては、空冷式、水冷式、液浸冷却、ハイブリッド式等があります。

3.5 フォームファクター・サーバー互換性

GPUのフォームファクター(物理形状や接続方式)は、どのシステムに搭載できるかだけでなく、TDP上限・冷却方式・NVIDIA® NVLink®対応等、性能面にも直接影響します。NVIDIAのGPUは主に「PCIe」と「SXM」という2種類のフォームファクターで提供されています。

それぞれの特徴と、どのような基準で選ぶべきかを紹介します。

PCIeの特徴
  • マザーボードのPCIeスロットに1基ずつ挿入して使用する一般的な構成で、搭載数の柔軟性に優れています。
  • PCIeインターフェースのため、CPU-GPU間・GPU-GPU間のデータ転送速度はPCIe規格に依存します。
  • 一部の製品(H100 NVL等)では、PCIe接続でもNVIDIA® NVLink®ブリッジを用いて2基のGPU間を高速接続することができます。

上記のような特性から、AI推論処理や開発・検証環境、比較的小規模な学習やファインチューニング等、多様なワークロードで広く利用されています。既存の汎用サーバーに柔軟にGPUを追加したい場合や、コストを抑えながら段階的に拡張したい環境に適した選択肢です。

SXMの特徴
  • GPUモジュールをマザーボードに直接実装する高密度設計で、搭載数はNVIDIAの仕様で固定されています。
  • 標準でNVIDIA® NVLink®およびNVSwitch™を備えており、GPU-GPU間のデータ転送速度はPCIeと比較して、次の表の通り高速です。
GPU アーキテクチャ PCIe世代/x16帯域
(双方向)
NVLink世代 NVLink帯域
(最大・双方向)
PCIeとの転送速度比
B200 Blackwell Gen6/256GB/s NVLink5 1.8TB/s
(18リンク)
約7倍
H100 Hopper Gen5/128GB/s NVLink4 900GB/s
(18リンク)
約7倍

上記のような特性から、大規模モデルの事前学習やファインチューニング等、高負荷なAIワークロードに推奨されます。GPU間の高速通信が求められる用途や、性能を最優先する場合に選定するのが望ましく、専用サーバー環境を構築できる体制があるかも重要な判断ポイントです。

4. GPU製品の性能比較

ここまで、GPUの性能を決定づける主要な指標について整理してきました。次は、それらの指標を踏まえて、NVIDIAの代表的なGPU製品の性能を比較していきます。

ここでは、システム構成やスケーラビリティの観点から、GPUカード単体での構成と、NVIDIAが提供する統合型AIシステム「DGXシリーズ」の2つに分類し、それぞれの特徴や用途に応じた選定ポイントを解説します。

4.1 NVIDIA GPUカードの性能比較

NVIDIAが提供する生成AI、LLM、HPC、ディープラーニング等の高度な処理に対応したGPUカードについて、主要モデルの特徴と比較ポイントを整理します。

ここで取り上げるのは、Blackwell、Hopper、Ada Lovelaceといった最新アーキテクチャを採用した、エンタープライズ向けGPUカードです。これらは、サーバーやワークステーションに搭載され、処理性能・電力効率・拡張性に優れた構成を可能にします。

主要製品ラインナップ

以下に、主要製品を性能と用途ごとに比較しました。

製品名 アーキテクチャ メモリ メモリ帯域幅 パフォーマンス(演算性能) 消費電力 主な用途
倍精度
(FP64)
単精度
(TF32)
半精度
(FP16)
FP8
NVIDIA GB200 Blackwell 384GB 最大16TB/s 90TFLOPS 5PFLOPS* | 2.5PFLOPS 10PFLOPS* | 5PFLOPS 20PFLOPS* | 10PFLOPS 最大2,700W 生成AI/LLM推論
NVIDIA B200 Blackwell 180GB 7.7TB/s 37TFLOPS 2.2PFLOPS 4.5PFLOPS 9FLOPS 1,000W 生成AI/LLM推論
NVIDIA B100 Blackwell 192GB 最大8TB/s 30TFLOPS 1.8PFLOPS 3.5PFLOPS 7PFLOPS 700W 生成AI/LLM推論
NVIDIA GH200 Hopper ・HBM3 :96GB
・HBM3e:144GB
・HBM3:4TB/s
・HBM3e:4.9TB/s
34TFLOPS 989TFLOPS* | 494TFLOPS 1,979TFLOPS* | 990TFLOPS 3,958TFLOPS* | 1,979TFLOPS 450W~1,000W 生成AI/LLM学習・推論/HPC
NVIDIA H200 Hopper 141GB 4.8TB/s 34TFLOPS 989TFLOPS* 1,979TFLOPS* 3,958TFLOPS* 最大700W 生成AI/LLM学習・推論/HPC
NVIDIA H200 NVL Hopper 141GB 4.8TB/s 34TFLOPS 989TFLOPS* 1,979TFLOPS* 3,958TFLOPS* 600W ファインチューニング/推論
NVIDIA L40S Ada Lovelace 48GB 864GB/s - 91.6TFLOPS 366TFLOPS* | 183TFLOPS 733TFLOPS | 1,466TFLOPS* 350W AI・ディープラーニング推論/グラフィックス

*スパース行列演算機能を活用した場合の性能

各GPUモデルの性能詳細、その他の製品については、次のページをご覧ください。
NTTPCのAI向けGPU比較表と詳細仕様ページ

【関連記事】
▶︎ H200紹介記事(NVIDIA H200 GPUで加速する生成AI ~H100との比較から次世代B200シリーズまで徹底解説~)
▶︎ B200紹介記事(生成AIのパフォーマンスが大幅アップ!?NVIDIA BlackwellアーキテクチャGPUの性能)

4.2 NVIDIA DGX™ Systemsの性能比較

NVIDIA DGX™ Systemsは、大規模なAIモデルの学習やHPC用途に特化した、統合型のGPUコンピューティングシステムです。
複数のGPU、専用CPU、大容量メモリ、ストレージ、冷却機構、NVIDIAソフトウェアスタックがすべて統合された構成となっており、導入直後から高性能なAIワークロードを即時に実行できるよう設計されています。

NVIDIA DGX™ Systems の特徴

NVIDIA DGX™ Systems は、ハイエンドGPUの搭載と、それらの性能を最大限に引き出す最適化された統合システムが強みです。その詳細は以下の通りです。

項目 内容
ハイエンドGPUの搭載 最新の Blackwell / Hopper アーキテクチャ採用GPUを複数搭載。最高クラスの並列処理性能を実現
専用インターコネクト NVIDIA® NVLink® / NVSwitch™によりGPUメモリプールを統合、高速なGPU間通信が可能。大規模な分散学習にも最適
高速ネットワーク ConnectX®-7 VPI や BlueField®-3 DP等の高性能NICを標準装備。通信遅延を抑え、クラスタ利用にも対応
ストレージI/O最適化 高速な NVMeストレージにより、データ読み込みのボトルネックを解消
統合ソフトウェアスタック DGX OS、NVIDIA AI Enterprise、Base Command 等がプリインストール。追加構築なしでAI開発が可能
主要製品ラインナップ

以下に、主要製品を性能ごとに比較しました。

製品名 GPU構成 CPU メモリ パフォーマンス(演算性能) ソフトウェア / OS その他の特徴
NVIDIA DGX™ B200 NVIDIA B200 GPU ×8 Intel Xeon Platinum 8570 ×2(計112コア / 2.1GHz (基本)/ 4.0GHz (ターボブースト時)) 最大システムメモリ:4TB、NVSwitch™×2 Training: 72 PFLOPS / Inference: 144 PTLOPS DGX OS / NVIDIA Base Command™ / NVIDIA AI Enterprise 最大消費電力: 14.3kW
NVIDIA DGX™ H200 NVIDIA H200 Tensor Core GPU(141GB)×8 Dual Intel® Xeon® Platinum 8480C Processors 112 Cores total, 2.00GHz(ベース),3.80GHz(最大) システムメモリ:2TB、NVSwitch ™×4 FP8: 32 PFLOPS DGX OS / DGX software stack / NVIDIA Base Command™, AI Enterprise 等 最大消費電力: 10.3kW
NVIDIA DGX™ GH200 NVIDIA GH200 Superchip ×32 Arm ® Neoverse V2 Cores×2304コア システムメモリ:19.5TB FP8: 128 PFLOPS DGX OS / NVIDIA AI Enterprise、 NVIDIA Base Command™ ネットワーク:OSFP single-port NVIDIA ConnectX®-7 VPI with 400Gb/s InfiniBand×32ports、dual-port NVIDIA BlueField®-3 VPI with 200Gb/s InfiniBand and Ethernet ×16ports

上記の製品は、いずれもノード単位またはラック単位での導入を前提とした構成であり、用途に応じてクラスタ化することも可能です。

一方で、より大規模なAIモデルの学習や、超大規模なクラスタ環境の構築を想定して設計されているのが、「DGX SuperPOD™ with DGX GB200」です。

このシステムでは、1ラックに36個のGB200 Grace Blackwell Superchip(Grace CPU ×36、Blackwell GPU ×72)を搭載し、NVIDIA® NVLink® で高速接続されています。各ラック間はInfiniBandで接続され、数万基規模までスケール可能です。

上記以外の製品も含め、それぞれの詳細については次のNVIDIA DGX™ Systems製品詳細ページをご覧ください。
NVIDIA DGX™ Systemsの詳細ページ

5. GPU選定のポイント

GPUの選定は、性能指標の大小を見るだけでなく、それが「どのような用途に効くか」を明確にし、現実の運用条件と照らして判断する視点が不可欠です。以下にGPU選定の際に重要なポイントをまとめました。

1. 用途との適合性

トレーニングか推論か、AI処理か可視化かといったワークロードによって求められる演算精度やメモリ構成は異なります。性能値そのものではなく、「どの処理に、どの性能が効くのか」を正しく見極めることが重要です。

例えば、Ada Lovelaceアーキテクチャの場合は、グラフィックス処理やAI推論の用途に向いています。Hopperアーキテクチャは、生成AIやLLMのトレーニング、データ分析やHPCの高度な計算処理などで利用されます。Blackwellアーキテクチャは、Hopper世代の後継にあたり、性能が大幅に向上しており、大規模なAIモデルのトレーニングおよび推論処理、膨大なデータ処理の高速化、リアルタイムシミュレーションなどで優れた性能を発揮します。

2. インフラとの整合性

導入予定のサーバー構成や、電源容量・冷却方式との相性も重要です。特にNVIDIA® NVLink®を活用するような高密度な構成では、インフラ側の対応力が導入可否を左右します。

3. 将来的な拡張性と運用性

モデルサイズの拡大やGPUの追加、分散学習への対応などを想定する場合は、NVLink® や NVIDIA® DGX™、SuperPOD® といったスケーラブルなシステムも選択肢の一つとして検討が可能です。導入直後だけでなく、中長期的な運用も見据えて構成を考えることが望まれます。

GPUは、複数の性能要素が複雑に関係する高度な計算リソースです。用途・環境・将来性や指標の意味を踏まえてバランスよく評価していくことが、選定の精度を高めるポイントになります。

6. まとめ

本記事では、GPUの性能を比較・評価するうえで重要となる主な指標について解説し、それらを踏まえて主要なGPUカードおよびDGXシステムの製品比較を行いました。
GPUを選定する際には、単にスペック表の数値だけを比較するのではなく、ワークロードや運用環境、将来的な拡張性に応じて、どの性能要素を優先すべきかを見極めることが重要です。
多様なGPUソリューションと豊富な導入実績を持つNTTPCは、お客さまのビジネス課題解決に最適なGPU環境を提案します。ミッションクリティカルな商用AIサービスから、高いパフォーマンスが求められる研究開発基盤に至るまで、用途・予算に合わせた適切なAI基盤の設計・構築が可能です。

GPUの導入を検討されている企業の方は、お気軽にご相談ください

関連ページ

※本記事は2025年3月時点の情報に基づいています。製品に関わる情報等は予告なく変更される場合がありますので、あらかじめご了承ください。NVIDIAが公表している最新の情報が優先されます。