GPUカード
1993年にグラフィックスカード(GPU)を発明したNVIDIAは、AIテクノロジー、ビジュアルコンピューティングの先駆者として、社会全体に大きな影響を与えつづけています。
ハードウェアのみならず、より効率的に汎用並列計算を行うためのCUDAプログラミング開発環境や、ビジュアリゼーションライブラリの提供、学習用AIモデルの公開も行っています。近年では、NVIDIA AI Enterprise、NVIDIA Omniverse™ Enterpriseをはじめとするソフトウェア・プラットフォーム分野での先進的な開発に注力しており、市場からの注目が集まっています。
現在、生成AI/LLM(大規模言語モデル)/ディープラーニング推論用途に適したGPUと、主にXR/画像生成/3Dグラフィックス/シミュレーションに利用されるGPUの2つのアーキテクチャを展開しています。
NVIDIAテクノロジーは、生産工場のデジタルツインプラットフォームの開発や、AIを搭載した自律型ロボットの商用化、精密な3Dグラフィックス・AR/VR技術、生成AIの開発など、あらゆる産業の変革を実現しています。
NTTPCは、NVIDIAエリートパートナーとして、さまざまな業種でのNVIDIA製品・サービスの導入を支援します。
生成AI/LLM(大規模言語モデル)/
ディープラーニング推論
生成AI/LLM開発のためのGPUクラスタ基盤については、当社「トレンドコラム」でも紹介しています。ぜひご覧ください。
生成AI/LLMの開発を加速するGPUクラスタ
AI向けGPUカード 比較表
Blackwellアーキテクチャ | Hopperアーキテクチャ | Ada Lovelaceアーキテクチャ | |||||
---|---|---|---|---|---|---|---|
GB200 | B200 | B100 | GH200 | H200 | H100 NVL | L40S | |
メモリ | 384GB | 192GB | 192GB | ・HBM3 :96GB ・HBM3e:144GB |
141GB | 188GB | 48GB |
メモリ帯域 | 最大16TB/s | 最大8TB/s | 最大8TB/s | ・HBM3 :4TB/s ・HBM3e:4.9TB/s |
4.8TB/s | 7.6TB/s | 864GB/s |
パフォーマンス | |||||||
倍精度 (FP64) |
90TFLOPS | 40TFLOPS | 30TFLOPS | 34TFLOPS | 34TFLOPS | 68TFLOPS | - |
単精度 (TF32) |
5PFLOPS* | 2.5PFLOPS | 2.2PFLOPS | 1.8PFLOPS | 989TFLOPS* | 494 TFLOPS | 989 TFLOPS* | 1,979 TFLOPS* | 91.6TFLOPS |
半精度 (FP16) |
10PFLOPS* | 5PFLOPS | 4.5PFLOPS | 3.5PFLOPS | 1,979TFLOPS* | 990TFLOPS | 1,979TFLOPS* | 3,958TFLOPS* | 366TFLOPS* | 183TFLOPS |
FP8 | 20PFLOPS* | 10PFLOPS | 9FLOPS | 7PFLOPS | 3,958TFLOPS* | 1,979 TFLOPS | 3,958TFLOPS* | 7,916TFLOPS* | 1,466TFLOPS* | 733TFLOPS |
FP6 | 20PFLOPS* | 10PFLOPS | 9FLOPS | 7PFLOPS | - | - | - | - |
FP4 | 40PFLOPS* | 20PFLOPS | 18PFLOPS | 14PFLOPS | - | - | - | - |
消費電力 | 最大2,700W | 1,000W | 700W | 450W~1,000W | 最大700W | 350-400W x2 | 350W |
主な用途 | 生成AI/LLM推論 | 生成AI/LLM推論 | 生成AI/LLM推論 | 生成AI/LLM学習・推論/HPC | 生成AI/LLM学習・推論/HPC | 生成AI/LLM学習・推論/AI・ディープラーニング/HPC | AI・ディープラーニング推論/グラフィックス |
ベンチマーク | Coming Soon! | Coming Soon! | Coming Soon! | HPC Application Performance | |||
詳細仕様 | Technical Brief | Technical Brief | Technical Brief | Data Sheet | Data Sheet | Product Brief | Data Sheet |
NVIDIA B100 GPU
NVIDIA Blackwell™アーキテクチャGPU。 1GPUあたりの消費電力は700Wに抑えながら、14ペタLOPS(FP4)の浮動小数点演算性能を実現し、特に生成AI/LLMの推論において高いパフォーマンスを発揮します。
従来の PCIe Gen5 レーンと比較して 7 倍広い最大 900 GB/秒の総帯域幅を実現。NVIDIA NVLink®システムに対応し、第2世代Transformer Engineを搭載し、ワークロードに適した演算方式を自動的に選択可能です。
NVIDIA B100 GPU
項目 | 仕様 |
メモリ | ・最大192GB |
メモリ帯域幅 | ・最大8TB/s |
パフォーマンス | |
倍精度(FP64) | ・30TFLOPS |
単精度(TF32) | ・1.8PFLOPS |
半精度(FP16) | ・3.5PFLOPS |
FP8 | ・7FLOPS |
FP6 | ・7FLOPS |
FP4 | ・14FLOPS |
電力消費 | ・700W |
相互接続帯域幅 | ・NVLink: 1.8TB/s ・PCIe Gen6: 256GB/s |
詳細仕様 | ・Technical Brief |
NVIDIA B200 GPU
NVIDIA Blackwell™アーキテクチャの上位モデルGPU。2つのBlackwellチップを1ダイに統合し、合計192GBメモリを実現。
18ペタFLOPS(FP4性能)の浮動小数点演算性能を誇り、特に生成AI/LLMの推論において革新的なパフォーマンスを発揮します。
第2世代Transformer Engineを搭載し、ワークロードに適した演算方式を自動的に選択可能です。
NVIDIA B200 GPU
項目 | 仕様 |
メモリ | ・最大192GB |
メモリ帯域幅 | ・最大8TB/s |
パフォーマンス | |
倍精度(FP64) | ・40TFLOPS |
単精度(TF32) | ・2.2PFLOPS |
半精度(FP16) | ・4.5PFLOPS |
FP8 | ・9FLOPS |
FP6 | ・9FLOPS |
FP4 | ・18FLOPS |
電力消費 | ・1,000W |
相互接続帯域幅 | ・NVLink: 1.8TB/s ・PCIe Gen6: 256GB/s |
詳細仕様 | ・Technical Brief |
NVIDIA GB200 Grace Blackwell Superchip
NVIDIA Blackwell™アーキテクチャのフラッグシップモデル。NVIDIA® NVLink®-C2Cインターコネクト技術を用いて、2つのBlackwellチップと1つのNVIDIA Grace CPUを1ダイに統合。2つのGPU間の双方向帯域幅は900GB/sで、マルチGPUでも低遅延な処理を実現します。
40ペタFLOPS(FP4性能)の浮動小数点演算性能を誇り、生成AI/LLMの推論において最も革新的なパフォーマンスを発揮します。
NVIDIA GB200 Grace Blackwell Superchip
項目 | 仕様 |
メモリ | ・最大384GB |
メモリ帯域幅 | ・最大16TB/s |
パフォーマンス | |
倍精度(FP64) | ・90TFLOPS |
単精度(TF32) | ・5PFLOPS* | 2.5PFLOPS |
半精度(FP16) | ・10PFLOPS* | 5PFLOPS |
FP8 | ・20PFLOPS* | 10PFLOPS |
FP6 | ・20PFLOPS* | 10PFLOPS |
FP4 | ・40PFLOPS* | 20PFLOPS |
電力消費 | ・最大2,700W |
詳細仕様 | ・Technical Brief |
NVIDIA H200 Tensor Core GPU
HBM3e GPUメモリを初めて搭載したNVIDIA H200 GPUは、生成AIやLLM (大規模言語モデル)のトレーニングにおいて革新的なパフォーマンスを発揮します。
旧世代のNVIDIA H100 GPUと比べ、LLM推論においては約2倍、x86系CPUと比較した場合、HPC解析では110倍の性能向上を実現します。
NVIDIA H200 Tensor Core GPU
項目 | 仕様 |
メモリ | ・141GB |
メモリ帯域幅 | ・4.8TB/s |
パフォーマンス | ・倍精度 (FP64):34TFLOPS ・単精度(FP32):67TFLOPS ・半精度(FP16 Tensor Core):1,979TFLOPS* ・TF32 Tensor Core:989TFLOPS* ・FP8 Tensor Core:3,958TFLOPS* *スパース行列演算機能付き |
フォームファクター | ・SXM or PCIe |
マルチインスタンスGPU(MIG) | ・最大7つのMIGに分割可能 ※1インスタンスあたりのメモリ容量:16.5GB |
インターコネクト | ・NVIDIA NVLink®:900GB/s ・PCIe Gen5: 128GB/s |
最大電力消費 | ・700W |
NVIDIA H200 Tensor Core GPU NVL
2基のH200 GPUをNVLink接続した「H200 NVL」は、はデータ センター内のスペースに制約があるお客様に適した選択肢です。
2または4つのNVIDIA NVLinkブリッジを利用し、900GB/秒 の相互接続性能を誇ります。
前世代と比較してGPUメモリが1.5 倍、帯域幅は1.2 倍に増えたことで、LLMのファインチューニングや推論実行に要する時間を大幅に短縮することができます
NVIDIA H200 Tensor Core GPU NVL
項目 | 仕様 |
メモリ | ・141GB |
メモリ帯域幅 | ・4.8TB/s |
パフォーマンス | |
FP64 | ・34TFLOPS |
FP32 | ・67TFLOPS |
TF32 Tensor Core | ・989TFLOPS* |
FP16 Tensor Core | ・1,979TFLOPS* |
FP8 Tensor Core | ・3,958TFLOPS* |
フォームファクター | ・PCIe |
マルチインスタンスGPU(MIG) | ・最大7つのMIGに分割可能 ※1インスタンスあたりのメモリ容量:16.5GB |
インターコネクト | ・2 ウェイまたは 4 ウェイの NVIDIA NVLink ブリッジ: 900GB/秒 ・PCIe Gen5: 128GB/秒 |
最大電力消費 | ・600W |
NVIDIA GH200 Grace Hopper Superchip
NVIDIA Hopper™ベースの H100 GPUとArmベースのNVIDIA Grace™ 72コア CPUを、NVIDIA NVLink®-C2C インターコネクトテクノロジを用いて1基のコアに統合したモデル。8ペタFLOPSのAIパフォーマンスを誇り、生成AIやLLM (大規模言語モデル)のトレーニングにおいて革新的なパフォーマンスを発揮します。
従来の PCIe Gen5 レーンと比較して 7 倍広い最大 900 GB/秒の総帯域幅を実現。NVIDIA NVLink®システムに対応し、複数のGH200を高速・低遅延に接続することが可能です。
NVIDIA GH200 Grace Hopper Superchip
カテゴリ | 項目 | 仕様 |
CPU | 総CPUコア | ・72 Arm Neoverse V2 コア |
L1キャッシュ | ・64KB i-cache + 64KB d-cache | |
L2キャッシュ | ・1MB/コア | |
L3キャッシュ | ・117MB | |
メモリ | ・480GB | |
メモリ帯域幅 | ・512GB/s | |
PCIe接続 | ・PCIe Gen5 ×4レーン | |
GPU | メモリ | ・HBM3 :96GB ・HBM3e:144GB |
メモリ帯域幅 | ・HBM3 :4TB/s ・HBM3e:4.9TB/s |
|
パフォーマンス | ・倍精度 (FP64) : 34TFLOPS ・単精度 (FP32) : 67TFLOPS ・半精度 (FP16 Tensor Core) : 1,979TFLOPS* | 990TFLOPS ・FP8 Tensor Core:3,958TFLOPS* | 1,979TFLOPS ・Bfloat16 Tensor Core : 1,979TFLOPS* | 990TFLOPS ・INT8 Tensor Core:3,958TOPS* | 1,979TOPS *スパース行列演算機能付き |
|
共通 | NVLink-C2C CPU-GPU接続帯域幅 |
・900GB/s |
最大電力消費 | ・450W~1,000W | |
サーマルソリューション | ・空冷 / 水冷 |
NVIDIA H100 Tensor Core GPU
Hopperアーキテクチャを採用したAI/ディープラーニング向けGPU。第4世代の Tensor コアと、FP8 精度の Transformer Engine を搭載し、MoE (Mixture-of-Experts) モデルのトレーニングを前世代よりも最大 9 倍高速化します。
NVIDIA マルチインスタンス GPU (MIG) テクノロジを利用することで、1基のGPUを最大7つのインスタンスに分割し、それぞれのリソースを複数の用途に活用することができます。
NVIDIA H100 Tensor Core GPU
項目 | 仕様【H100 PCIe】 | 仕様【H100 SXM(NVLink)】 |
メモリ | ・80GB | ・80GB |
メモリ帯域幅 | ・2TB/s | ・3TB/s |
最大電力消費 | ・350W | ・700W |
パフォーマンス | ・倍精度 (FP64) : 24 TFLOPS ・単精度 (FP32) : 48 TFLOPS ・半精度 (FP16 Tensor Core) : 1,600 TFLOPS* / 800 TFLOPS ・FP8 Tensor Core:3,200TFLOPS* / 1,600TFLOPS ・Bfloat16 : 1,600 TFLOPS* / 800 TFLOPS ・INT8 Tensor Core:3,200 TOPS* / 1,600 TOPS *スパース行列演算機能付き |
・倍精度 (FP64) : 30 TFLOPS ・単精度 (FP32) : 60 TFLOPS ・半精度 (FP16 Tensor Core) : 2,000 TFLOPS* / 1,000 TFLOPS ・FP8 Tensor Core:4,000TFLOPS* / 2,000TFLOPS ・Bfloat16 : 2,000 TFLOPS* / 1,000 TFLOPS ・INT8 Tensor Core:4,000 TOPS* / 2,000 TOPS *スパース行列演算機能付き |
マルチインスタンスGPU[MIG] | ・10GB×7インスタンス | |
相互接続帯域幅 | ・NVLink : 600GB/s ・PCIe Gen5 : 128GB/s |
・NVLink : 900GB/s ・PCIe Gen5 : 128GB/s |
NVIDIA H100 Tensor Core GPU NVL
デュアルGPUの「H100 NVL」は、大規模な言語モデルやジェネレーティブAIの開発用途に特化しています。2つのGPUにそれぞれ94GBのメモリを搭載し、合計188GBのGPUメモリを実現。旧モデルの「NVIDIA A100 GPU」と比較して最大12倍の推論性能を発揮します。
NVIDIA公式サイトの情報を見るNVIDIA H100 Tensor Core GPU NVL
項目 | 仕様 |
メモリ | ・188GB HBM3 |
メモリ帯域幅 | ・7.6TB/s |
パフォーマンス | ・FP16 Tensor Core:3,958TFLOPS* ・FP8 Tensor Core:7,916TFLOPS* *スパース行列演算機能付き |
相互接続帯域幅 | ・NVLink Bridge 600GB/s ・PCIe Gen5 128GB/s |
NVIDIA L40S GPU
NVIDIA L40S GPU は、生成AIやLLM (大規模言語モデル)のトレーニング・推論、3Dグラフィックス、NVIDIA Omniverse®など、マルチワークロードにおいて高いパフォーマンスを発揮します。
NVIDIA DLSS3による超高速レンダリングと滑らかなフレーム レートを実現。NVIDIA Ada Lovelace アーキテクチャと最新のハードウェア イノベーション を活用することで、FPS (フレーム毎秒) を向上させ、レイテンシを大幅に改善します。
NVIDIA L40S GPU
項目 | 仕様 |
メモリ | ・48GB GDDR6 ECC |
メモリ帯域幅 | ・864GB/s |
CUDAコア数 | ・18,176 |
第3世代RTコア | ・142 |
第4世代Tensorコア | ・568 |
パフォーマンス | ・RT Core:209TFLOPS ・FP32:91.6TFLOPS ・TF32 Tensor Core:183TFLOPS | 366TFLOPS* ・FP16 Tensor Core:362.05TFLOPS | 733TFLOPS* ・FP8 Tensor Core:733TFLOPS | 1,466TFLOPS* *スパース性を含む |
フォームファクター | ・4.4”(H) × 10.5”(L), デュアルスロット |
ディスプレイコネクタ | ・4x DisplayPort 1.4a |
サーマルソリューション | ・パッシブ |
vGPUソフトウェア | ・対応 |
最大電力消費 | ・350W |
NVIDIA A100 Tensor Core GPU
NVIDIAデータ センタープラットフォームのエンジン A100 は、 第3世代Tensor CoreとTF32精度を利用することで、従来のソースコードに手を加えることなく、NVIDIA V100 GPUと比較して最大 20 倍のAIパフォーマンスを発揮します。
さらに、NVIDIA マルチインスタンス GPU (MIG) テクノロジを利用することで、1基のGPUを最大7つのインスタンスに分割し、それぞれのリソースを複数の用途に活用することができます。
NVIDIA A100 Tensor Core GPU
項目 | 仕様【A100 PCIe 80GB】 | 仕様【A100 SXM4(NVLink) 80GB】 |
CUDAコア数 | ・6,912 | |
Tensorコア数 | ・432 | |
メモリ | ・80GB HBM2 | ・80GB HBM2 |
メモリ帯域幅 | ・最大1.9Tbps | ・2,039Gbps |
最大電力消費 | ・300W | ・400W |
パフォーマンス | ・倍精度 (FP64) : 9.7 TFLOPS ・単精度 (FP32) : 19.5 TFLOPS ・ディープラーニング[半精度 (FP16)] : 312 TFLOPS/624 TFLOPS* ・Bfloat16 : 312 TFLOPS/624 TFLOPS* ・INT8精度:624 TOPS/1,248 TOPS* ・INT4精度:1,248 TOPS/2,496 TOPS* *スパース行列演算機能付き |
|
相互接続帯域幅 | ・64Gbps | ・600 Gbps |
NVIDIA A100X
NVIDIA A100Xは、NVIDIA A100 Tensor Core GPUと、NVIDIA® BlueField®-2 データ プロセシング ユニット (DPU) を組み合わせたコンバージドアクセラレータです。
NVIDIA A100 GPUのパワフルなパフォーマンスに加え、DPUのセキュリティ強化機能・レイテンシ削減機能に対応。データは GPU と DPU の間の直接パス(一体型 PCIe Gen4 スイッチ)を経由して転送されるため、かつてない高速なGPU演算を実現します。
大規模な多入力/多出力 (MIMO) 機能を備えた 5G、AI-on-5G の導入、信号処理やマルチノード トレーニングなどのセキュリティとハイパフォーマンスが求められるワークロードに適しています。
NVIDIA A100X
項目 | 仕様 |
メモリ | ・80GB HBM2e |
メモリ帯域幅 | ・2,039GB/s |
マルチインスタンスGPU(MIG)最大分割数 | ・7 |
インターコネクト | ・PCIe Gen4 (x16 physical, x8 electrical) 3x NVIDIA NVLink® bridge |
ネットワーク | ・2x 100Gbps ports, Ethernet or Infiniband |
最大電力消費 | ・300W |
NVIDIA A30 Tensor Core GPU
NVIDIA Ampere アーキテクチャの Tensor コアとマルチインスタンス GPU (MIG) で、大規模な AI 推論やハイパフォーマンス コンピューティング (HPC) アプリケーションの高速化を実現します。
PCIe フォーム ファクターに高速のメモリ帯域幅を搭載し、低電力で利用可能な点が強みです。
NVIDIA A30 Tensor Core GPU
項目 | 仕様 |
メモリ | ・24GB HBM2 |
メモリ帯域幅 | ・933GB/s |
最大電力消費 | ・165W |
パフォーマンス | ・ピークFP64 Tensor Core:10.3 TFLOPS ・ピークFP16 Tensor Core:165 TFLOPS / 330TFLOPS* ・Bfloat16 Tensor Core : 165 TFLOPS /330 TFLOPS* ・ピークINT8 Tensor Core:330 TOPS / 661 TOPS* ・ピークINT4 Tensor Core:661 TOPS / 1,321 TOPS* *疎性あり |
相互接続帯域幅 | ・PCIe Gen4: 64GB/s ・Third-gen NVIDIA® NVLINK® 200GB/s** ** 最大 2 つの GPU の NVLink ブリッジが必要 |
vGPU ソフトウェア サポート | ・VMware 向け NVIDIA AI Enterprise ・NVIDIA 仮想コンピューティング サーバー |
NVIDIA A30X
NVIDIA A30Xは、NVIDIA A30 Tensor Core GPUと、NVIDIA® BlueField®-2 データ プロセシング ユニット (DPU) を組み合わせたコンバージドアクセラレータです。
NVIDIA A30 GPUをベースパフォーマンスに、DPUのセキュリティ強化機能・レイテンシ削減機能に対応。データは GPU と DPU の間の直接パス(一体型 PCIe Gen4 スイッチ)を経由して転送されるため、かつてない高速なGPU演算を実現します。
5G vRAN や AI ベースのサイバーセキュリティなど、セキュリティと効率性が求められるワークロードに適しています。
NVIDIA A30X
項目 | 仕様 |
メモリ | ・24GB HBM2e |
メモリ帯域幅 | ・1,223GB/s |
マルチインスタンスGPU(MIG)最大分割数 | ・4 |
インターコネクト | ・PCIe Gen4 (x16 physical, x8 electrical) 1x NVIDIA NVLink® bridge |
ネットワーク | ・2x 100Gbps ports, Ethernet or Infiniband |
最大電力消費 | ・230W |
NVIDIA A2 Tensor Core GPU
NVIDIA Ampere アーキテクチャの Tensor コアを搭載し、エッジAI、エントリーレベルの AI 推論やグラフィックス用途など、幅広い用途で性能を発揮します。
シングルスロットかつ低電力で動作できるため、エッジ拠点用サーバへの搭載に適しています。
NVIDIA A2 Tensor Core GPU
項目 | 仕様 |
RTコア数 | ・10 |
メモリ | ・16GB GDDR6 |
メモリ帯域幅 | ・200GBps |
最大電力消費 | ・40-60W |
パフォーマンス | ・ピークFP32:4.5TFLOPS ・TF32 Tensor Core:9TFLOPS | 18TFLOPS* ・ピークFP16 Tensor Core:18TFLOPS | 36TFLOPS* *疎性あり |
フォームファクター | ・シングルスロット |
NVIDIA L4 Tensor Core GPU
NVIDIA Ada Lovelace アーキテクチャを搭載した NVIDIA L4 Tensor Core GPU は、AI解析、ビジュアル コンピューティング、グラフィックス、仮想化などの用途で性能を発揮します。
薄型のフォームファクターにパッケージ化された L4 は、エッジからデータ センター、クラウドに至るまで、すべてのサーバーで高スループットと低遅延を実現する、コスト効率に優れたアクセラレータカードです。
NVIDIA L4 Tensor Core GPU
項目 | 仕様 |
メモリ | ・24GB |
メモリ帯域幅 | ・300GB/s |
最大電力消費 | ・72W |
パフォーマンス | ・単精度(FP32):30.3TFLOPS ・TF32 Tensor Core:120TFLOPS* ・FP16 Tensor Core:242TFLOPS* ・Bfloat16 Tensor Core:242TFLOPS* ・FP8 Tensor Core:485TFLOPS* ・INT8 Tensor Core:485TFLOPS* *スパース行列演算機能付き |
インターコネクト | ・PCIe Gen4 x16 64GB/s |
XR/画像生成/ビジュアライズ
NVIDIA A10 Tensor Core GPU
Ampareベースのアーキテクチャを採用したシングルスロットのコンパクトなGPU。NVIDIA®の仮想GPUソフトウェアと組み合わせることで、グラフィックス機能が充実した仮想デスクトップインフラストラクチャ (VDI) から AI まで、さまざまなワークロードを高速化できます。
NVIDIA公式サイトの情報を見るNVIDIA A10 Tensor Core GPU
項目 | 仕様【NVIDIA A10 Tensor Core GPU】 |
メモリ | ・24GB GDDR6 |
メモリ帯域幅 | ・最大600GB/s |
最大電力消費 | ・150W |
パフォーマンス | ・単精度 (FP32) : 31.2 TFLOPS ・半精度 (FP16) :125 TFLOPS / 250 TFLOPS* ・Bfloat16 : 125 TFLOPS / 250 TFLOPS* ・INT8精度:250 TOPS / 500 TOPS* ・INT4精度:500 TOPS / 1,000 TOPS* *疎性あり |
vGPUソフトウェアサポート | ・NVIDIA 仮想 PC (vPC), NVIDIA 仮想アプリケーション (vApp), NVIDIA RTX 仮想ワークステーション (vWS), NVIDIA 仮想コンピュート サーバー (vCS) |
NVIDIA A16 Tensor Core GPU
前世代の M10 に比べ、エンコーダー スループット、格納できるユーザー数が2倍以上に向上。
H.265 エンコード/デコード、VP9、AV1 デコードなど、最新のコーデックに対応し、高解像度のモニターを複数サポート (4K なら 2 台まで、5K なら 1 台)することで、仮想化環境でも最大級の生産性とフォトリアルな品質を実現します。
NVIDIA A16 Tensor Core GPU
項目 | 仕様 |
メモリ | ・64GB GDDR6 |
メモリ帯域幅 | ・最大928GBps |
最大電力消費 | ・250W |
vGPU ソフトウェア サポート | ・NVIDIA 仮想 PC (vPC), NVIDIA 仮想アプリケーション (vApp), NVIDIA RTX 仮想ワークステーション (vWS), NVIDIA 仮想コンピュート サーバー (vCS) |
NVIDIA A40
NVIDIA A40は、NVIDIA Ampere™ GPUテクノロジーを搭載。2基のGPUをNVIDIA®NVLink®ブリッジで接続することで、最大96GBまでメモリ容量の拡張が可能。
4K映像などのリアルなレンダリング、建築・製品設計のプロトタイピングなど、高負荷なワークロードを大幅にスピードアップします。
NVIDIA A40
項目 | 仕様【NVIDIA A40】 |
CUDAコア数 | ・10,752 |
Tensorコア数 | ・336 |
メモリ | ・48GB GDDR6 |
メモリ帯域幅 | ・696GBps |
最大電力消費 | ・300W |
パフォーマンス | ・単精度 (FP32) : 37.7TFLOPS ・ディープラーニング:301.9TFLOPS |
相互接続帯域幅 | ・NVIDIA NVLink 112 GBps (双方向) PCIe Gen4 16 GBps |
サーマルソリューション | ・パッシブ |
NVIDIA L40
Ada Lovelaceアーキテクチャを採用したNVIDIA L40は、第3世代RTコアと48GBの GDDR6メモリを搭載し、前世代の最大2倍のリアルタイムレイトレーシングパフォーマンスを実現。
デジタルツイン環境の構築、3D デザイン、ビデオ ストリーミングなど、忠実度の高いクリエイティブワークフローを加速します。さらに、ディープラーニングやAI推論にも画期的なパフォーマンスを発揮します。
NVIDIA L40
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・48 GB GDDR6 (ECC 搭載) |
最大電力消費 | ・300W |
フォームファクター | ・4.4" (H) x 10.5" (L) デュアル スロット |
ディスプレイコネクタ | ・Display Port 1.4a x4 |
サーマルソリューション | ・パッシブ |
vGPU ソフトウェア | ・NVIDIA vPC/vApp、NVIDIA RTX 仮想ワークステーション (vWS) |
NVIDIA RTX 6000 Ada
NVIDIA Ada Lovelace GPU アーキテクチャを採用したRTX 6000 Ada は、48GBのグラフィックスメモリを搭載し、大規模なデータセットを用いたシミュレーションやXR/VRワークロードを加速します。
NVIDIA RTX Virtual Workstation (vWS)ソフトウェアをサポートしているため、1台のサーバのリソースを複数人で共有できます。
NVIDIA RTX 6000 Ada
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・48 GB GDDR6 (ECC 搭載) |
最大電力消費 | ・300W |
フォームファクター | ・4.4" (H) x 10.5" (L) デュアル スロット |
ディスプレイコネクタ | ・Display Port 1.4 x4 |
サーマルソリューション | ・アクティブ |
vGPU ソフトウェア | ・NVIDIA vPC/vApp、NVIDIA RTX 仮想ワークステーション (vWS) |
NVIDIA RTX 5000 Ada
NVIDIA Ada Lovelace アーキテクチャを採用した NVIDIA RTX™ 5000 Ada GPUは、32GBのグラフィックスメモリ、100 基の第3世代 RT コア、400基の第4世代 Tensorコア、12,800基のCUDA®コアを搭載し、レンダリング・生成AI/LLM推論・グラフィックスのパフォーマンスを大幅に向上。前世代のRTX A5500と比較して最大 2 倍のパフォーマンスを実現します。
NVIDIA公式サイトの情報を見る(NVIDIA RTX 5000 Ada)NVIDIA RTX 5000 Ada
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・32GB GDDR6 ECC (エラー修正コード) 付き |
メモリインタフェース | ・256bit |
メモリ帯域幅 | ・576GB/s |
CUDAコア | ・12,800 |
第4世代 Tensor コア | ・400 |
第3世代 RT コア | ・100 |
パフォーマンス | |
単精度演算性能 | ・65.3 TFLOPS ※1 |
RT コア性能 | ・151.0 TFLOPS ※1 |
Tensor 性能 | ・1044.4 TFLOPS ※2 |
最大電力消費 | ・250W |
フォームファクター | ・4.4” H x 10.5” L デュアル スロット |
ディスプレイコネクタ | ・DisplayPort 1.4a x4 |
サーマルソリューション | ・アクティブ |
対応ソフトウェア | ・NVIDIA Omniverse ・NVIDIA vPC/vApps ・NVIDIA RTX Virtual Workstation |
※1 GPU ブーストクロックに基づくピークレート。
※2 スパース性を使用した実効 FP8 TFLOPS
NVIDIA RTX 4500 Ada
24GBグラフィックスメモリを搭載したNVIDIA RTX™ 4500 Ada GPUは、デスクトップPCに対応モデルでありながら、レイトレーシングや物理演算シミュレーションなど、現代の産業における要求の厳しいワークロードに対処できるように設計されています。前世代のRTX A4500と比較して最大 2.7 倍のパフォーマンスを実現します。
NVIDIA公式サイトの情報を見る(NVIDIA RTX 4500 Ada)NVIDIA RTX 4500 Ada
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・24GB GDDR6 ECC (エラー修正コード) 付き |
メモリインタフェース | ・192 bit |
メモリ帯域幅 | ・432GB/s |
CUDAコア | ・7,680 |
第4世代 Tensor コア | ・240 |
第3世代 RT コア | ・60 |
パフォーマンス | |
単精度演算性能 | ・39.6 TFLOPS ※1 |
RT コア性能 | ・91.6 TFLOPS ※1 |
Tensor 性能 | ・634.0 TFLOPS ※2 |
最大電力消費 | ・210W |
フォームファクター | ・4.4” H x 10.5” L, デュアルスロット |
ディスプレイコネクタ | ・DisplayPort 1.4a x4 |
サーマルソリューション | ・アクティブ |
対応ソフトウェア | ・NVIDIA Omniverse ・NVIDIA vPC/vApps ・NVIDIA RTX Virtual Workstation |
※1 GPU ブーストクロックに基づくピークレート。
※2 スパース性を使用した実効 FP8 TFLOPS
NVIDIA RTX 4000 Ada
低電力(130W)、省スペース(シングルスロット)でありながら、前世代のRTX A4000と比較して最大 1.7 倍のパフォーマンスを実現したNVIDIA RTX™ 4000 Ada GPUは、複雑な3D製品モデリングや都市設計、VR/ARレンダリングなど、プロフェッショナル用途での性能を新たな高みへと引き上げます。
NVIDIA公式サイトの情報を見る(NVIDIA RTX 4000 Ada)NVIDIA RTX 4000 Ada
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・20GB GDDR6 ECC (エラー修正コード) 付き |
メモリインタフェース | ・160 bit |
メモリ帯域幅 | ・360GB/s |
CUDAコア | ・6,144 |
第4世代 Tensor コア | ・192 |
第3世代 RT コア | ・48 |
パフォーマンス | |
単精度演算性能 | ・26.7 TFLOPS ※1 |
RT コア性能 | ・61.8 TFLOPS ※1 |
Tensor 性能 | ・327.6 TFLOPS ※2 |
最大電力消費 | ・130W |
フォームファクター | ・4.4” H x 9.5” L,シングルスロット |
ディスプレイコネクタ | ・DisplayPort 1.4a x4 |
サーマルソリューション | ・アクティブ |
対応ソフトウェア | ・NVIDIA Omniverse ・NVIDIA vPC/vApps ・NVIDIA RTX Virtual Workstation |
※1 GPU ブーストクロックに基づくピークレート。
※2 スパース性を使用した実効 FP8 TFLOPS
NVIDIA RTX 2000 Ada
16GB GDDR6 メモリを搭載したNVIDIA RTX 2000 Ada GPUは、コンパクトなワークステーションを使用する場合でも、CAD/CAEなどのグラフィックス&シミュレーション用途で高い精度を発揮します。
前世代のRTX A2000と比較して最大 1.5 倍のパフォーマンスを実現し、さまざまなシステムで制限なく日常業務を行うことができます。
NVIDIA RTX 2000 Ada
項目 | 仕様 |
GPUアーキテクチャ | ・NVIDIA Ada Lovelace アーキテクチャ |
メモリ | ・16GB GDDR6、ECC (エラー修正コード) 付き |
メモリインタフェース | ・128bit |
メモリ帯域幅 | ・224 GB/s |
CUDAコア | ・2,816 |
第4世代 Tensor コア | ・88 |
第3世代 RT コア | ・22 |
パフォーマンス | |
単精度演算性能 | ・12.0 TFLOPS ※1 |
RT コア性能 | ・27.7 TFLOPS ※1 |
Tensor 性能 | ・191.9 TFLOPS ※2 |
最大電力消費 | ・70W |
フォームファクター | ・2.7” H x 6.6” L, デュアルスロット |
ディスプレイコネクタ | ・DisplayPort 1.4a x4 |
サーマルソリューション | ・アクティブ |
※1 GPU ブーストクロックに基づくピークレート。
※2 スパース性を使用した実効 FP8 TFLOPS
NVIDIA RTX™ A6000
NVIDIA RTX™ A6000は、NVIDIA Ampere™ GPUテクノロジーを搭載。2基のGPUをNVIDIA®NVLink®ブリッジで接続することで、RTX A6000の場合最大96GBまでメモリ容量の拡張が可能。
4K映像などのリアルなレンダリング、建築・製品設計のプロトタイピングなど、高負荷なワークロードを大幅にスピードアップします。
NVIDIA RTX™ A6000
項目 | 仕様【NVIDIA RTX™ A6000】 |
CUDAコア数 | ・10,752 |
Tensorコア数 | ・336 |
メモリ | ・48GB GDDR6 |
メモリ帯域幅 | ・768GBps |
最大電力消費 | ・300W |
パフォーマンス | ・単精度 (FP32) : 38.7TFLOPS ・ディープラーニング:309.7TFLOPS |
相互接続帯域幅 | ・NVIDIA NVLink 112 GBps (双方向) PCIe Gen4 16 GBps |
サーマルソリューション | ・アクティブ |
NVIDIA RTX™ A5500
NVIDIA Ampere アーキテクチャに基づいて構築され、24 GB の GPU メモリを搭載。2基のGPUをNVIDIA®NVLink®ブリッジで接続することで、最大帯域幅112 GB (GB/s) 、合計 48GB の GDDR6 メモリを利用できるようになり、メモリ負荷の高いワークロードにも対応します。
リアルタイムレイトレーシング、ノイズ除去、DLSS のパワーを活用し、見る者を圧倒するフォトリアルなレンダリングに適したモデルです。
NVIDIA RTX™ A5500
項目 | 仕様 |
CUDAコア数 | ・10,240 |
Tensorコア数 | ・320 |
RTコア数 | ・80 |
メモリ | ・24GB GDDR6 |
メモリ帯域幅 | ・768GBps |
最大電力消費 | ・230W |
パフォーマンス | ・単精度:34.1TFLOPS ・RTコア:66.6TFLOPS ・Tensor:272.8TFLOPS |
フォームファクター | ・4.4” H x 10.5” L, デュアルスロット, フルハイト |
NVIDIA RTX™ A4500
NVIDIA RTX™ A4500は、NVIDIA Ampere™ GPUベースの CUDA コアを採用し、多くのメモリを必要とするグラフィックスやコンピューティングのワークロードをさらに高速化します。
第3世代NVIDIA®NVLink™に対応し、複数のGPUを接続することで開発基盤のスケールアップが可能。
VR / ARなどのクリエイティブレンダリング、建築・製品設計のプロトタイピングなど、高負荷なワークロードを大幅にスピードアップします。
NVIDIA RTX™ A4500
項目 | 仕様 |
CUDAコア数 | ・7,168 |
Tensorコア数 | ・224 |
RTコア数 | ・56 |
メモリ | ・20GB GDDR6 |
メモリ帯域幅 | ・640GBps |
最大電力消費 | ・200W |
パフォーマンス | ・単精度:23.7TFLOPS ・RTコア:46.2TFLOPS ・Tensor:189.2TFLOPS |
フォームファクター | ・4.4” H x 10.5” L, デュアルスロット, フルハイト |
NVIDIA RTX™ A2000
NVIDIA RTX™ A2000は、NVIDIA Ampere™ GPUベースの CUDA コアを採用しグラフィックスとコンピューティングのワークフローを高速化。前世代と比較して、単精度浮動小数点 (FP32) のパフォーマンスを最大 2 倍にします。
電力効率に優れた薄型のデュアルスロットPCIeフォームファクターを備えており、さまざまなワークステーションに搭載可能。
VR / ARなどのクリエイティブレンダリング、建築・製品設計のプロトタイピングなど、高負荷なワークロードを大幅にスピードアップします。
NVIDIA RTX™ A2000
項目 | 仕様 |
CUDAコア数 | ・3,328 |
RTコア数 | ・26 |
Tensorコア数; | ・104 |
メモリ | ・12GB GDDR6 |
メモリ帯域幅 | ・288GBps |
パフォーマンス | |
単精度演算性能 | ・8.0TFLOPS |
RTコア性能 | ・15.6TFLOPS |
Tensor性能 | ・63.9TFLOPS |
最大電力消費 | ・70W |
フォームアクター | ・2.7”H×6.6”L,デュアルスロット |
サーマルソリューション | ・アクティブ |
※1 GPUブーストクロックに基づくピークレート
※2 スパース性を使用