技術コラム技術コラム

ベンチマーク

RTX 2080tiの性能ベンチマーク

2019.05.16

サービスクリエーション本部 GPUアーキテクト 森重 ゆう

サービスクリエーション本部
GPUアーキテクト
森重 ゆう

「RTX 2080ti」の性能を検証

今回はNVIDIAの最新GPUアーキテクチャ「Turing」を実装した「RTX 2080ti」の性能を検証、評価してみたいと思います。 コンシューマ向けGPUですが機械学習の観点から、前々世代の「Pascal」アーキテクチャを実装した「GTX 1080ti」、「Titan Xp」との比較を行います。
目まぐるしくアーキテクチャが更新されて行く中で、どの程度差が開いたのか検証したいと思います。

それでは、実際に測定してみましょう。

仕様比較(PCIe)

  コア数 Mhz L1cache L2cache FP32
(TFLOPS)
FP64
(TFLOPS)
メモリ帯域
(GB / s)
RTX2080ti 4352 1350 64KB 5.5MB 13.45 420.2 616.0
Titan Xp 3840 1405 48KB 3MB 12.15 379.7 547.7
GTX1080ti 3584 1405 48KB 2.75MB 11.34 354.4 484.4

ベンチマークソフト

tensorflowのベンチを使用します。

*masterbranchは原則最新版TensorFlowでしか動作しないため、使用TensorFlowに合わせたbranchをcloneする必要があります。*
各モデルごとにトレーニングの所要時間を比較します。

ベンチマークパラメーター

	ResNet-50
	ResNet-152
	  batch_size=32,64
	  FP16,FP32
	  Optimizer sgd
	  variable_update: parameter_server

	InceptionV3
	  batch_size=32,64
	  FP16,FP32
	  Optimizer sgd
	  variable_update: parameter_server

	VGG16
	  batch_size=32,64
	  FP16,FP32
	  Optimizer sgd
	  variable_update: replicated

	AlexNet
	  batch_size=32,64
	  FP16,FP32
	  Optimizer sgd
	  variable_update: replicated

ベンチマーク機器

ハードウェア

CPU

Intel(R) Xeon(R) CPU E5-2687W v3 @ 3.10GHz 2個

メモリ

256GB

ディスク

PLEXTOR PX-256M8PeG (nvme)

GPU

NVIDIA GEFORCE RTX 2080 Ti 11GB 1枚
NVIDIA GeForce GTX Titan Xp 12GB 1枚
NVIDIA GeForce GTX 1080 Ti 11GB 1枚

アプリケーション環境

OS:Ubuntu18.04
Driver: 418.40
TensorFlow: 1.13
CUDA: 10.0
cuDNN: 7.5
python:3.6.7

ベンチマーク実行

ベンチマークコマンドライン:

$ python tf_cnn_benchmarks.py --device=gpu --num_gpus=1 --batch_size=32 --model=resnet50 --variable_update=parameter_server

ベンチマーク結果

RTX2080ti,TitanXp,GTX1080tiの比較

一つ世代を飛ばしているだけあって、3機種の比較グラフにも表れているとおりRTX2080tiが高い数値を出しています。
resnet152ベンチマークですが、バッチサイズ64だと11GBではメモリが足らずRTX2080tiとGTX1080tiでは実行できませんでした。

GTX1080ti Titan Xp RTX2080ti
resnet50(32) 204.07 227.73 279.91
resnet50(64) 211.71 238.71 296.4
resnet152(32) 87.11 95.54 114.69
resnet152(64) - 101.18 -
inception3(32) 133.21 145.68 185.6
inception3(64) 137.5 151.78 197.52
alexnet(32) 1468.43 1668.03 2005.16
alexnet(64) 1950.62 2161.96 2685.52
vgg16(32) 130.39 146.32 168.03
vgg16(64) 136.35 152.71 174.34
trivial(32) 10206.5 11757.38 10183.22
trivial(64) 18746.76 19581.39 20204.42

V100との比較

前回 のベンチーマークデータからソフトウェアバージョン等は違いますが、データセンターGPU「V100」と比較してみました。
グラフのとおり全体的には「V100」のほうが上ですが、抜いている部分もあり、僅差であります。ここがアーキテクチャとCUDAの差でしょうか。

RTX 2080ti V100 16GB
resnet50(32) 279.91 300.77
resnet50(64) 296.4 342.51
resnet152(32) 114.69 120.33
resnet152(64) - 138.14
inception3(32) 185.6 198.42
inception3(64) 197.52 223.87
alexnet(32) 2005.16 2456.95
alexnet(64) 2685.52 3206.91
vgg16(32) 168.03 210.77
vgg16(64) 174.34 213.72
trivial(32) 10183.22 9786.77
trivial(64) 20204.42 18535.43

まとめ

アーキテクチャの違いでかなり差がでることがわかりました。
アーキテクチャやCUDAを最新のものにすることでより良いパフォーマンスが出せそうです。

今回はここまでとします。