トレンドコラム

基礎知識

AMD EPYC™ CPUの性能比較:AI向けGPUサーバーで最大性能を引き出すCPUの選び方

2026.04.24

GPUエンジニア

GPUエンジニア

AMD EPYC™ CPUの性能比較:AI向けGPUサーバーで最大性能を引き出すCPUの選び方

AI向けGPUサーバーでは、GPUが主に大規模な行列計算や推論処理を担う一方で、データローディング、分散学習の制御、推論APIの処理などはホストCPU(GPUを制御する側のCPU)が担当します。そのため、CPU側のメモリ帯域、PCIeレーン数(GPUやストレージとの接続経路の本数)、コア数が不足すると、高価なGPUであっても待ち状態が発生し、システム全体の性能が頭打ちになる可能性があります。GPUサーバーの性能は、GPU単体ではなくCPUを含めたシステム全体の設計によって大きく左右されます。

こうした背景から、GPUサーバーのCPUとして採用が増えているのが、Advanced Micro Devices(AMD) のAMD EPYCプロセッサです。AMD EPYCは多コア構成と高いメモリ帯域、豊富なPCIeレーンを1ソケットで提供できることから、GPUを多数接続する構成でもボトルネックを抑えやすい特徴があります。一方で、AMD EPYCは9005シリーズ(Turin)まで複数世代が併存しており、世代やSKU(製品型番)の選択肢も多いため、「どの世代のどのSKUを選ぶべきか」を判断するのは容易ではありません。

本記事では、AMD EPYC各世代の性能をコア数・メモリ帯域・PCIeレーン・TDP(Thermal Design Power:熱設計電力)の4つの指標で比較し、GPU構成別(1〜2枚、4〜8枚のトレーニング構成、高密度推論、エッジAIなど)の具体的な選定目安を整理します。想定するワークロードに対して、どの指標がボトルネックになりやすいのかを見極めながら、GPUの性能を最大限に引き出すCPU選定の考え方を解説します。

1. AI向けGPUサーバーにおけるAMD EPYCの役割

AMD EPYCは、AMDが開発するデータセンター向けサーバーCPUのシリーズ で、多コアアーキテクチャと高いメモリ帯域、豊富なPCIeレーンを特徴としています。AI向けGPUサーバーでは、CPUは単なる補助的な役割にとどまりません。データの読み込みや前処理、分散学習の制御、GPUとのデータ転送などを担うホストとして機能し、その設計がGPUの実効性能に大きく影響します。適切なCPUを選定することで、GPUの待ち時間を抑え、システム全体の計算効率を高めることができます。


AMD EPYCのイメージ(引用:AMD

GPUサーバーにおけるホストCPUの主な役割は、データローディング、分散学習の制御、推論APIのワーカー処理、ストレージやNICのI/O管理など多岐にわたります。
具体的には、次のような処理をCPUが担当します。

  • 学習ジョブの前処理・後処理(データローディング、シャーディング、集計など)
  • 分散学習時のプロセス管理(PyTorch DDP / DeepSpeed などのランチャーやコントロールプレーン)
  • 推論APIサーバーのワーカー処理(gRPC/HTTPサーバー、シリアライザ、RAGのベクター検索など)
  • ノード間通信を担うNIC(ネットワークカード)や、ローカルストレージとしてのNVMe(高速SSD向けの接続規格)を接続・制御するI/O基盤

これらの処理において、CPU側のメモリ帯域・PCIeレーン数・コア数が不足すると、GPUの利用率は十分に上がらなくなる場合があります。GPUの性能だけを基準にシステム構成を決めると、CPUがボトルネックとなり、GPUの性能を十分に引き出せないケースも少なくありません。このような背景から、AMD EPYCは多コア構成と高いメモリ帯域、豊富なPCIeレーンを1ソケットで提供できるため、GPUを多数接続する構成でもボトルネックを抑えやすく、GPUサーバーの基盤CPUとして多くのシステムで採用されています。

CPUとGPUの役割や違いについては、こちらの記事で整理しています。

【関連記事】
CPUとGPUを徹底比較:導入で差がつく基礎知識と選択の仕方

2. AMD EPYC世代別の特徴

AMD EPYCは現在、EPYC 9005シリーズ(Turin)、PYC 9004シリーズ(Genoa/Bergamo)、EPYC 8004シリーズ(Siena)といった複数の世代が存在しており、GPUサーバー構成を検討する際には、それぞれの世代の特徴を理解しておく必要があります。ここでは、各世代の技術的な特徴を整理します。

2-1. AMD EPYC 9005シリーズ(Turin)──最大192コアの最新世代


AMD EPYC 9005シリーズのイメージ(引用:AMD

AMD EPYC 9005シリーズ(Turin)は、2024〜2025年にかけて登場した最新世代で、AIや高密度コンピューティングを意識した設計が特徴です。最大192コア(Zen 5 / Zen 5c)、12チャネルDDR5-6400(約614GB/s)、PCIe 5.0で128レーンを提供し、2ソケット構成では最大160レーンのI/Oを利用できます。前世代のAMD EPYC 9004シリーズと同じSP5ソケットを採用しており、プラットフォームの継承性が高い点も重要なポイントです。

また、Genoa / Bergamoと比較すると、1ノードあたりのコア数がさらに増加し、メモリクロックや帯域も向上しています。これにより、GPU・高速NIC・NVMeストレージを組み合わせた高密度構成を1台のサーバーに集約しやすくなりました。SP5ソケットを継続しているため、サーバーベンダー側の対応があれば、Genoa世代からTurin世代への移行パスを取りやすい点もメリットです。

2-2. AMD EPYC 9004シリーズ(Genoa/Bergamo)──12チャネルDDR5・PCIe 5.0の主力世代


第 4 世代 AMD EPYC プロセッサのイメーシ(引用:AMD

AMD EPYC 9004シリーズは、DDR5 12チャネル(約461GB/s)、PCIe 5.0で128レーンという共通基盤を持ち、GPUサーバー用途で大きな転換点となった世代です。Zen 4系コアによる高いIPCとAVX-512サポートを特徴としています。
この世代には、用途の異なる3つのラインが存在します。

  • Genoa
    最大96コア(Zen 4)。代表SKUはAMD EPYC 9654(96コア・TDP 360W)。
    汎用ワークロード向けで、多くのサーバーベンダーのリファレンス構成でも採用されています。
  • Bergamo
    最大128コア(Zen 4c)。代表SKUはAMD EPYC 9754(128コア・TDP 360W)。
    Zen 4cによる高密度設計を採用しており、クラウドネイティブや大規模スケールアウト環境に適しています。
  • Genoa-X
    3D V-CacheでL3を最大1.1GBに増量。
    大容量キャッシュを活用するHPCやシミュレーションなどのワークロードに適しています。

PCIe 5.0への進化により、GPUや高速ストレージを多数接続する構成でもCPU側のI/O帯域が制約になりにくく、多GPUサーバー構成に適した設計となっています。

2-3. AMD EPYC 8004シリーズ(Siena)──省電力1ソケット専用ライン

AMD EPYC 8004シリーズ(Siena)は、省電力な汎用サーバーやエッジ、ストレージ用途を想定したラインです。上記に記載したAMD EPYC 9004シリーズ(Genoa / Bergamo)と同じZen 4世代に属しますが、より低消費電力の環境を想定した派生ラインとして位置づけられています。SP6ソケット(1ソケット専用)を採用し、6チャネルDDR5-4800(約230GB/s)、PCIe 5.0で96レーン、最大64コア(Zen 4c)を提供します。代表的なSKUとしては、AMD EPYC 8534P(64コア・TDP 200W)が挙げられます。

既定TDPは90〜200W(cTDP 70〜255W)と幅広く、温度条件が厳しい環境や電力制約のあるラックでも導入しやすい設計となっています。6チャネルDDR5と96レーンのPCIe 5.0を備えることで、GPUを1〜2枚程度搭載する構成を中心としたエッジAIや省電力サーバー用途に適しています。

3. AMD EPYC世代別の性能比較

ここでは、AMD EPYC各世代の主要スペックを一覧で比較します。
ここで重要なのは、一般的なCPU性能の優劣ではなく、AI向けGPUサーバーのホストCPUとして、どの要素に着目すべきかという視点で読み解くことです。
コア数、メモリ帯域、PCIeレーン数、TDPといった指標は、GPUサーバーの構成や想定するワークロードを踏まえて、総合的に確認する必要があります。
詳細な考え方は後段で整理しますが、まずは各世代の特徴を俯瞰する目的で、次の比較をご覧ください。
ここでいう、「代表SKU」は各世代の代表的な製品型番、「理論帯域」はメモリとCPU間の理論上の最大転送速度を示しています。

世代 代表SKU 最大コア数 Zenアーキテクチャ メモリ 理論帯域(1ソケット) PCIe 最大レーン数 TDP範囲 参考
Turin(9005) EPYC 9965 192コア Zen 5 / Zen 5c 12ch DDR5-6400 5.0 128(2P時160) 最大500W データシート
Genoa(9004) EPYC 9654 96コア Zen 4 12ch DDR5-4800 約460.8GB/s 5.0 128 最大360W データシート
Bergamo(9004) EPYC 9754 128コア Zen 4c 12ch DDR5-4800 約460.8GB/s 5.0 128 最大360W データシート
Siena(8004) EPYC 8534P 64コア Zen 4c 6ch DDR5-4800 約230.4GB/s 5.0 96 90〜200W(cTDP 70〜255W) データシート

※本表はAMD公式データシートから抽出した2026年3月時点の代表値です。理論帯域はチャネル数×モジュールあたり帯域の単純計算値で、実効帯域は構成やワークロードにより変動します。Turin(9005)の理論帯域はDDR5-6400の公式値がデータシート上で構成依存のため、本表では省略しています。

以降のセクションでは、この表の各指標について詳しくみていきます。

4. GPUサーバー導入にあたってみるべき4つの性能指標


AIにより作成(プロンプト:中央にサーバー用CPUチップ、十字の配置で4方向に光る球体)

GPUサーバーのCPU選定において、コア数やクロック周波数といった基本スペックだけを見ても、GPU構成に適したCPUかどうかは判断できません。GPUとCPU間のデータ転送、複数GPUへの接続、消費電力とのバランスなど、GPUサーバー特有の要件を満たす指標を確認する必要があります。
ここでは、AMD EPYC各世代を比較する際に重要となる4つの性能指標を整理します。

4-1. コア数・アーキテクチャ

1つめの指標はコア数とアーキテクチャです。GPUサーバーにおけるCPUのコア数は、データ前処理の並列度、分散学習の制御スレッド数、推論APIの同時接続数などに直結します。

各世代のコア数とアーキテクチャは次のとおりです。「最大コア数」は1ソケットあたりの最大値、「アーキテクチャ」はCPUコアの設計世代を示しています。

世代 最大コア数 アーキテクチャ 特徴
Turin(9005) 192コア Zen 5/Zen 5c 最新世代・最大コア密度
Genoa(9004) 96コア Zen 4 汎用ワークロード向け
Bergamo(9004) 128コア Zen 4c 高密度・クラウドネイティブ向け
Siena(8004) 64コア Zen 4c 省電力・1ソケット向け

表の「アーキテクチャ」列が示すZen世代(Zen 3→Zen 4→Zen 5)が進むほど、IPC(1クロックあたりの命令実行数)が向上し、同じコア数・同じクロック周波数でもシングルスレッド性能が上がります。

また「c」付きコア(Zen 4c/Zen 5c)は、コンパクトな設計で高密度化を優先したアーキテクチャです。表のようにコア数を大幅に増やせるため、推論ノードやマルチテナントRAGのように「多くの並列ジョブを同時にさばきたい」用途では、96コアや128コア、192コアといった高コア密度のEPYCが有力な選択肢になります。

4-2. メモリチャネル数・メモリ帯域

2つめの指標はメモリチャネル数とメモリ帯域です。GPUとCPU間でのデータ転送、学習時の勾配統合、推論時のモデルデータ読み込みなど、CPU側のメモリ帯域が不足すると、GPUが待機状態になります。

各世代のメモリ構成は次のとおりです。「メモリチャネル」は1ソケットあたりのチャネル数、「理論帯域」はメモリとCPU間の理論上の最大転送速度を示しています。

世代 メモリチャネル メモリ規格 理論帯域(1ソケット)
Turin(9005) 12チャネル DDR5-6400
Genoa/Bergamo(9004) 12チャネル DDR5-4800 約461GB/s
Siena(8004) 6チャネル DDR5-4800 約230GB/s

表のとおり、メモリ帯域は世代により向上してきています。AI学習では、データローダーや前処理がCPU側で実行されるほか、勾配統合やチェックポイントI/Oなどにより、メモリとGPU間で大量のデータ転送が発生します。そのため、CPU側のメモリ帯域が不足している場合、GPUがデータ待ち状態となり、利用率が低下する傾向があります。

また、メモリ帯域に加えて、AMD EPYCではNPS(NUMA Nodes Per Socket)の設定によってメモリアクセスのレイテンシやスループットを調整できます。特にGPUを4〜8枚搭載する構成では、このNUMA設定を適切に調整することで、実運用時の性能に差が生じる場合があります。

4-3. PCIeレーン数・I/O構成

3つめの指標はPCIeレーン数と世代です。複数のGPU、高速NIC、NVMe SSDを同時に接続する構成では、PCIeレーン数が不足すると、一部のデバイスが低速接続を強いられ、システム全体の性能が低下します。

各世代のPCIe構成は次のとおりです。「PCIe世代」は転送速度の規格(5.0は4.0の2倍)、「レーン数」はデバイス接続に使える経路の本数を示しています。

世代 PCIe世代 レーン数(1ソケット) レーン数(2ソケット)
Turin(9005) PCIe 5.0 128レーン 最大160レーン
Genoa/Bergamo(9004) PCIe 5.0 128レーン 128レーン
Siena(8004) PCIe 5.0 96レーン 1ソケット専用

表のように、今回紹介した型番はPCIe 5.0となっており、レーン数は型番により128レーン96レーンと差分があります。GPU 8枚+高速NIC+NVMe多数の構成では、x16接続GPUの本数、400GbE/800GbE級NICの本数、NVMe SSDやストレージHBAに割けるレーン数がレーン総量で制限されます。

4-4. TDP・電力効率

4つめの指標はTDP(熱設計電力:Thermal Design Power)と電力効率です。GPUサーバーでは、GPU側だけで数kWの消費電力になることも珍しくありません。ラックあたりの電力枠と冷却能力には限界があるため、CPU側のTDPも設計時の重要な考慮事項になります。最新のハイエンドGPUでは700W級が一般化しつつあり、構成や冷却条件によっては1,000W級の設定も見られます。CPU側もハイエンドSKUでは360〜500Wクラスなので、ラックあたりの電力枠と冷却能力をどう使うかが設計上の大きなテーマになります。

各世代のTDP目安は次のとおりです。

世代 ハイエンドSKUのTDP 特徴
Turin(9005) 最大500W 192コアでも性能/Wを改善
Genoa/Bergamo(9004) 最大360W cTDP 320〜400W
Siena(8004) 最大200W 省電力設計

表のように、世代が新しくなるにつれてハイエンドSKUのTDPは増加する傾向があります。これは単純に消費電力が増えているというよりも、コア数の増加やメモリ帯域の拡張などにより、1ノードあたりの計算密度が高まっていることを反映しています。

5. GPUの構成別に見るEPYCの選定目安


AIにより作成(プロンプト:小型から大型まで4つの異なる規模のサーバーラック)

ここまで各世代の特徴と4つの性能指標を整理してきました。実際にAMD EPYCの選定する際には、「自分のGPU構成にはどの世代・SKUが適しているか」を判断する必要があります。

ここでは、典型的なGPU構成パターンごとに、優先すべき指標と推奨EPYC世代を次の表で整理します。

GPUの構成 主な用途 優先すべき指標 推奨EPYC世代 代表SKU例
1〜2枚GPU 開発・PoC・小規模学習 コスト・将来拡張性 Siena / Genoa(中位SKU) 8534P / 9354
4〜8枚GPU(学習) LLM学習・ファインチューニング メモリ帯域・PCIeレーン数 Genoa / Bergamo / Turin 9654 / 9754 / 9965
4〜8枚GPU(推論) 高密度推論・マルチテナントRAG コア数・キャッシュ構成 Bergamo / Turin / Genoa-X 9754 / 9965 / 9684X
0〜2枚GPU(エッジ) エッジAI・小規模RAG TDP・設置制約 Siena 8534P / 8コア〜48コア

以降のセクションで、各パターンの具体的な判断ポイントを整理します。

5-1. 1〜2枚GPU(開発・PoC・小規模学習)の目安

エンジニア向けの開発環境や、小〜中規模のPoC(Proof of Concept:概念実証)でよく見られるのが、GPUを1〜2枚搭載する構成です。このような構成では、GPU側の帯域要求はそれほど高くならないケースが多く、CPU側ではコードのコンパイル、データ前処理、ログ解析などの処理も同時に行うことになります。そのため、十分なCPUリソースを確保しつつ、全体としてコストバランスを重視した構成が選ばれることが一般的です。

選定パターンの目安は次のとおりです。

  • 最新プラットフォーム+将来拡張余地
    Siena(8004)32〜64コアクラスが候補になります。DDR5+PCIe 5.0に対応しつつ、消費電力を抑えた1ソケット構成で拠点設置もしやすい選択肢です。
  • いずれ4枚GPUに拡張したい場合
    最初からGenoa/Turinプラットフォーム(SP5)を採用し、EPYC 9354/9454クラスの中位SKUから始めて、後からCPUだけ換装する余地を持たせる選択肢もあります。

この構成では、メモリチャネル数やPCIeレーン数よりも「初期コストと将来の拡張性のバランス」を重視した選定が重要になります。

5-2. 4〜8枚GPUトレーニングノードの目安

本格的なLLMの学習・ファインチューニングノードでは、4〜8枚のハイエンドGPUが前提です。優先すべきCPUの要件は、12チャネルDDR5+128レーン以上のPCIeを持つ世代(9004/9005)を採用すること、データローディングやプロセス管理を並列処理できる十分なコア数、そして高速NICやNVMeを載せられるレーンの余裕です。

選定パターンの目安は次のとおりです。

  • 標準的な4〜8枚のGPUトレーニングノード
    1ソケット構成でEPYC 9654(96コア)クラス、2ソケット構成でEPYC 9354/9454×2(32〜48コア級×2)などが候補になります。コア数とメモリ帯域のバランスがよく、多くのサーバーベンダーのリファレンス構成に近い組み合わせです。
  • CPU側の前処理・RAGも重いトレーニングノード
    AMD EPYC 9754(Bergamo・128コア)が候補になります。GPUジョブに加え、大量のデータローディングやRAGを同一ノードでこなす構成に適しています。
  • 将来を見据えてコア数・帯域に余裕を持たせたい場合
    Turin世代の160〜192コアのSKUが候補になります。GPU世代更新時にもCPU側を据え置く設計を取りやすく、ラック全体の電力枠に余裕があり、GPUもCPUも密度を上げる方針のデータセンター向けです。

この構成では、「GPUを待つCPU側の余力」が生じることよりも、「CPUがボトルネックとなってGPUの利用率が頭打ちになること」を避けることが最優先になります。

5-3. 高密度推論・マルチテナントRAGノードの目安

マルチテナントのチャットAIやRAG APIを提供するノードでは、GPUを4〜8枚程度搭載し、1ノードあたり多数の同時接続を処理する構成になることが一般的です。このような環境では、RAGの前段で検索処理やデータ整形などの処理がCPU側に集中しやすく、CPUのコア数やキャッシュ構成がボトルネックになるケースがあります。

選定パターンの目安は次のとおりです。

  • 標準的な高密度推論ノード
    Bergamo系(EPYC 9754など)が候補になります。128コアで多くのワーカーをCPU側に収容しやすく、GPU 4〜8枚と組み合わせた構成で多数の同時接続を処理できます。
  • さらに多くのスレッドを1ソケットに集約したい場合
    Turin Zen 5c系192コアのSKUが候補になります。ノード数を減らす方向性を取りやすく、運用コストの削減につながります。
  • RAG前段の重いクエリ処理がある場合
    Genoa-X(3D V-Cache)が選択肢に入ります。L3キャッシュ容量が大きいため、メモリアクセスがボトルネックな処理の効率が上がります。

マルチテナントのSaaSでは、多数の同時接続を処理するために十分なCPUコア数が必要で、GPUより先にCPUがスケール限界に達するケースも多く、「推論ノード=高コアEPYC+中〜高性能GPU」の組み合わせが現実的な選択肢になりつつあります。

5-4. エッジAI・小規模RAGノードの目安

店舗・工場・拠点などに分散配置するエッジAIノードでは、ラック電力や空調に大きな制約があるケースが多く見られます。そのため、GPUは0〜2枚、多くても中〜小型GPUを中心とした構成となり、ストレージやNICとの電力・I/Oバランスを考慮した設計が重要になります。このような用途では、省電力設計のSiena(EPYC 8004)等が選択肢になります。

選定パターンの目安は次のとおりです。

  • 標準的なエッジAI・小規模RAGノード
    AMD EPYC 8534P(Siena・64コア)が候補になります。6チャネルDDR5+96レーンPCIe 5.0で、GPU 1〜2枚+100GbE級NIC+NVMe数本を載せやすく、TDP 200W前後に収まる構成が可能になります。
  • さらに省電力を優先する場合
    Sienaの32〜48コアクラスが候補になります。エッジ用の環境条件(高温・狭いスペース)を想定した設計がされているため、電力・設置制約の強い環境でも選択肢となります。

本番のトレーニングクラスタにはGenoa / Turinを、エッジ推論ノードにはSienaを採用するというように、用途ごとに役割を分担しながらプラットフォームを統一しておくという選択肢もあります。
ただし、ここで紹介した選定目安はあくまで典型的なパターンであり、実際のワークロードや運用要件によって最適な構成は変わります。詳細な構成を検討する際には、GPU構成、データ処理量、電力・冷却条件などの具体的な要件を踏まえたうえでCPUを選定することが重要です。

6. まとめ

本記事では、AMD EPYC各世代の特徴をコア数・メモリ帯域・PCIeレーン・TDPという4つの指標で比較し、GPU構成ごとのCPU選定の目安を整理しました。AI向けGPUサーバーにおけるCPU選定では、単に最新世代をフルスペックで導入することが重要なのではなく、想定するワークロードとGPU構成に対して、どの要素がボトルネックになり得るかを見極めることが重要になります。具体的には、まずメモリ帯域とPCIeレーン数を基準にCPU世代を絞り込み、そのうえでコア数やTDPのバランスを見ながらSKUを選定するという考え方が基本になります。また、9004 / 9005世代で共通のSP5ソケットを採用している点を踏まえれば、将来の拡張や世代更新を見据えたプラットフォーム設計もしやすくなります。

GPUサーバーでは、CPUは単なる補助的な存在ではなく、GPUの利用率やシステム全体の効率を左右する重要な要素です。GPU構成・電力条件・ワークロード特性を踏まえたCPU選定を行うことで、GPUの性能を最大限に引き出すインフラ設計が可能となるでしょう。NTTPCでは、AMD EPYCプロセッサーを搭載したGPUサーバーをはじめ、AI・HPCワークロード向けのインフラ環境を提供しています。GPUサーバーの構成やCPUの選定に関するご相談も承っていますのでお気軽にご相談ください。
▶︎ お問い合わせはこちら

※AMD、AMD Arrow ロゴ、EPYC およびそれらの組み合わせは、Advanced Micro Devices, Inc. の商標です。