GPUクラスタ

サーバー冷却方式

生成AIの普及により、GPU技術の進化はこれまで以上に加速しています。その一方で、GPUの高性能化に伴い、発熱や消費電力の増大、安定稼働の確保といった運用面での課題も顕在化しています。
GPUリソースを最大限に活用するためには、これらの変化に柔軟に対応できるインフラ設計と運用体制が求められています。

GPUサーバーの冷却方式

ご予算やラックスペース、計算負荷、運用体制などの要件に合わせて、空冷・水冷それぞれのメリット・デメリットを踏まえた適切な冷却方式を提案します。

空冷 水冷
概要 サーバー内部のファンから外気を吸引することでGPUの熱を放散させる方式 サーバー内部に直接冷却液(主に冷水)を循環させ、ラジエーターで放熱させる方式
メリット 導入コストが低い
ファン・ヒートシンクのみで構成でき、部品費・設置工事が比較的安価なケースが多い
高い熱除去性能
水の比熱・熱伝導率は空気の約4倍以上。消費電力の高いハイエンドGPUでも効率的に冷却可能
構成がシンプル
配管や冷却液の取り扱いが不要なため、設計・施工が容易
高密度・スケーラビリティ
ファンやラック内サーキュレーターが不要なため、同一サーバー筐体内に多数の GPU を搭載でき、ラック内密度効率を高められる
保守交換が容易
サーバー機種によっては活性交換可能なファンもあり、交換作業が簡単でダウンタイムが短い
低騒音・低振動
物理ファンの搭載が不要なため、サーバールームの騒音や振動を抑えられる
デメリット 温度管理が必要
ハイスペックGPUは発熱量が大きく、適切な温度管理を行わないと性能低下(サーマルスロットリング)のリスクがある
設置スペースの確保
水冷用設備の整った専用データセンター等への設置が必須。既存空冷ラックへの追加は制限されることがある
熱分散が均一でない
設置環境によっては局所的にホットスポットができやすく、冷却バランスの調整が難しい。
設計・保守点検が複雑
水冷システムの全体設計、導入後のメンテナンスなどに専門知識が要求される
搭載可能GPU型番・台数制限
GPU型番/搭載枚数によっては、空冷に対応しておらず水冷での運用が必須なものがあり、サーバー設計が制約される
投資対効果のバランス
水冷対応データセンター、CDU、冷却液等の手配が必要で、小規模導入の場合は比較的初期コストが高くなる傾向があるが、高密度大規模クラスタの場合は総所有コストが改善することも

水冷対応GPUサーバー

下記は一例です。
詳しくは製品ラインナップをご覧ください。

PowerEdge XE9685L

  • AMD EPYC™ Turin
  • 4U × 8GPU
  • NVLink (SXM6)
  • 水冷
PowerEdge XE9685L
Dell公式サイトの情報を見る(PowerEdge XE9685L)

HPE ProLiant Compute XD685

  • GPU:NVIDIA HGX H200 141GB
       NVIDIA HGX B200 192GB(水冷のみ)
       AMD Instinct MI355X(水冷のみ)
  • CPU:AMD EPYC™第5世代 プロセッサー
  • 5U×8GPU(水冷)
  • 6U×8GPU(空冷)
HPE ProLiant Compute XD685
HPE公式サイトの情報を見る(HPE ProLiant Compute XD685)

PowerEdge XE9640

  • Intel Sapphire Rapids
  • 2U×4GPU
  • PCIe.5.0
  • NVLink(SXM5)
  • 内部水冷
PowerEdge XE9640
Dell公式サイトの情報を見る(PowerEdge XE9640)

NTTPCはパートナーとの協業により、水冷ソリューションの設計~構築~導入~運用までをワンストップでサポートします。