対談企画
Preferred Networks
×
NTTコミュニケーションズ
×
NTTPCコミュニケーションズ
1,024基のGPUが協調して動く
マルチノード型GPUプラットフォームで、
深層学習/HPC分野の研究開発を加速
人工知能研究の国際競争が激しさを増している。深層学習 ( ディープラーニング ) およびエッジヘビーコンピューティング分野の最先端を行くPreferred Networks ( 以下、PFN ) は、競争力を高めるためにクラウド上で1,024基のGPUが協調して動くマルチノード型GPUプラットフォームを活用した深層学習/HPC用研究開発基盤の構築に取り組んでいる。その構成は、いわばプライベート・スパコンだ。いかにその性能を最大限に引き出し、安定運用を実現していくか。クラウド基盤を提供するNTTコミュニケーションズ ( 以下、NTT Com ) と、GPUサーバーの設計/構築技術に強みをもつNTTPCコミュニケーションズ ( 以下、NTTPC ) が一体となり、深層学習/HPC分野の未来を支えていく。
奥田 遼介 氏
奥田 遼介 氏
株式会社Preferred Networks
最高技術責任者
西岡 博之 氏
西岡 博之 氏
NTTコミュニケーションズ株式会社
クラウドサービス部
販売推進部門長
天野 祥行 氏
天野 祥行 氏
株式会社NTTPCコミュニケーションズ
取締役 CTO
テクノロジー&オペレーション開発本部長
最先端の深層学習研究には、
最先端の「プライベート・スパコン」を
奥田 P F N は人工知能技術における深層学習に強みがあります。最新の研究成果を、自社開発した深層学習フレームワークの「Chainer」※1などを使って世の中で使われる形で実装し、社会に貢献していくことに力点を置いている点が当社の特長です。現在、自動運転などの交通システム、産業用ロボットなどの製造業、がん診断などのライフサイエンスの3つの重点領域において、各分野のキーカンパニーとタッグを組んで研究開発を進めています。
深層学習分野の競争が激しさを増す中、最先端の研究を行うためには最先端の研究開発環境が必要です。その競争下で世界と戦うためにはスピードが求められます。研究者が試行錯誤する中で、結果が出るのが1日後と1時間後とでは大きな差が生まれ、研究成果の質と量に直結します。実際、豊富なGPU資源を社内で自由に利用できることが、優秀な研究者を採用するうえでの大きなアピールポイントになっている実感もあります。これまでは社内の研究者が各自でセットアップした環境を利用していましたが、研究に集中するためには、自社で大規模研究開発基盤を構築運用するよりも専門の会社にお願いする方が適していると今回判断しました。1,024基のGPUが協調して動くマルチノード型GPUプラットフォームを活用した深層学習/HPC用研究開発基盤は、いわば『プライベート・スパコン』です。人員、電源設備、冷却設備などを考えると自社運用は現実的ではありません。
西岡 こうした1,024基のGPUを積んだサーバー構成で、安定運用できるプラットフォームを提供していくことがNTT Comの役割です。Enterprise Cloudというブランドで、企業向けのクラウドサービスを提供していますが、今回は最先端を行くインフラが必要でした。NTT Comグループは世界20カ国・地域でデータセンター事業を展開し、東京ドーム8個分以上のサーバースペースをご提供する、世界有数のデータセンター事業者です。今回、最先端のマルチノード型GPUプラットフォームを安定運用していくため、私どもが提供するデータセンターを活用し、GPUコンピューティングに造詣の深いNTTPCと一体となって取り組み、2017年9月から実際にご提供させていただいております。
天野 NTTPCには、GPUコンピューティングの設計・構築、サポートの豊富な実績があります。そして今回、GPUサーバーの開発・提供を担ったSupermicroとは長年、パートナーシップを築いてきました。Supermicroのサーバー技術には定評があり、メジャーなサーバーベンダーでは対応が困難な事業用途向けサーバーを、お客さま要件に合わせてNT TPCからカスタマイズ要求するケースもよくあります。また、SupermicroはNVIDIAのリファレンス・ハードウエアに認定されていますが、NTTPCにて複数社のサーバーでGPUのパフォーマンスを比較検証した結果、最も高い評価を残しているのも特長です。当社はNVIDIAおよびSupermicroと緊密に連携しながら、自社で培ってきた設計技術を活かして、今回の高度な技術的要件にもしっかりとお応えすることができました。
4日間かかっていた計算が「わずか1時間」に?
カギを握るのはGPU配列とコネクティング
奥田 今回の重要な技術テーマは、当社が開発・提供している複数ノードにわたり分散処理を行う「ChainerMN」※2のポテンシャルを活かすことができるかどうかです。当社の実験では、ChainerMNにより128基のGPUが同時に協調して動くことで100倍の速度で計算することができます。4日間かかっていた計算が1時間で終わる。研究のサイクルが劇的にスピードアップします。Chainerの性能を最大限に引き出すためには、サーバー内およびサーバー間の複数GPUが効率的にコネクティングしていなければなりません。低遅延性能と広帯域による高速性という特長を持つInfiniBand ( インターコネクト機構 ) の活用もポイントとなります。NTT Comグループの提案はまさに、GPUのパフォーマンスを最大限に引き出す技術的ノウハウと具体性で他社提案を凌駕していました。
天野 GPU性能の最大化という観点で言うと、単にGPU同士を繋げただけでは演算パフォーマンスが十分に発揮されないことがわかっています。重要なのはGPUの配列とコネクティングなのです。今回、深層学習において頻繁に発生する繰り返し計算の効率向上がスループットを決定するため、集積するGPUの配列についてSupermicroと連携しながらボトルネックを解消しました。また当社はインターコネクト機構の実績も豊富ですから、128台のGPUサーバーをつなぐマルチノード構成において、どこにどういう問題が起きるのか、実践に基づき蓄積したノウハウを活かし性能向上を図っています。
奥田 GPUの配列やインターコネクト機構の構成について私も問題意識を持っていましたが、共通の課題でディスカッションができ、さらに解決策をご提示いただけたことは、パートナー選定の大きなポイントとなりました。また分散処理の場合、1つのGPUが故障すると全体の性能に大きな影響を及ぼすため、トラブル時の迅速な対応も評価しました。
西岡 性能低下を防ぐためには排熱処理も重要です。サーバーは熱くなりすぎるとGPUが壊れないようにクロックを落としてしまいますので。今回、NTTPCと密に連携し、サーバーの配置やデータセンター内の冷却気流を考慮して効率的に排熱問題と性能向上のバランスをとっています。
天野 また、GPUサーバーに関しては、Supermicro製品で多く出回っているベアボーン ( ベンダー独自調達/組立品 ) と異なり、NTTPCではSupermicroが検証したメーカー純正品を提供しているので、故障/不具合時の保証範囲が部品レベルではなく「サーバー構成全体」に適用される点も大きな違いです。
西岡 本プラットフォームを運用していく中で生じるさまざまな課題に対しても、NTTPCとNTT Comが一体となって解決していきますし、ここから革新的な成果が次々と生み出されるのではないかとワクワクしています。NTT Comグループは最先端のGPUプラットフォームを、クラウド型からオンプレミス型まで、そしてその設計/構築における技術支援と安定運用を通じて、深層学習/HPCの促進による先進的なビジネスの活性化に貢献していきます。
※1 Preferred Networksが開発したオープンソースの深層学習プラットフォーム。
※2 Chainerに、マルチノードでの分散学習機能を追加するパッケージ。
最近の記事
技術解説
クラウド vs オンプレミス GPUサーバーの利用コストを徹底比較!
2020.03.17
ユーザーはどのような基準でクラウド、オンプレミスを選択すべきなのか・・・本コラムではコスト面におけるクラウドとオンプレミスの比較について紹介します!クラウドサービスに長年関わったスペシャリストが解説します!
イベントレポート
「InnovationLAB MeetUp #1」を開催しました!
~ 新たなビジネス開発に向けたコラボレーションを ~
2020.03.12
「InnovationLAB MeetUp #1」イベントレポート!AIサービス事業者・AI / IoT関連サービスの導入を検討されている企業さまや学術研究機関の方々などをお招きし、パートナーさまにさらなるアイディア創出やビジネスコラボレーションを促進させるために「InnovationLAB MeetUp #1」を開催しました。