生成AI基盤をテーマとした「NTTPC GPU Day」開催次世代GPUアーキテクチャの実力や、生成AI基盤構築のノウハウを公開!
2024年7月17日に、「生成AI基盤の最前線」をテーマとしたイベント「NTTPC GPU Day」を開催しました。初めての開催となる本イベントでは、NVIDIA合同会社、デル・テクノロジーズ株式会社の協力のもと、次世代GPUアーキテクチャ「NVIDIA Blackwell」や最新のサーバー製品の紹介をはじめ、この分野をリードする各社による生成AI基盤構築に関する実践的なハウハウの説明などが行われました。
この記事では、当日行われた各社による講演やディスカッションの内容を中心に紹介します。
\ 講演資料・動画をご希望の方はこちらから(無料ダウンロード)/
アンケートはこちらセミナー1
NVIDIA コンピューティングプラットフォーム最新情報
-
エヌビディア合同会社
ソリューションアーキテクチャ&エンジニアリング
シニア ソリューション アーキテクト佐々木 邦暢 氏
最初のセッションは、NVIDIA のシニア ソリューション アーキテクト 佐々木邦暢氏による「NVIDIAの最新技術情報」の紹介です。佐々木氏は、まずNVIDIAが昨今力を入れているフレームワークやハードウェアの性能を引き出す各種ソフトウェアについて説明。その後、次世代のGPUアーキテクチャ「NVIDIA Blackwell」の驚くべき性能や機能を紹介しました。
生成 AI モデルを構築、カスタマイズ、デプロイするためのフレームワーク
佐々木氏:NVIDIA NeMoは、エンタープライズ対応の大規模言語モデルやアプリケーションを構築するためのソフトウェアコンポーネントです。全てコンテナ形式となっていて、生成 AI モデルやアプリケーションを構築、カスタマイズ、デプロイするためのエンドツーエンドのフレームワークとなります。トレーニングと推論のフレームワーク、ガードレール ツールキット、データ キュレーション ツール、学習済みモデルが含まれており、生成 AI を簡単かつ費用対効果に優れた方法で迅速に導入することができます。
AIモデルの大規模展開に最適化された推論マイクロサービス
佐々木氏:NVIDIA NeMoを使って生成AIモデル・アプリケーションを構築したあと、いざデプロイ・展開するフェーズで大変便利なのが、NVIDIA NIMとなります。NVIDIA NIMは、推論環境を動かすために必要な一式をコンテナイメージにまとめたもので、AIを活用した職場アプリの作成を簡単にし、本番向けのAIモデルの作成とパッケージ化の複雑さを大幅に削減できます。
最新のGPUアーキテクチャ「NVIDIA Blackwell」
佐々木氏:2012年に話題となった「AlexNet」はパラメーター数が約6000万でした。そこからAIのパラメーター数は右肩上がりに増え、Transformer以後は爆発的に伸びています。そして「GPT-MoE-1.8T」では1.8兆パラメーターと、ついに兆単位まできました。
NVIDIAのGPUの性能も飛躍的な発展を遂げています。その最先端にある次世代GPUアーキテクチャが「NVIDIA Blackwell」です。NVIDIA Blackwellでは、とうとう半導体のレチクルサイズの限界を迎えました。従来のような1基のダイでは収まらず、レチクルリミットサイズのダイ2基を1つのGPU に結合し、2080億個のトランジスタを搭載した新機軸「AIスーパーチップ」になっています。
<NVIDIA Blackwellの技術的なブレークスルー>
■第2世代Transformer Engine:FP4(4 ビット浮動小数点演算)でスループットを加速
■第5世代NVLinkとNVLink スイッチ:兆単位パラメーターモデルに対応するスケーラビリティ
■RAS Engine:大規模マルチノードワークロードのダウンタイムを最小化
最後に、我々はすでにNVIDIA Blackwellの次の世代、「NVIDIA Rubin」の開発を進めています。NVIDIA では、演算需要の急速な高まりに対応すべく、今後は以前よりも短いサイクルで新たなGPUアーキテクチャを提供していきたいと考えています。
セミナー2
生成AI導入のエッセンスと戦略的アプローチ
~ AIをすべてのデータに ~
-
デル・テクノロジーズ株式会社
データワークロード・ソリューション本部
AIスペシャリスト/CTO Ambassador増月 孝信 氏
-
デル・テクノロジーズ株式会社
データワークロード・ソリューション本部
AIスペシャリスト山口 泰亜 氏
続いてのセッションは、「生成AI導入のエッセンスと戦略的アプローチ」。デル・テクノロジーズの増月孝信氏、山口泰亜氏が登壇し、エンドツーエンドのエンタープライズAIソリューション「Dell AI Factory」を中心に、同社のAI戦略や最新製品について説明しました。
データが大きな差別化要因になる
増月氏:AIのユースケースは多岐にわたります。事業戦略・運営管理、製品の革新・研究開発、製造・サプライチェーン、マーケティング・販売・顧客サービス、IT・人事・財務など、あらゆる部門の幅広いエリアで生成AIの活用が期待されます。では、多岐にわたるユースケースの中で優先すべきものは何でしょうか。それは「事業価値」が高く、かつ「実現可能性」の高いユースケースです。
例えば、人事システムの効率化を図ることは大切ですが、会社の差別化にはつながりません。我々の会社であれば、サプライチェーンなどが一つの差別化要因となるため、自社のデータをいかにうまく使うかが大切なポイントとなります。
生成AIの導入に向けた考え方としては、汎用的なサービスを活用するのも一つのアプローチです。その一方で、自分たちの業種・業界固有のモデル、あるいは組織固有のモデルを使って差別化を図ることも重要になります。どこから手をつけて、どう成長させていくのか。ロードマップを描きながら、戦略的に取り組みを進めることが求められます。
エンドツーエンドのエンタープライズAIソリューション
山口氏:生成AIというとGPUサーバーをイメージされる方が多いと思いますが、今後はエッジ側でも処理する必要があります。私たちは、デスクトップからデータセンター、クラウドまでの広範なAIソリューション ポートフォリオを用意し、さらに「NVIDI AI Enterprise」ソフトウェア プラットフォームと統合した、エンドツーエンドのエンタープライズAIソリューション「Dell Al Factory with NVIDIA」を提供しています。
生成AI基盤の導入に際しては、戦略、データの準備、導入実装、モデルのカスタマイゼーション、運用などに関する専門的な知識とノウハウが必要になります。Dell Al Factoryでは、経験豊富なコンサルタントによるプロフェッショナルサービスを提供し、モデルの生成からチューニング、拡張、推論まで、生成AIモデルの全ライフサイクルをカバーする包括的な支援を行います。
セミナー3
コストパフォーマンスを最大化!
生成AI基盤構築の”肝”とその提供形態
-
株式会社NTTPCコミュニケーションズ
法人ビジネス推進本部
プロジェクトマネージャー/エンジニア大野 泰弘
続いてのセッションは、「コストパフォーマンスを最大化!生成AI基盤づくりのポイント」。エンジニアとして数多くのGPUクラスタ(マルチノードGPUシステム)の導入プロジェクトに携わってきた弊社の大野泰弘が登壇。GPUクラスタの設計/構築に欠かせない“13のスキル”について解説しました。
GPUクラスタの設計/構築は、技術の“総合格闘技”
大野:NTTPCコミュニケーションズでは、これまで2000基を超えるGPUクラスタの設計/構築を手掛けてきました。そんな数多くの導入に携わってきた私たちが今改めて実感しているのは、「GPUクラスタの設計/構築は、“総合格闘技”」ということです。
まず、データセンターの選定から始まり、ネットワーク(インターネット/VPN)、セキュリティ(ファイアウォール/UTM)、インターコネクト(InfiniBand/Ethernet)、ハードウェア(サーバー群)、ミドルウェア(AIフレームワーク/コンテナ管理/ジョブスケジューラ)、そしてそれらを束ねるエンジニアリング(GPUクラスタエンジニアによる設計・構築)まで、フルスタックの能力が要求される、まさに技術の“総合格闘技”です。
総合格闘技に必要な“13のスキル”
大野:なぜこのような幅広いレイヤーのスキルが必要なのでしょうか。それはシングルノードとの違いを考えれば分かります。シングルノードの場合は、NVSwitchと呼ばれる高速のバスを使って単体サーバーの中で通信を行うため、パフォーマンスは保証されて出ます。一方、クラスタとして動作させる場合は、インターコネクトと言われるノード間通信が必要となります。複数のサーバーが同期を取りながら通信を行うため、生成AI基盤のパフォーマンスを最大化するためには、エンジニアリングスキルを総動員し、パフォーマンスチューニングを行っていく必要があるのです。
パフォーマンスチューニングを行うには、ハードウェアやソフトウェア、運用設計に関する以下の“13のスキル”が欠かせません。
■ハードウェア:①GPUアーキテクチャ、②ネットワーク、③ストレージ、④サーバー
■ソフトウェア:⑤Linux、⑥コンテナ技術、⑦ジョブ管理システム、⑧並列処理プログラミング、⑨ディープラーニングフレームワーク
■その他:⑩パフォーマンス分析、⑪トラブルシューティング、⑫セキュリティ、⑬各種冷却技術とデータセンター
このように、生成AI基盤の設計/構築には「フルスタックエンジニアリング」が求められます。また、企画から実際の利用開始までには長い期間が必要になります。そこで、幅広いスキルと経験を持ったベンダーの力を効率的に使う方法や、利用開始までの期間を大幅に短縮できる、オンプレミス型(自社要件×自社設置)のプライベートクラウドを利用する方法をお勧めします。
パネルディスカッション
登壇者への質問・3社によるクロストーク
-
エヌビディア合同会社
ソリューションアーキテクチャ&エンジニアリング
シニア ソリューション アーキテクト佐々木 邦暢 氏
-
デル・テクノロジーズ株式会社
データワークロード・ソリューション本部
AIスペシャリスト山口 泰亜 氏
-
株式会社NTTPCコミュニケーションズ
法人ビジネス推進本部
プロジェクトマネージャー/エンジニア大野 泰弘
-
<ファシリテーター>
株式会社NTTPCコミュニケーションズサービスクリエーション本部長
三澤 響
各社による講演の後には、この日の登壇者3名が再び登場し、パネルディスカッションを実施。「生成AI開発において考えるべきポイント」や「苦労したこと」などをテーマにクロストークを展開し、後半は来場者からの質問にも回答しました。
生成AI開発において考えるべきポイントとは?
三澤:生成AI開発には、「ゴールの定義 → 基盤の定義 → 設計/構築 → 運用管理」といった工程がありますが、最も考えるべきポイントは何だと思われますか?
山口氏:最初に行うユースケースの設定だと思います。ユースケースを設定せずに何となく始めてしまうと、結局、「ゴール(生成AI開発の目的、用途、目指す成果)」を見失ってしまいます。まずはユースケースを設定し、GPUだけではなく、システムとしてトータルで考えていくことが重要です。
佐々木氏:「基盤の定義(ゴール達成に必要な性能要件、コンポーネント)」も重要なポイントです。講演の中で大野さんも強調されていましたが、GPUクラスタの導入が増えてきています。我々NVIDIA は社内でGPUクラスタを何千台も構築し、そこで得られたノウハウを「リファレンスアーキテクチャ」として公開しています。こうした資料を参照した上でクラスタの形を決めていただくことが、より良い「基盤の定義」への近道になります。
大野:ユースケースを設定した上で、自分たちのワークロードを理解することが最も重要だと考えています。ワークロードがどれだけ必要なのか分からないままスタートすると、「どんな種類が来ても困らないクラスタを作ろう」となってしまい、過剰な投資につながりかねません。自分たちのワークロードを理解した上で必要なクラスタを見定めることが重要ではないでしょうか。
生成AI基盤で苦労したことは?
三澤:生成AI基盤の導入において、特にどういった部分で苦労されていますか?
山口氏:現場の方が生成AIをやりたいとなっても、上司から「いくらするんだ? どれだけメリットがあるんだ?」と言われ、結局、上司を説得できずに終わってしまうケースが非常に多いです。そういったハードルを超えるためには、リーダーシップチームが会社としての方針(生成AI開発の目的など)を固め、そのためのユースケースを設定して進めることが大切になります。
佐々木氏:昨年、先ほどお話ししたNVIDIA のリファレンスアーキテクチャをそのまま日本のデータセンターに実装する案件を担当しました。しかし、実際に設置しようとすると、「30台もデータセンターに入らない」「電気が足りない」「部屋が足りない」など、物理レイヤーでいろいろな問題が…。ただ、実装には苦労したものの、論理的にはリファレンスアーキテクチャ通りのスパコンが出来上がったので、ちゃんとしたアーキテクチャを策定しておくことの重要性を痛感しました。
大野:私が苦労しているのは、パフォーマンスチューニングですね。パフォーマンスチューニングって、実は提案・見積もり段階から始まっています。お客さまに「ここを削ってもっと安くできないか」と言われるのですが、「ここを削ってしまうとパフォーマンスが極端に落ちることになるので削れません。でも、お客さまのワークフローだったらストレージのパフォーマンスはここまで落とせるんじゃないか」というやり取りが何度もありました。この見積フェーズを経て、次の構築フェーズでは、見積時に見定めた結果を実現するためのチューニングを現場で無数に重ねていきます。
まとめ
すべてのセッション終了後には、登壇者3名と直接対話ができる特別コーナー「Meet the Experts」を会場内に設置。多くの来場者が登壇者の前に列を作り、熱心に質問を投げかける姿が印象的でした。
「生成AI基盤の最前線」をテーマに、今回初めて開催された「NTTPC GPU Day」。生成AIおよびGPUに対する注目度がより一層高まるなか、当日は200名を超える来場者が集まり、メイン会場・サテライト会場ともに満席に。イベントは盛況のうちに無事に閉会となりました。
\ 講演資料・動画をご希望の方はこちらから(無料ダウンロード)/
アンケートはこちら