トレンドコラム

技術解説

NVIDIA® Llama Nemotron™:推論・指示理解・チャットに強い次世代LLMの全貌

2025.04.21

NTTPC GPUエンジニア

GPUエンジニア
大野 泰弘

NVIDIA® Llama Nemotron™:推論・指示理解・チャットに強い次世代LLMの全貌

NVIDIAが公開した「Llama-3_1-Nemotron-Ultra-253B-v1」は、単なるLLM(大規模言語モデル)ではありません。推論・指示理解・チャット能力を兼ね備えた次世代エージェントの基盤として設計されたこのモデルは、複数段階にわたる高度な学習フローを通じて構築されました。
本記事では、その裏側にある Distillation・SFT・RLHF・Curriculum RL など、主要ステップの技術的背景を解説します。


Llama-3_1-Nemotron-Ultra-253B-v1 のモデルカードより引用

Step 1: Distillation - モデル効率化の肝「蒸留と剪定」

Neural Architecture Search(NAS)とPruning

出発点となるのは、405Bパラメータの巨大モデル「Llama 3.1」。そのままでは現実的な応用が難しいため、まずは Pruning(剪定) を実施。NAS(Neural Architecture Search)を併用し、計算効率と性能のバランスが取れた構造を自動選択します。

  • NASとは: 複数のモデル構造候補を自動生成し、最も効果的なものを選定するアルゴリズム。
  • 剪定戦略: 重みの大きさや勾配の変化に基づく構造削減により、計算負荷を大幅に削減。

結果として、 Pruned Llama 3.1(253B) を得ることになります。

Knowledge Distillation(知識蒸留)

教師モデル(405B)と生徒モデル(253B)を並列稼働させ、同じ入力に対する出力を比較しながら、教師の暗黙知を生徒に伝える 技法。損失関数としては「KL Divergence」などを使用することが多いです。

Continued Pre-training(継続事前学習)

大量の未学習トークンで再度事前学習。文脈理解力や生成性能の底上げを狙います。

補足: NVIDIA NeMo™フレームワークは、FP8精度対応やモデル並列処理に強く、大規模モデルの学習に最適化されています。

Step 2: Supervised Fine-Tuning(SFT)- 多様なスキルを叩き込む

NVIDIA curated prompts(キュレーション)

Chat / Math / Code / Instruction Following / Function Calling の5領域で、3M件の高品質プロンプト を自動生成・キュレート。

  • 応答生成: Llama 3.3 70B / Qwen 2.5 / QwQ-32B / DeepSeek-R1 などの先進モデル群を使って応答を生成
  • 応答評価: スコアリングを行い品質をチェックし、「NVIDIA vetted responses」として抽出

教師あり学習(Supervised Fine-Tuning)

選別された高品質ペア(プロンプト+応答)を使って、モデルに一連のスキルを学習させます。ここで学習されるのは下記の項目になります。

  • 逐次思考(Chain-of-Thought)
  • 関数呼び出しスキル
  • 文脈的な指示理解

Step 3: RL for Reasoning - 科学的推論力の獲得

Curriculum RL(段階的強化学習)

FP8精度(TensorRT-LLMやTransformer Engineと親和性が高い)で、140,000 GPU時間(H100) を投じて強化学習を実施。

  • SFTモデル(253B) をエージェントとし、 Llama 3.3 70B にて回答の判定を行いフィードバックする(RLAIF的構造)
  • まずは40KサンプルのQ&Aでファインチューニングを行い、さらに200Kサンプルへスケール

データフィルタリング

NVIDIA Nemotron Super(49B) モデルでQ&Aをフィルタリングし、回答精度と推論の一貫性を保証。

Step 4: RL for Alignment - ユーザー指示と自然言語応答

RL for Instruction Following(指示理解)

  • 30K件のInstruction Followingデータ を使用
  • 評価には「Instruction Following Verifier」という独自の自動スコアリング・モデルを使用

RL for Chat(自然な対話)

  • HelpSteer 2(50Kプロンプト) を使って、ユーザー好みに応じた応答生成を最適化
  • Llama Nemotron Reward(70B) モデルで報酬スコアを算出してフィードバックを行い、より自然な対話が出来るように学習

Nemotron Ultraの完成と特徴

上記全工程を経て誕生したこのモデルは:

  • 推論力(Scientific Reasoning)
  • 指示追従性(Instruction Following)
  • 関数呼び出しやツール利用(Tool-Use)
  • 人間らしいチャット能力(Conversationality)

をバランス良く兼ね備えた、次世代型LLMの代表格と言える存在です。

推論と使用方法

  • コンテキスト:最大128Kトークンをサート。
  • 推論モードの切り替え:システムプロンプトにdetailed thinking onを含めることで、推論モードを有効化。(通常時は非推論モデルとして動作します。)
  • 推論環境:
    BF16:
    • 8x NVIDIA H100-80GB (合計640GB)
    • 4x NVIDIA B100 (合計768GB)
    FP 8
    • 4x NVIDIA H100-80GB (合計320GB)

このモデルは、Hugging Face Transformersライブラリ(バージョン4.48.3推奨)と互換性があり、Linux環境での使用が推奨されています。

評価結果と性能

このモデルは、以下のベンチマークで高い性能を示しています:

  • GPQA:推論モードで76.01%精度。
  • AIME25:推論モードで72.50%精度。
  • LiveCodeBench:推論モードで66.31%精度。
  • MATH500:推論モードで97.00%精度。

Llama-3_1-Nemotron-Ultra-253B-v1のモデルカードより引用

ライセンスと商用利用

このモデルは、NVIDIA Open Model LicenseおよびLlama 3.1 Community License Agreementの下で提供されており、商用利用が可能です。ただし、利用に際しては、モデルの整合性、安全性、バイアスなどを考慮し、適切な評価と対策を行うことが推奨されます。

詳細な情報やモデルの使用方法については、以下のリンクをご参照ださい:

技術スタックまとめ

技術要素 内容
モデル基盤 Llama 3.1 系列
実装フレームワーク NVIDIA NeMo
精度 FP8(高速・省メモリ)
学習時間 H100 × 140K時間(推論RL)
評価手法 AIジャッジモデルによるスコアリング
応答生成 多モデルアンサンブル+選別