記事カテゴリ
MENU

AI

生成AI(ジェネレーティブAI)とは? ビジネスへの具体的な活用などを解説

このエントリーをはてなブックマークに追加

簡単な指示を与えるだけで文章や画像を自動生成してくれる「生成AI(ジェネレーティブAI)」。今回は従来のAIとの違いや注目されるようになった背景とともに、活用可能な業務範囲や使用時の注意点および必要となる能力などについても解説します。

この記事で紹介している
サービスはこちら

生成AI(ジェネレーティブAI) / LLM・GPUクラスタ構築・NVIDIA DGX・OmniverseならNVIDIA エリートパートナーのNTTPC

目次

生成AI(ジェネレーティブAI)とは?

生成AI(ジェネレーティブAI)は、文字通り種々のデータを生成(生産)することのできるAIです。英語の「Generative AI」を和訳したもので、「生成系AI」とも呼ばれます。
ディープラーニング(深層学習)という機械学習モデルを用いて学習した大規模データをもとに、クリエイティブな活動ができることが特長です。

生成AI(ジェネレーティブAI)と従来のAIとの違い

従来のAIは、「識別系AI」と呼ばれる、与えられたデータを学習済みのデータと比較して分類や分析を行うというものが中心でした。例えばOCR(Optical Character Recognition、光学的文字認識)は、与えられたスキャンデータ上の文字を学習済みのデータと比較し、最適(正解)と思われるものを探して見つけ出し、テキストデータとして返します。また、AIカメラでは与えられた画像から条件に合うもの(人物や自動車など)を認識し、認識結果の位置や情報などを画像上などに表示します。
このように主に「正解か不正解か」をもとに与えられたデータの分類や分析を行う識別系AIに対し、生成AI(ジェネレーティブAI)では、与えられた条件に応じて新たなデータを創造する、いわば「ゼロから1を生み出す」ようなクリエイティブな活動を行います。
これまでコンピューターには難しいとされていたクリエイティブな活動が可能なことから、近年では生成AI(ジェネレーティブAI)こそがAIである、と捉えるようになりつつあります。

生成AI(ジェネレーティブAI)開発には高性能GPUが必要

ここ数年で急激に生成AI(ジェネレーティブAI)が注目されるようになった背景には、生成AI(ジェネレーティブAI)のクオリティが上がってきたことがあります。ディープラーニングをはじめとした機械学習手法の進化により学習の精度が上がり、まるで人間自身が創り出したような、ビジネス利用に耐えうる質の生成データが生み出せるようになったのです。
その背景には並列処理に優れた高性能GPU(Graphics Processing Unit、画像処理装置)の登場があります。生成AI(ジェネレーティブAI)の開発を行う際は、従来のディープラーニングと比較してもより大量の学習データを使用して計算を行う必要があるため、高性能GPUを搭載したサーバーを複数台接続する「マルチノードGPUシステム」が必要となります。近年ではこうした開発環境を提供するサービスも登場しており、企業や官公庁などで生成AI(ジェネレーティブAI)を自主開発し活用しようという動きも開始されています。

生成AI(ジェネレーティブAI)で生成できるコンテンツ

画像の生成

「画像生成AI(画像ジェネレーティブAI)」は、文章などをもとに、高品質な画像をスピーディに生成するAIです。例えば「Stable Diffusion」は、単語をいくつか入力するだけでそれに応じた画像が生成されます。入力する単語により、写真のような画像やアニメ調のイラストを生成することもできます。そのほか、「DALL-E」、「Midjourney」などの画像生成AI(画像ジェネレーティブAI)も知られています。
すでに広告制作などで活用され、クリエイティブな活動にかける手間と時間の短縮に貢献しています。

テキストの生成

「テキスト生成AI(テキストジェネレーティブAI)」は、ユーザーが入力した質問に対して回答となる文章を生成するAIです。人間が書いたような自然な文章を作成するチャットボット「ChatGPT」などの登場により、生成AI(ジェネレーティブAI)が広く認知されるきっかけとなりました。
すでにビジネス文書の作成やアイデア出し、カスタマーサポートの初期対応などに活用されています。ただし、学習データとしてウェブ上の情報を使用したものの場合、古い情報や誤った情報が反映されることもあります。
2023年11月には、日本語処理性能の高いテキスト生成AI(テキストジェネレーティブAI)であるNTTの「tsuzumi」が発表されました。

動画の生成

「動画生成AI(動画ジェネレーティブAI)」は、テキストや画像から自動的に動画コンテンツを生成するAIです。
前述の「Stable Diffusion」は、動画生成AI(動画ジェネレーティブAI)としての利用も可能です。また、「Gen-2」は、既存の動画に対してキーワードや画像で指示することにより、新たな動画を生成できる動画生成AI(動画ジェネレーティブAI)です。そのほか、「Make-A-Video」なども知られています。
これまで専門的な知識が必要とされてきた動画編集ですが、そうしたスキルのない人でも動画を編集したり生成したりできるようになりました。現在では主に短い動画の生成が中心ですが、今後は長い動画の生成も可能になるよう期待されています。

音声の生成

「音声生成AI(音声ジェネレーティブAI)」は、入力したテキストから、人間のような自然な音声を生成するAIです。
音声合成AIとも呼ばれ、「Google Text-to-Speech」や「Microsoft Azure Text to Speech」、「Amazon Polly」など大手IT企業からもサービスが提供されています。
すでにニュースの読み上げや視覚障害者などに向けた音声アシスタントとして活用されており、現在は実在の人物の声に似せたり、対応できる言語を増やしたりなどで活躍の場が増えています。

3Dモデルの生成

「3Dモデル生成AI(3DモデルジェネレーティブAI)」は、画像やテキストをもとに3Dモデルを生成するAIです。Google社の「DreamFusion」や先に紹介した「Stable Diffusion」を発展させた「Stable-Dreamfusion」などがあります。
これまで3Dモデルの作成には相応の時間と費用が必要でしたが、3Dモデル生成AI(3DモデルジェネレーティブAI)の登場により手軽に生成できるようになると期待されています。
これらのAIに加え、プログラムコードを生成するAIや楽曲を生成するAIも作成されています。

生成AI(ジェネレーティブAI)の種類

VAE

生成AI(ジェネレーティブAI)は使用されるモデルにより数種類に分類されますが、VAE(Variational Auto-Encoder、変分オートエンコーダー)はその1つで、主に画像生成AI(画像ジェネレーティブAI)で使用されます。
具体的には、学習データとして与えられた画像から特徴を学習し、同じ特徴を持った画像を生成します。
VAEにより、すでに逝去した巨匠の新作を生成することなどが可能となります。

GAN

GAN(Generative Adversarial Networks)も同じく画像生成AI(画像ジェネレーティブAI)で使用されます。
GANでは画像を生成する「生成器(Generator)」と、画像を識別する「識別器(Discriminator)」の2つのネットワークが使用されます。生成器は本物らしい偽物画像を生成し、一方の識別器は偽物画像を見破ろうとします。2つのネットワークが競い合うことで精度を高めるため、GANは「敵対的生成ネットワーク」とも呼ばれます。

拡散モデル

拡散モデル(Diffusion model)も同じく画像生成AI(画像ジェネレーティブAI)で使用されます。先に紹介した「Stable Diffusion」の名称はこのモデルを使っていることに由来しています。
画像にノイズを加えて破壊する「拡散過程」と、画像からノイズを除去して復元する「逆拡散過程」を学習することで精度を向上していき、最終的には学習データに近似した画像を生成できるようになります。その仕組みから、GANの進化形といわれることもあります。

GPT

GPT(Generative Pre-trained Transformer)は主にテキスト生成AI(テキストジェネレーティブAI)で使用されます。先に紹介した「ChatGPT」の名称はこのモデルを使っていることに由来しています。
人間の手でラベル付けされた学習データを使用する従来の方式から、ラベルなしのデータも使用する「半教師なし学習」を使用することで、膨大なテキストデータを学習することが可能となり、質問に対する回答を平易な文章として生成することが可能となりました。
2018年のGPT-1から徐々に精度を上げていましたが、2020年に登場したGPT-3、そして2023年に登場したGPT-4では大幅な精度の向上が見られ、生成AI(ジェネレーティブAI)の知名度が上がるきっかけとなりました。

生成AI(ジェネレーティブAI)のビジネスへの活用

定型業務を自動化できる

生成AI(ジェネレーティブAI)は、文章やデザインを生成できるため、RPAやバッチ処理では対応できないような定型業務をも自動化し、業務効率化を実現することができます。
例えば簡単な指示を与えてメールの文面を生成AI(ジェネレーティブAI)に作成させれば、それに人が少し加筆するだけで済むようになります。
また、会議の録音データを与えて議事録を作成させることも可能です。

豊富なアイデア出しができる

アイデアを出すことは大変です。ブレスト(ブレーンストーミング)などで苦労された方もいるのではないでしょうか。また、常識や思い込みに囚われない「ゼロベース思考」も困難です。
画像生成AI(画像ジェネレーティブAI)や動画生成AI(動画ジェネレーティブAI)を活用することで、デザインや動画などのアイデアを効率的かつスピーディに多数生成することができます。その中から有望なものを選んで制作すれば、人がゼロから創るよりも多彩なバリエーションを効率的に生み出すことができるでしょう。

プロトタイプが簡単に作れる

3Dモデル生成AI(3DモデルジェネレーティブAI)を活用すれば、デザインの異なる製品のプロトタイプを手軽に作ることができます。実際に複数のプロトタイプを手に取り、製品のコンセプトや方向性を共有することができれば、開発プロセスを大幅に短縮することも可能でしょう。

顧客との関係が強化できる

生成AI(ジェネレーティブAI)に顧客のデータを学習させておけば、個別最適化された対応を行うことができます。具体的には顧客に応じた提案資料を作成させたり、各顧客に合わせてチューニングしたチャットボットを用意したりなどといったことが考えられます。
生成AI(ジェネレーティブAI)による個別最適化により顧客のエンゲージメントが高まるとともに、サービスがパーソナライズされることで、長期的なロイヤリティが高まるという効果も期待できます。

生成AI(ジェネレーティブAI)をビジネスで活用する場合は何が危険?

著作権の問題

生成AI(ジェネレーティブAI)をビジネスに活用するリスクはいくつかありますが、第一に挙げられるのは著作権上の問題でしょう。一部の生成AI(ジェネレーティブAI)は、画像や音声などの学習データをWeb上で収集していますが、どのようなデータを使用したかを把握するのは困難です。また、現時点では生成にあたりどのような学習データを使用したかも知るすべはありません。
学習データに著作権で保護されたデータを使用した場合、知らず知らずのうちに著作権を侵害してしまう危険性があります。最悪の場合、原典とほぼ同一の文章や、既存の作品そっくりの絵画が生成される場合もあります。商業利用する場合には、使用する生成AI(ジェネレーティブAI)がどのような学習データを使用しているか、著作権を侵害していないかを把握する必要があります。

幻覚(ハルシネーション)の問題

「ハルシネーション(Hallucination)」は「幻覚」という意味ですが、ITの世界では「(主にテキスト生成AI(テキストジェネレーティブAI)が)まるで幻覚でも見たかのように事実ではない回答を繰り返し提示する」ことを指します。これまでの経験からまさかAIが噓をつくとは考えませんし、また回答が瞬時に与えられるため、ユーザーにとっては真実と捉えてしまう危険性があります。
特にテキスト生成AI(テキストジェネレーティブAI)を使用する際には、ファクトチェックが欠かせないことに留意しましょう。

ディープフェイクの問題

ディープフェイクの問題も世を騒がせています。動画生成AI(動画ジェネレーティブAI)と音声生成AI(音声ジェネレーティブAI)を使って、実在の人物の声と顔を真似て実在しない内容を話すような動画が出回れば、社会を混乱させる危険性があります。また、音声生成AI(音声ジェネレーティブAI)を悪用すれば、本人になりすました偽の電話をかけることも可能です。
残念ながら現時点ではディープフェイクや生成音声を見分ける技術は開発途上にありますが、これらの問題が倫理的な問題の引き金になる危険性があることは憶えておきましょう。

企業が生成AI(ジェネレーティブAI)を活用するために必要となる能力は?

生成AI(ジェネレーティブAI)を業務に活用するためには、上記の危険性を把握すること以外にも必要とされる能力があります。
まずは生成AI(ジェネレーティブAI)に任せるべき仕事を切り分ける能力です。生成AI(ジェネレーティブAI)を利用する際のリスクをしっかりとアセスメントした上で、どのような業務をどこまで任せるかを判断する能力とも換言できます。
つまり必要となるのはデータリテラシーと生成AI(ジェネレーティブAI)に対する基本的な理解であって、AIに関する高度な知識は必要ないのです。そのため自社に高度なIT人材を抱え込む必要はなく、生成AI(ジェネレーティブAI)を扱うパートナー企業との円滑なやりとりができるコミュニケーション能力や企画力があれば良いといえます。

NTTPCのGPU製品 / サービス

NTTPCは、生成AI(ジェネレーティブAI)の開発プラットフォームとして多くの皆さまに選ばれています。
より効率的に生成AI(ジェネレーティブAI)の開発・チューニングを行うためには、GPU搭載サーバーを複数組み合わせた「マルチノードGPUシステム」を構成する必要があります。NTTPCなら、専任エンジニアがお客さまの要件に合わせてGPUサーバーの設計・構築・設置作業までサポートします。

また、自社でデータセンター、ネットワークサービスを展開してきた経験から、インフラ管理のためのナレッジも豊富。ミッションクリティカルな商用サービスから高いパフォーマンスが求められる研究開発基盤に至るまで、用途・予算に合わせてマルチノードGPUシステムを効率的に運用する適切なインフラの設計・構築を行います。

さらに、NTTPCはAI時代をけん引するGPUメーカーであるNVIDIAのパートナー認定制度NPN(NVIDIA Partner Network)において、最上位ランクの「エリートパートナー」に認定されています。メーカーとの緊密な連携と確かな技術力により、ファシリティ、ネットワーク環境などを含めトータルで提供できる体制を整えています。生成AI(ジェネレーティブAI)の自社開発をご検討の際には是非お気軽にご相談ください。

生成AI(ジェネレーティブAI) / LLM・GPUクラスタ構築・NVIDIA DGX・OmniverseならNVIDIA エリートパートナーのNTTPC

まとめ

今回は、簡単な指示で種々のデータを生成(生産)することのできる「生成AI(ジェネレーティブAI)」について解説しました。
従来の識別系AIと違い、生成系AIは画像、テキスト、動画、音声、3Dモデルなど様々なテータを生成することができるため、日常業務の効率化が実現できるソリューションとして注目されています。
生成AI(ジェネレーティブAI)は用途に応じてVAE、GAN、拡散モデル、GPTなどのモデルが考案され、業務に活用できるレベルにまで一気に精度が向上しました。現在では「定型業務を自動化できる」「豊富なアイデア出しができる」「プロトタイプが簡単に作れる」「顧客との関係が強化できる」などの特長から、すでに各方面で実用化が進んでいます。しかしその一方で、著作権の問題や幻覚(ハルシネーション)の問題、ディープフェイクの問題なども顕在化しています。
企業が生成AI(ジェネレーティブAI)を活用するためにはデータリテラシーと生成AI(ジェネレーティブAI)に対する基本的な理解が必要ですが、適切なパートナー企業と良好な関係と最適な環境を構築できれば動作原理など高度な知識は必要ありません。現在、自社の業務に生成AI(ジェネレーティブAI)の活用を検討している場合には、今回の記事を参考としてまずはパートナーとなる生成AI(ジェネレーティブAI)企業を見つけるところから始めてみてはいかがでしょうか。

※「NVIDIA」は、米国および / または他国のNVIDIA Corporation の商標および / または登録商標です。
※「ChatGPT」、「DALL-E」は、米国および / または他国のOpenAI社の商標および / または登録商標です。
※「tsuzumi」は、日本電信電話株式会社の商標であり、商標登録出願中です。
※「Google」は、米国および / または他国のGoogle LLC の商標および / または登録商標です。
※「Microsoft」、「Azure」は、米国および / または他国のMicrosoft Corporationの商標および / または登録商標です。
※「Amazon Polly」は、米国および / または他国のAmazon Web Services(AWS)の商標および / または登録商標です。

※ICT Digital Columnに記載された情報は、リリース時点のものです。
商品・サービスの内容、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。

この記事で紹介している
サービスはこちら

生成AI(ジェネレーティブAI) / LLM・GPUクラスタ構築・NVIDIA DGX・OmniverseならNVIDIA エリートパートナーのNTTPC

関連するおすすめ記事