この初心者向けガイドでは、生成 AI のコア テクノロジーを紹介し、それらがどのように連携して chatbot やアプリケーションを強化しているのかを説明します。生成 AI(genAI や gen AI とも呼ばれます)は ML の分野の一つで、ML モデルを開発して新しいコンテンツの生成に使用します。
生成 AI モデルは、その大きな規模と自然言語を理解、生成する能力から、よく大規模言語モデル(LLM)と呼ばれます。しかし、モデルがトレーニングに使用するデータによっては、テキストだけでなく、画像、動画、音声といった複数のモダリティの内容を理解して生成することができます。このように、複数のモダリティのデータを扱うモデルは、マルチモーダル モデルと呼ばれます。
Google の Gemini は、マルチモーダルのユースケース用に設計された生成 AI モデルのファミリーです。画像、動画、テキストなど複数のモダリティからの情報を処理できます。
コンテンツの生成
生成 AI モデルが実世界の用途に役立つコンテンツを生成するには、以下の機能が必要です。
新しいタスクの実行方法を学習する:
生成 AI モデルは、一般的なタスクを実行するように設計されています。ユーザーのユースケースに固有のタスクをモデルに実行させる場合は、ユーザーがモデルをカスタマイズできる必要があります。Gemini Enterprise Agent Platform では、モデル チューニングによってモデルをカスタマイズできます。
外部情報にアクセスする:
生成 AI モデルは膨大な量のデータでトレーニングされます。ただし、これらのモデルが役立つには、トレーニング データ以外の情報にアクセスできることが必要です。たとえば、生成 AI モデルを活用したカスタマー サービス chatbot を作成する場合、モデルはユーザーが提供するプロダクトやサービスに関する情報にアクセスできる必要があります。Gemini Enterprise Agent Platform では、グラウンディング機能や関数呼び出し機能を使用して、モデルが外部情報にアクセスできるようにします。
有害なコンテンツをブロックする:
生成 AI モデルから生成される出力は、不適切なテキストや配慮に欠けたテキストといった予期しないものになる場合があります。安全性を維持し、不正使用を防ぐため、モデルには、有害な可能性があると判断されたプロンプトやレスポンスをブロックする安全フィルタが必要です。Gemini Enterprise Agent Platform には、生成 AI サービスの責任ある使用を促進する安全機能が組み込まれています。
プロンプト
|
|
通常、生成 AI ワークフローは、プロンプトから始まります。プロンプトとは、レスポンスを引き出すために生成 AI モデルに送信する自然言語のリクエストを指します。モデルによっては、プロンプトにテキスト、画像、動画、音声、ドキュメントなどのモダリティ、または複数のモダリティ(マルチモーダル)を含めることができます。 モデルから期待するレスポンスを引き出すためのプロンプトを記述する作業は、プロンプト設計と呼ばれています。プロンプト設計は試行錯誤のプロセスですが、プロンプト設計には原則と戦略があり、それを使用して期待通りの動作をするようにモデルを誘導します。 Gemini Enterprise Agent Platform Studio には、プロンプトを 管理するためのプロンプト管理ツールが用意されています。 |
基盤モデル
|
|
プロンプトは、回答を生成するために生成 AI モデルに送信されます。Gemini Enterprise Agent Platform には、以下のようにさまざまな 生成 AI 基盤モデルがあります。これらのモデルには、API を介してアクセスできます。
モデルのサイズ、モダリティ、費用はそれぞれ異なります。Google のモデル、オープンモデル、Google パートナーのモデルについては、Model Garden で調べることができます。 |
モデルのカスタマイズ
|
|
Google の基盤モデルのデフォルトの動作は、複雑なプロンプトを使わなくても常に期待する結果が生成されるようにカスタマイズできます。このカスタマイズ プロセスをモデル チューニングと呼びます。モデル チューニング を行うと、プロンプトを簡素化できるため、リクエストの費用とレイテンシを削減する効果があります。 Gemini Enterprise Agent Platform には、チューニングしたモデルのパフォーマンスの評価に役立つ モデル評価 ツールも用意されています。チューニングしたモデルをプロダクション レディな状態にした後は、エンドポイントにデプロイして標準の MLOps ワークフローと同様にパフォーマンスをモニタリングできます。 |
外部情報にアクセスする
|
|
Gemini Enterprise Agent Platform には、モデルを外部 API とリアルタイム情報にアクセス可能にする複数の方法があります。 |
引用チェック
|
|
レスポンスが生成されると、Gemini Enterprise Agent Platform は引用 をレスポンスに含める必要があるかどうかチェックします。レスポンスにあるテキストの大半が特定の情報源に由来する場合は、その情報源がレスポンスの引用メタデータに追加されます。 |
責任ある AI と安全性
|
|
プロンプトとレスポンスが返される前に通過するチェックの最終レイヤは、安全 フィルタです。Gemini Enterprise Agent Platform では、プロンプトとレスポンスの両方について、プロンプトやレスポンスがどの程度安全 カテゴリに属しているかを確認します。1 つ以上のカテゴリでしきい値を超えると、レスポンスはブロックされ、Gemini Enterprise Agent Platform から フォールバック レスポンスが返されます。 |
レスポンス
|
|
プロンプトとレスポンスが安全フィルタのチェックに合格すると、レスポンスが返されます。通常、レスポンスは一度にすべてが返されます。ただし、 Agent Platform では、ストリーミングを有効にして、レスポンスの生成に合わせて徐々に受け取ることもできます。 |
使ってみる
Agent Platform で生成 AI を使ってみるには、次のいずれかのクイックスタートをお試しください。
- Agent Platform Gemini API を使用してテキストを生成する: SDK を使用して、Gemini API にリクエストを送信します。
- **Gemini を使用して画像を生成する**: テキスト プロンプトから画像を生成します。