比較機能を使用すると、さまざまなプロンプト、モデル、パラメータ設定によってモデルの出力がどのように変化するかを確認できます。各プロンプトとその回答を並べて表示し、次の方法で比較、分析できます。
- 新しいプロンプトを使用する。
- 別の保存済みプロンプトを使用する。
- グラウンド トゥルースを使用する。
始める前に
比較機能にアクセスする手順は次のとおりです。
Google Cloud コンソールで、[プロンプトを作成] ページに移動します。
[比較] を選択します。[比較] ページが表示されます。
比較機能でプロンプトを作成する
[比較] ページでは、別のプロンプトを選択して結果を比較する前に、プロンプトを作成できます。
プロンプトを作成する手順は次のとおりです。
[新しいプロンプト] フィールドにプロンプトを入力します。
[プロンプトを送信] をクリックします。 モデルのレスポンスは、入力したプロンプト テキストの下に表示されます。
[新規として保存] をクリックします。 [プロンプトを保存] ダイアログが表示されます。
[プロンプト名] フィールドに新しいプロンプトの名前を入力します。
[リージョン] フィールドでリージョンを選択するか、デフォルトのリージョンをそのまま使用します。
顧客管理の暗号鍵(CMEK)が適用される場合は、次の操作を行います。
- [顧客管理の暗号鍵(CMEK)] チェックボックスをオンにします。
- [Cloud KMS 鍵の選択] フィールドで鍵を選択します。
[保存] をクリックします。これにより、プロンプトが [保存済みのプロンプトを比較] ページで使用するプロンプトのリストに保存されます。
[プロンプトを送信] をクリックして、プロンプトとその回答を比較します。
プロンプトを更新して、更新したバージョンを新しいプロンプトとして保存できます。
新しいプロンプトと比較する
保存済みのプロンプトと新しいプロンプトを比較する手順は次のとおりです。
- [新しいプロンプトを比較] をクリックします。[比較] ペインが表示されます。
- 省略可: [モデルの切り替え] をクリックして、デフォルト モデルとは異なるモデルを使用します。
- 省略可: [出力] を開きます。
- 省略可: JSON などの特定の形式で出力する場合は、[構造化出力] 切り替えボタンをクリックします。[構造化出力] を選択すると、グラウンディングは構造化出力でサポートされていないため、グラウンディング オプションはオフになります。
- 省略可: [思考予算] を次のいずれかのオプションに変更します。
- 自動: モデルは必要な場合にのみ思考を行います。モデルは、そのときに必要なものに基づいて、どれだけ思考するか、または状況をどのように分析するかを調整します。
- 手動: 思考予算トークンを調整できます。
- オフ: 思考や予算を使用しません。
Outputs:
- 省略可: [ツール] を開きます。
- 次のオプションのいずれかを選択します。
- グラウンディング: Google: Google 検索または Google マップによるグラウンディング。
- グラウンディング: お客様のデータ: Vertex AI RAG Engine、Vertex AI Search、Elasticsearch によるグラウンディング。
- [グラウンディング: お客様のデータ] を選択した場合は、使用するデータソースを選択します。
ツール:
- 省略可: [高度] を開きます。
- [リージョン] を選択します。
- [安全フィルタの設定] を選択します。ダイアログが表示されます。デフォルトの [オフ] のままにするか、次の各オプションに [少数をブロック]、[一部をブロック]、[ほとんどをブロック] を指定できます。
- ヘイトスピーチ: ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント。
- 危険なコンテンツ: 有害な商品、サービス、アクティビティへのアクセスを促進または可能にする。
- 性的描写が露骨なコンテンツ: 性行為やその他のわいせつな内容に関するコンテンツ。
- ハラスメント コンテンツ: 他人をターゲットにした悪意のある、威圧的な、いじめのための、または虐待的なコメント。
- [保存] をクリックして設定を保存し、ダイアログを閉じます。
- [Temperature] フィールドで Temperature を選択します。[Temperature] は、トークン選択のランダム性の度合いを制御します。真であるレスポンスまたは正しいレスポンスを想定する場合は、低い Temperature が適しています。Temperature を高くすると、ばらつきの大きい結果や想定外の結果になる可能性があります。
- [出力トークンの上限] フィールドで、出力トークンの上限を選択します。出力トークンの上限により、1 つのプロンプトに対して出力されるテキストの最大量が決まります。1 トークンは約 4 文字です。
- [最大レスポンス数] フィールドで最大レスポンス数を選択します。プロンプトごとに生成されるモデル レスポンスの最大数です。安全フィルタやその他のポリシーにより、レスポンスがブロックされることがあります。
- [Top-P] フィールドから値を選択します。Top-p は、モデルが出力用にトークンを選択する方法を変更します。
- [モデルのレスポンスをストリーミング] フィールドの切り替えボタンをクリックします。選択すると、レスポンスが生成されたときに出力されます。
- [停止シーケンスを追加] フィールドに停止シーケンスを入力します。シーケンスごとに Enter キーを押します
高度:
- [保存] をクリックして、設定の変更を保存します。
- [適用] をクリックします。
- [プロンプトを送信] をクリックして、プロンプトとその回答を比較します。
各モデルのトークン上限の詳細については、思考予算を制御するをご覧ください。
別の保存済みのプロンプトと比較する
保存済みのプロンプトを別の保存済みプロンプトと比較する手順は次のとおりです。
- [保存済みのプロンプトを比較] をクリックします。[既存のプロンプト] ペインが表示されます。
比較する既存のプロンプトを選択します。最大 2 個まで選択できます。
- [プロンプト名] を選択します。リストに多くのプロンプトがある場合は、[フィルタ] フィールドをクリックし、フィルタするプロパティを選択します。値を入力して Enter キーを押します。
- [適用] をクリックします。[比較] ページには、選択したプロンプトと、比較用に作成または選択した他のプロンプトが表示されます。
[プロンプトを送信] をクリックして、プロンプトとその回答を比較します。
グラウンド トゥルースと比較する
グラウンド トゥルースとは、プロンプトに対する適切な回答を指します。モデルが生成するその他の回答は、グラウンド トゥルースの回答に照らして評価されます。
保存済みのプロンプトをグラウンド トゥルースと比較する手順は次のとおりです。
- [グラウンド トゥルース] をクリックします。[グラウンド トゥルース] ペインが表示されます。
- グラウンド トゥルースを入力して、別の評価指標を生成します。
- [保存] をクリックして、グラウンド トゥルースを保存します。
- [プロンプトを送信] をクリックして、プロンプトとその回答を比較します。
プロンプトとグラウンド トゥルースを比較したときに生成される評価指標は、選択したリージョンに影響されません。
次のステップ
- プロンプト ギャラリーでプロンプトの他の例を確認する。
- モデルの評価の詳細については、Gen AI Evaluation Service の概要をご覧ください。