ツール: create_evaluation
新しい評価を作成します。
次のサンプルは、curl を使用して create_evaluation MCP ツールを呼び出す方法を示しています。
| Curl リクエスト |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "create_evaluation", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
入力スキーマ
EvaluationService.CreateEvaluation のリクエスト メッセージです。
CreateEvaluationRequest
| JSON 表現 |
|---|
{
"parent": string,
"evaluationId": string,
"evaluation": {
object ( |
| フィールド | |
|---|---|
parent |
必須。評価を作成するアプリ。形式: |
evaluationId |
省略可。評価に使用する ID。評価のリソース名の最終的なコンポーネントになります。指定しない場合、評価に一意の ID が自動的に割り当てられます。 |
evaluation |
必須。作成する評価。 |
評価
| JSON 表現 |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| フィールド | |
|---|---|
name |
ID。この評価の固有識別子。形式: |
displayName |
必須。ユーザー定義の評価の表示名。アプリ内で一意。 |
description |
省略可。ユーザー定義の評価の説明。 |
tags[] |
省略可。評価を分類するためのユーザー定義のタグ。 |
evaluationDatasets[] |
出力専用。評価が属する評価データセットのリスト。形式: |
createTime |
出力専用。評価が作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
createdBy |
出力専用。評価を作成したユーザー。 |
updateTime |
出力専用。評価が最後に更新されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
lastUpdatedBy |
出力専用。評価を最後に更新したユーザー。 |
evaluationRuns[] |
出力専用。この評価に関連付けられている EvaluationRun。 |
etag |
出力専用。読み取り、変更、書き込みオペレーション中にオブジェクトが変更されていないことを確認するために使用される ETag。etag が空の場合、更新によって同時変更が上書きされます。 |
aggregatedMetrics |
出力専用。すべての実行にわたるこの評価の集計指標。 |
lastCompletedResult |
出力専用。この評価の最新の評価結果。 |
invalid |
出力専用。評価が無効かどうか。これは、評価が、削除されたツール、ツールセット、エージェントを参照している場合に発生する可能性があります。 |
lastTenResults[] |
出力専用。この評価の過去 10 回の評価結果。これは、ListEvaluationsRequest または GetEvaluationRequest で include_last_ten_results が true に設定されている場合にのみ入力されます。 |
共用体フィールド inputs。評価 inputs の入力は、次のいずれか 1 つのみです。 |
|
golden |
省略可。評価するゴールデン ステップ。 |
scenario |
省略可。シナリオの構成。 |
Golden
| JSON 表現 |
|---|
{
"turns": [
{
object ( |
| フィールド | |
|---|---|
turns[] |
必須。ゴールデン会話を再生するために必要なゴールデン ターン。 |
evaluationExpectations[] |
省略可。再生された会話を評価するための評価の期待値。形式: |
GoldenTurn
| JSON 表現 |
|---|
{ "steps": [ { object ( |
| フィールド | |
|---|---|
steps[] |
必須。ゴールデン会話を再生するために必要な手順。 |
rootSpan |
省略可。音声情報の処理と維持のためのゴールデン ターンのルート スパン。 |
ステップ
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド step。実行するステップ。step は次のいずれかになります。 |
|
userInput |
省略可。会話のユーザー入力。 |
agentTransfer |
省略可。会話を別のエージェントに転送します。 |
expectation |
省略可。現在のターンで期待値を実行します。 |
SessionInput
| JSON 表現 |
|---|
{ "willContinue": boolean, // Union field |
| フィールド | |
|---|---|
willContinue |
省略可。現在のメッセージが双方向ストリーミング セッションの大きな入力のフラグメントであるかどうかを示すフラグ。
注: このフィールドは音声入力と DTMF 入力には適用されません。これらは常に終端信号に基づいて自動的に処理されるためです。 |
共用体フィールド input_type。入力のタイプ。input_type は次のいずれかになります。 |
|
text |
省略可。エンドユーザーからのテキストデータ。 |
dtmf |
省略可。エンドユーザーからの DTMF 数字。 |
audio |
省略可。エンドユーザーからの音声データ。 Base64 でエンコードされた文字列。 |
toolResponses |
省略可。クライアントからのツール呼び出しの実行結果。 |
image |
省略可。エンドユーザーからの画像データ。 |
blob |
省略可。エンドユーザーからの BLOB データ。 |
variables |
省略可。セッションのコンテキスト変数。名前でキー設定されます。アプリで宣言された変数のみが CES エージェントで使用されます。 認識されない変数は、追加のセッション パラメータとして [Dialogflow エージェント][Agent.RemoteDialogflowAgent] に送信されます。 |
event |
省略可。イベント入力。 |
ToolResponses
| JSON 表現 |
|---|
{
"toolResponses": [
{
object ( |
| フィールド | |
|---|---|
toolResponses[] |
省略可。ツール実行結果のリスト。 |
ToolResponse
| JSON 表現 |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| フィールド | |
|---|---|
id |
省略可。レスポンスの対象となる |
displayName |
出力専用。ツールの表示名。 |
response |
必須。JSON オブジェクト形式のツール実行結果。「output」キーを使用してツールのレスポンスを指定し、「error」キーを使用してエラーの詳細を指定します(ある場合)。「output」キーと「error」キーが指定されていない場合、「response」全体がツール実行結果として扱われます。 |
共用体フィールド tool_identifier。実行されたツールの ID。永続化されたツールまたはツールセットのツールです。tool_identifier は次のいずれかになります。 |
|
tool |
省略可。実行するツールの名前。形式: |
toolsetTool |
省略可。実行されたツールセット ツール。 |
ToolsetTool
| JSON 表現 |
|---|
{ "toolset": string, "toolId": string } |
| フィールド | |
|---|---|
toolset |
必須。このツールが派生した Toolset のリソース名。形式: |
toolId |
省略可。スキーマを取得するツールをフィルタするツール ID。 |
構造体
| JSON 表現 |
|---|
{ "fields": { string: value, ... } } |
| フィールド | |
|---|---|
fields |
動的に型指定される値の順序なしのマップ。
|
FieldsEntry
| JSON 表現 |
|---|
{ "key": string, "value": value } |
| フィールド | |
|---|---|
key |
|
value |
|
値
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド kind。値の種類。kind は次のいずれかになります。 |
|
nullValue |
null 値を表します。 |
numberValue |
double 値を表します。 |
stringValue |
文字列値を表します。 |
boolValue |
ブール値を表します。 |
structValue |
構造化された値を表します。 |
listValue |
|
ListValue
| JSON 表現 |
|---|
{ "values": [ value ] } |
| フィールド | |
|---|---|
values[] |
動的に型指定される値の繰り返しフィールド。 |
画像
| JSON 表現 |
|---|
{ "mimeType": string, "data": string } |
| フィールド | |
|---|---|
mimeType |
必須。ソースデータの IANA 標準 MIME タイプ。サポートされている画像タイプは次のとおりです。* image/png * image/jpeg * image/webp |
data |
必須。画像の未加工のバイト数。 Base64 でエンコードされた文字列。 |
Blob
| JSON 表現 |
|---|
{ "mimeType": string, "data": string } |
| フィールド | |
|---|---|
mimeType |
必須。ソースデータの IANA 標準 MIME タイプ。 |
data |
必須。blob の未加工のバイト数。 Base64 でエンコードされた文字列。 |
イベント
| JSON 表現 |
|---|
{ "event": string } |
| フィールド | |
|---|---|
event |
必須。イベントの名前。 |
AgentTransfer
| JSON 表現 |
|---|
{ "targetAgent": string, "displayName": string } |
| フィールド | |
|---|---|
targetAgent |
必須。会話の転送先のエージェント。この時点からエージェントが会話を処理します。形式: |
displayName |
出力専用。エージェントの表示名。 |
GoldenExpectation
| JSON 表現 |
|---|
{ "note": string, // Union field |
| フィールド | |
|---|---|
note |
省略可。この要件に関するメモ。特定のチェックが失敗した場合のレポートに役立ちます。例: "Check_Payment_Tool_Called". |
共用体フィールド condition。実行する実際のチェック。condition は次のいずれかになります。 |
|
toolCall |
省略可。特定のツールがパラメータとともに呼び出されたことを確認します。 |
toolResponse |
省略可。特定のツールが想定どおりのレスポンスを返したことを確認します。 |
agentResponse |
省略可。エージェントが正しいレスポンスを返したことを確認します。ロール「エージェント」は暗黙的に指定されています。 |
agentTransfer |
省略可。エージェントが会話を別のエージェントに転送したことを確認します。 |
updatedVariables |
省略可。エージェントがセッション変数を想定どおりの値に更新したことを確認します。ゴールデン評価の代理店変数の更新もキャプチャするために使用されます。 |
mockToolResponse |
省略可。モックするツール レスポンス。対象のパラメータを指定します。指定されていないパラメータは LLM によってハルシネーションされます。 |
ToolCall
| JSON 表現 |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| フィールド | |
|---|---|
id |
省略可。ツール呼び出しの一意の識別子。値が設定されている場合、クライアントは |
displayName |
出力専用。ツールの表示名。 |
args |
省略可。JSON オブジェクト形式のツールの入力パラメータと値。 |
共用体フィールド tool_identifier。実行するツールの識別子。永続化されたツールまたはツールセットのツールです。tool_identifier は次のいずれかになります。 |
|
tool |
省略可。実行するツールの名前。形式: |
toolsetTool |
省略可。実行するツールセット ツール。 |
メッセージ
| JSON 表現 |
|---|
{
"role": string,
"chunks": [
{
object ( |
| フィールド | |
|---|---|
role |
省略可。会話内のロール(ユーザー、エージェントなど)。 |
chunks[] |
省略可。メッセージのコンテンツをチャンクのシーケンスとして表します。 |
eventTime |
省略可。メッセージの送信または受信時のタイムスタンプ。メッセージが RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
チャンク
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド data。チャンクデータ。data は次のいずれかになります。 |
|
text |
省略可。テキストデータ。 |
transcript |
省略可。音声に関連付けられた文字起こし。 |
blob |
省略可。Blob データ。 |
payload |
省略可。カスタム ペイロード データ。 |
image |
省略可。画像データ。 |
toolCall |
省略可。ツール実行リクエスト。 |
toolResponse |
省略可。ツール実行のレスポンス。 |
agentTransfer |
省略可。エージェントの転送イベント。 |
updatedVariables |
構造体は、会話で更新された変数を表します。変数の名前でキー設定されます。 |
defaultVariables |
構造体は、会話の開始時のデフォルト変数を表します。変数は変数名でキー設定されます。 |
タイムスタンプ
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
UNIX エポック 1970-01-01T00:00:00Z からの UTC 時刻の秒数を表します。-62135596800~253402300799 の範囲(両端を含む)にする必要があります(これは 0001-01-01T00:00:00Z~9999-12-31T23:59:59Z に対応します)。 |
nanos |
ナノ秒分解能による、秒の負ではない小数以下部分。このフィールドは、秒の代替ではなく、期間のナノ秒部分です。小数以下を含む負の秒の値は、時間を前方にカウントする負ではない nanos 値を持つ必要があります。0~999,999,999 にする必要があります(両端を含む)。 |
スパン
| JSON 表現 |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| フィールド | |
|---|---|
name |
出力専用。スパンの名前。 |
startTime |
出力専用。スパンの開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。スパンの終了時刻。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
duration |
出力専用。スパンの期間。
|
attributes |
出力専用。スパンに関連付けられた Key-Value 属性。 |
childSpans[] |
出力専用。このスパンの下にネストされている子スパン。 |
所要時間
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
期間の符号付き秒数。-315,576,000,000 ~+315,576,000,000 の範囲(両端を含む)にする必要があります。注: これらの境界は、60 秒/分 * 60 分/時間 * 24 時間/日 * 365.25 日/年 * 10,000 年から計算されます。 |
nanos |
期間のナノ秒分解能による、秒の符号付き小数以下部分。1 秒未満の期間は、0 の |
シナリオ
| JSON 表現 |
|---|
{ "task": string, "userFacts": [ { object ( |
| フィールド | |
|---|---|
task |
必須。シナリオの対象となるタスク。 |
userFacts[] |
省略可。シナリオで使用されるユーザーの事実。 |
maxTurns |
省略可。シミュレートするターンの最大数。指定しない場合、シミュレーションはタスクが完了するまで続行されます。 |
rubrics[] |
必須。シナリオを評価するためのルーブリック。 |
scenarioExpectations[] |
必須。ユーザー シミュレーションによって生成された会話を評価する ScenarioExpectations。 |
variableOverrides |
省略可。セッションのコンテキストとしての変数 / セッション パラメータ。変数名でキー設定されます。この構造体のメンバーは、システムによって設定されたデフォルト値をオーバーライドします。 なお、これらはユーザーが知っている事実であるユーザーの事実とは異なります。変数はエージェントが認識しているパラメータです。たとえば、テレフォニー システムから渡された MDN(電話番号)などです。 |
taskCompletionBehavior |
省略可。非推奨。代わりに user_goal_behavior を使用してください。 |
userGoalBehavior |
省略可。ユーザー目標の想定される動作。 |
evaluationExpectations[] |
省略可。シミュレーションによって生成された会話を評価するための評価の期待値。形式: |
UserFact
| JSON 表現 |
|---|
{ "name": string, "value": string } |
| フィールド | |
|---|---|
name |
必須。ユーザー ファクトの名前。 |
value |
必須。ユーザー ファクトの値。 |
ScenarioExpectation
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド expectation。シミュレーションによって生成された会話を評価するための期待値。expectation は次のいずれかになります。 |
|
toolExpectation |
省略可。評価するツール呼び出しとレスポンスのペア。 |
agentResponse |
省略可。評価対象のエージェント レスポンス。 |
ToolExpectation
| JSON 表現 |
|---|
{ "expectedToolCall": { object ( |
| フィールド | |
|---|---|
expectedToolCall |
必須。対象のパラメータが指定された、期待されるツール呼び出し。指定されていないパラメータは LLM によってハルシネーションされます。 |
mockToolResponse |
必須。モックするツール レスポンス。対象のパラメータを指定します。指定されていないパラメータは LLM によってハルシネーションされます。 |
AggregatedMetrics
| JSON 表現 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| フィールド | |
|---|---|
metricsByAppVersion[] |
出力専用。アプリのバージョン ID でグループ化された集計指標。 |
MetricsByAppVersion
| JSON 表現 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
appVersionId |
出力専用。アプリのバージョン ID。 |
toolMetrics[] |
出力専用。このアプリ バージョン内の各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このアプリ バージョン内のセマンティック類似性の指標。 |
hallucinationMetrics[] |
出力専用。このアプリ バージョン内のハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このアプリ バージョン内のツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このアプリ バージョン内のターン レイテンシの指標。 |
passCount |
出力専用。評価に合格した回数。 |
failCount |
出力専用。評価が失敗した回数。 |
metricsByTurn[] |
出力専用。このアプリ バージョン内のターンごとに集計された指標。 |
ToolMetrics
| JSON 表現 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
passCount |
出力専用。ツールが合格した回数。 |
failCount |
出力専用。ツールが失敗した回数。 |
SemanticSimilarityMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均意味的類似性スコア(0 ~ 4)。 |
HallucinationMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均ハルシネーション スコア(0 ~ 1)。 |
ToolCallLatencyMetrics
| JSON 表現 |
|---|
{ "tool": string, "averageLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
averageLatency |
出力専用。ツール呼び出しの平均レイテンシ。
|
TurnLatencyMetrics
| JSON 表現 |
|---|
{ "averageLatency": string } |
| フィールド | |
|---|---|
averageLatency |
出力専用。ターンの平均レイテンシ。
|
MetricsByTurn
| JSON 表現 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
turnIndex |
出力専用。ターン インデックス(0 ベース)。 |
toolMetrics[] |
出力専用。このターンの各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このターンの意味的類似性の指標。 |
hallucinationMetrics[] |
出力専用。このターンのハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このターンのツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このターンのターン レイテンシの指標。 |
EvaluationResult
| JSON 表現 |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| フィールド | |
|---|---|
name |
ID。評価結果の固有識別子。形式: |
displayName |
必須。評価結果の表示名。評価内で一意。デフォルトでは、「 |
createTime |
出力専用。評価結果が作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
evaluationStatus |
出力専用。評価の結果。execution_state が COMPLETE の場合にのみ入力されます。 |
evaluationRun |
出力専用。この結果を生成した評価実行。形式: |
persona |
出力専用。評価結果の会話の生成に使用されたペルソナ。 |
errorInfo |
出力専用。評価結果のエラー情報。 |
error |
出力専用。非推奨: 代わりに、 |
initiatedBy |
出力専用。この結果を生成した評価実行を開始したユーザー。 |
appVersion |
出力専用。この結果につながった会話の生成に使用されたアプリのバージョン。形式: |
appVersionDisplayName |
出力専用。評価が実行された |
changelog |
出力専用。評価が実行されたアプリ バージョンの変更ログ。ユーザーが最新版/下書きで評価を実行した場合に設定されます。 |
changelogCreateTime |
出力専用。評価の実行対象となったアプリ バージョンの変更ログの作成時間。ユーザーが最新版/下書きで評価を実行した場合に設定されます。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionState |
出力専用。評価結果の実行状態。 |
evaluationMetricsThresholds |
出力専用。結果の評価しきい値。 |
config |
出力専用。この結果が得られた評価実行で使用された構成。 |
goldenRunMethod |
出力専用。ゴールデン評価の実行に使用されるメソッド。 |
共用体フィールド result。評価の結果。execution_state が COMPLETED の場合にのみ入力されます。result は次のいずれかになります。 |
|
goldenResult |
出力専用。ゴールデン評価の結果。 |
scenarioResult |
出力専用。シナリオ評価の結果。 |
GoldenResult
| JSON 表現 |
|---|
{ "turnReplayResults": [ { object ( |
| フィールド | |
|---|---|
turnReplayResults[] |
出力専用。ゴールデン会話の各ターンを実行した結果。 |
evaluationExpectationResults[] |
出力専用。評価の期待値の結果。 |
TurnReplayResult
| JSON 表現 |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| フィールド | |
|---|---|
conversation |
出力専用。このターンで生成された会話。 |
expectationOutcome[] |
出力専用。各期待値の結果。 |
hallucinationResult |
出力専用。ハルシネーション チェックの結果。 |
toolInvocationScore |
出力専用。非推奨。代わりに OverallToolInvocationResult を使用してください。 |
turnLatency |
出力専用。ターンの期間。
|
toolCallLatencies[] |
出力専用。ターンの各ツール呼び出しのレイテンシ。 |
semanticSimilarityResult |
出力専用。セマンティック類似性チェックの結果。 |
overallToolInvocationResult |
出力専用。ツール呼び出しの全体的なチェックの結果。 |
errorInfo |
出力専用。このターン中に発生したエラーに関する情報。 |
spanLatencies[] |
出力専用。ターンのスパンのレイテンシ。 |
共用体フィールド
|
|
toolOrderedInvocationScore |
出力専用。このターンのツール呼び出しの全体的な順序スコア。これは、期待されるターンで実際に呼び出されたツールの割合を、期待される順序で示します。 |
GoldenExpectationOutcome
| JSON 表現 |
|---|
{ "expectation": { object ( |
| フィールド | |
|---|---|
expectation |
出力専用。評価された期待値。 |
outcome |
出力専用。期待の結果。 |
semanticSimilarityResult |
出力専用。セマンティック類似性チェックの結果。 |
toolInvocationResult |
出力専用。ツール呼び出しチェックの結果。 |
共用体フィールド result。期待の結果。result は次のいずれかになります。 |
|
observedToolCall |
出力専用。ツール呼び出しの期待値の結果。 |
observedToolResponse |
出力専用。ツール レスポンスの期待値の結果。 |
observedAgentResponse |
出力専用。エージェントのレスポンスの期待値の結果。 |
observedAgentTransfer |
出力専用。エージェント転送の期待値の結果。 |
SemanticSimilarityResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 4: 完全に一貫している スコア 3: ほぼ一貫している スコア 2: 部分的に一貫している(軽微な欠落がある) スコア 1: ほぼ一貫していない(重大な欠落がある) スコア 0: 完全に一貫していない / 矛盾している |
explanation |
出力専用。意味的類似性スコアの説明。 |
outcome |
出力専用。意味的類似性チェックの結果。これは、スコアと semantic_similarity_success_threshold を比較して決定されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
共用体フィールド
|
|
score |
出力専用。意味的類似性スコア。0、1、2、3、4 のいずれかになります。 |
ToolInvocationResult
| JSON 表現 |
|---|
{ "outcome": enum ( |
| フィールド | |
|---|---|
outcome |
出力専用。ツール呼び出しチェックの結果。これは、parameter_correctness_score をしきい値と比較して判断されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
explanation |
出力専用。ツール呼び出し結果の自由形式の説明。 |
共用体フィールド
|
|
parameterCorrectnessScore |
出力専用。ツール呼び出しパラメータの正しさのスコア。これは、実際のツール呼び出しにも含まれていた、期待されるツール呼び出しのパラメータの割合を示します。 |
HallucinationResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: 正当なスコア 0: 正当でないスコア -1: 評価する申し立てなし |
explanation |
出力専用。ハルシネーション スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。ハルシネーション スコア。-1、0、1 のいずれかになります。 |
ToolCallLatency
| JSON 表現 |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。実行されたツールの名前。形式: |
displayName |
出力専用。ツールの表示名。 |
startTime |
出力専用。ツール呼び出しの実行の開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。ツール呼び出しの実行終了時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionLatency |
出力専用。ツール呼び出しの実行レイテンシ。
|
OverallToolInvocationResult
| JSON 表現 |
|---|
{ "outcome": enum ( |
| フィールド | |
|---|---|
outcome |
出力専用。ツール呼び出しチェックの結果。これは、tool_invocation_score と overall_tool_invocation_correctness_threshold を比較して決定されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
共用体フィールド
|
|
toolInvocationScore |
このターンのツール呼び出しの全体的なスコア。これは、予測されたターンから実際に呼び出されたツールの全体的な割合を示します。 |
EvaluationErrorInfo
| JSON 表現 |
|---|
{
"errorType": enum ( |
| フィールド | |
|---|---|
errorType |
出力専用。エラーのタイプ。 |
errorMessage |
出力専用。エラー メッセージ。 |
sessionId |
出力専用。エラーの原因となった会話のセッション ID。 |
SpanLatency
| JSON 表現 |
|---|
{ "type": enum ( |
| フィールド | |
|---|---|
type |
出力専用。スパンのタイプ。 |
displayName |
出力専用。スパンの表示名。ツールとガードレールのスパンに適用されます。 |
startTime |
出力専用。スパンの開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。スパンの終了時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionLatency |
出力専用。スパンのレイテンシ。
|
共用体フィールド identifier。タイプに基づく特定のアイテムの識別子。identifier は次のいずれかになります。 |
|
resource |
出力専用。ガードレールまたはツールのスパンのリソース名。 |
toolset |
出力専用。ツールセット ツールの識別子。 |
model |
出力専用。LLM スパンの名前。 |
callback |
出力専用。ユーザー コールバック スパンの名前。 |
EvaluationExpectationResult
| JSON 表現 |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| フィールド | |
|---|---|
evaluationExpectation |
出力専用。評価の期待値。形式: |
prompt |
出力専用。評価に使用されたプロンプト。 |
outcome |
出力専用。評価の期待値の結果。 |
explanation |
出力専用。結果の説明。 |
ScenarioResult
| JSON 表現 |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| フィールド | |
|---|---|
conversation |
出力専用。シナリオで生成された会話。 |
task |
出力専用。この結果のシナリオを実行したときに使用されたタスク。 |
userFacts[] |
出力専用。この結果のシナリオで使用されたユーザーの事実。 |
expectationOutcomes[] |
出力専用。各期待値の結果。 |
rubricOutcomes[] |
出力専用。ルーブリックの結果。 |
hallucinationResult[] |
出力専用。ハルシネーション チェックの結果。会話のターンごとに 1 つのハルシネーション結果が返されます。 |
taskCompletionResult |
出力専用。タスク完了チェックの結果。 |
toolCallLatencies[] |
出力専用。会話内の各ツール呼び出しの実行のレイテンシ。 |
userGoalSatisfactionResult |
出力専用。ユーザー目標の達成度チェックの結果。 |
spanLatencies[] |
出力専用。会話内のスパンのレイテンシ。 |
evaluationExpectationResults[] |
出力専用。評価の期待値の結果。 |
共用体フィールド
|
|
allExpectationsSatisfied |
出力専用。このターンですべての期待値が満たされたかどうか。 |
共用体フィールド
|
|
taskCompleted |
出力専用。このターンでタスクが完了したかどうか。これは、満たされたすべての期待、ハルシネーションの発生なし、ユーザーの目標達成度の複合です。 |
ScenarioExpectationOutcome
| JSON 表現 |
|---|
{ "expectation": { object ( |
| フィールド | |
|---|---|
expectation |
出力専用。評価された期待値。 |
outcome |
出力専用。ScenarioExpectation の結果。 |
共用体フィールド result。期待の結果。result は次のいずれかになります。 |
|
observedToolCall |
出力専用。観測されたツール呼び出し。 |
observedAgentResponse |
出力専用。観測されたエージェントのレスポンス。 |
ObservedToolCall
| JSON 表現 |
|---|
{ "toolCall": { object ( |
| フィールド | |
|---|---|
toolCall |
出力専用。観測されたツール呼び出し。 |
toolResponse |
出力専用。観測されたツールのレスポンス。 |
ScenarioRubricOutcome
| JSON 表現 |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| フィールド | |
|---|---|
rubric |
出力専用。会話の評価に使用されたルーブリック。 |
scoreExplanation |
出力専用。ルーブリックに対する評価者の回答。 |
共用体フィールド
|
|
score |
出力専用。ルーブリックに照らした会話のスコア。 |
TaskCompletionResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: タスク完了 スコア 0: タスク未完了 スコア -1: ユーザーの目標が未定義 |
explanation |
出力専用。タスク完了スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。タスクの完了スコア。-1、0、1 のいずれかになります。 |
UserGoalSatisfactionResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: ユーザー タスクが完了したスコア 0: ユーザー タスクが完了しなかったスコア -1: ユーザー タスクが指定されていない |
explanation |
出力専用。ユーザー タスクの満足度スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。ユーザー タスクの満足度スコア。-1、0、1 のいずれかになります。 |
EvaluationPersona
| JSON 表現 |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| フィールド | |
|---|---|
name |
必須。ペルソナの一意の識別子。形式: |
description |
省略可。ペルソナの説明。 |
displayName |
必須。ペルソナの表示名。アプリ内で一意。 |
personality |
必須。評価でどのように動作すべきかについてのエージェントへの指示。 |
speechConfig |
省略可。ペルソナの音声に関する構成(TTS 設定)。 |
SpeechConfig
| JSON 表現 |
|---|
{
"speakingRate": number,
"environment": enum ( |
| フィールド | |
|---|---|
speakingRate |
省略可。発話速度。1.0 が標準です。値が低いほど遅くなります(例: 0.8)、値が大きいほど高速になります(例: 1.5)。エージェントが早口の顧客にどのように対応するかをテストするのに便利です。 |
environment |
省略可。シミュレートされたオーディオ環境。 |
voiceId |
省略可。使用する特定の音声 ID/アクセント。例: 「en-US-Wavenet-D」、「en-GB-Standard-A」 |
ステータス
| JSON 表現 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| フィールド | |
|---|---|
code |
ステータス コード。 |
message |
デベロッパー向けのエラー メッセージ。英語で記述します。ユーザー向けのエラー メッセージは、ローカライズして |
details[] |
エラーの詳細を保持するメッセージのリスト。API が使用する共通のメッセージ タイプのセットがあります。 任意のデータ型のフィールドを含むオブジェクトであり、型を識別する URI を含むフィールド |
すべて
| JSON 表現 |
|---|
{ "typeUrl": string, "value": string } |
| フィールド | |
|---|---|
typeUrl |
スラッシュで終わる接頭辞と完全修飾型名で構成される URI 参照を使用して、シリアル化された Protobuf メッセージの型を識別します。 例: type.googleapis.com/google.protobuf.StringValue この文字列には 接頭辞は任意であり、Protobuf 実装では、最後の すべてのタイプ URL 文字列は、有効な URI 参照である必要があります。また、テキスト形式の場合、参照の内容は英数字、パーセント エンコードされたエスケープ、および次のセットの文字(外側のバッククォートを除く)
|
value |
type_url で記述された型の Protobuf シリアル化を保持します。 Base64 でエンコードされた文字列。 |
EvaluationMetricsThresholds
| JSON 表現 |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| フィールド | |
|---|---|
goldenEvaluationMetricsThresholds |
省略可。ゴールデン評価指標のしきい値。 |
hallucinationMetricBehavior |
省略可。非推奨: 代わりに、 |
goldenHallucinationMetricBehavior |
省略可。ゴールデン評価のハルシネーション指標の動作。 |
scenarioHallucinationMetricBehavior |
省略可。シナリオ評価のハルシネーション指標の動作。 |
GoldenEvaluationMetricsThresholds
| JSON 表現 |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| フィールド | |
|---|---|
turnLevelMetricsThresholds |
省略可。ターンレベルの指標のしきい値。 |
expectationLevelMetricsThresholds |
省略可。期待レベルの指標のしきい値。 |
toolMatchingSettings |
省略可。ツール マッチングの設定。余分なツール呼び出しとは、実行には存在するものの、ゴールデン エクスペクテーションのツール呼び出しと一致しないツール呼び出しのことです。 |
TurnLevelMetricsThresholds
| JSON 表現 |
|---|
{ "semanticSimilarityChannel": enum ( |
| フィールド | |
|---|---|
semanticSimilarityChannel |
省略可。評価に使用する意味的類似性チャネル。 |
共用体フィールド
|
|
semanticSimilaritySuccessThreshold |
省略可。意味的類似性の成功しきい値。0 ~ 4 の整数を指定してください。デフォルトは 3 以上です。 |
共用体フィールド
|
|
overallToolInvocationCorrectnessThreshold |
省略可。ツール呼び出しの全体的な正しさの成功しきい値。0 ~ 1 の浮動小数点数にする必要があります。デフォルトは 1.0 です。 |
ExpectationLevelMetricsThresholds
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド
|
|
toolInvocationParameterCorrectnessThreshold |
省略可。個々のツール呼び出しパラメータの正しさの成功しきい値。0 ~ 1 の浮動小数点数にする必要があります。デフォルトは 1.0 です。 |
ToolMatchingSettings
| JSON 表現 |
|---|
{
"extraToolCallBehavior": enum ( |
| フィールド | |
|---|---|
extraToolCallBehavior |
省略可。追加のツール呼び出しの動作。デフォルトは FAIL です。 |
EvaluationConfig
| JSON 表現 |
|---|
{ "inputAudioConfig": { object ( |
| フィールド | |
|---|---|
inputAudioConfig |
省略可。入力音声の処理に関する構成。 |
outputAudioConfig |
省略可。出力音声の生成に関する構成。 |
evaluationChannel |
省略可。評価するチャネル。 |
toolCallBehaviour |
省略可。評価で実際のツール呼び出しを使用するか、フェイクツールを使用するかを指定します。 |
InputAudioConfig
| JSON 表現 |
|---|
{
"audioEncoding": enum ( |
| フィールド | |
|---|---|
audioEncoding |
必須。入力音声データのエンコード。 |
sampleRateHertz |
必須。入力音声データのサンプルレート(ヘルツ単位)。 |
noiseSuppressionLevel |
省略可。入力音声のノイズ抑制を有効にするかどうか。使用可能な値は、「low」、「moderate」、「high」、「very_high」です。 |
OutputAudioConfig
| JSON 表現 |
|---|
{
"audioEncoding": enum ( |
| フィールド | |
|---|---|
audioEncoding |
必須。出力音声データのエンコード。 |
sampleRateHertz |
必須。出力音声データのサンプリング レート(ヘルツ単位)。 |
出力スキーマ
評価は、エージェントのシミュレーションと評価に必要なすべての情報を表します。
評価
| JSON 表現 |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| フィールド | |
|---|---|
name |
ID。この評価の固有識別子。形式: |
displayName |
必須。ユーザー定義の評価の表示名。アプリ内で一意。 |
description |
省略可。ユーザー定義の評価の説明。 |
tags[] |
省略可。評価を分類するためのユーザー定義のタグ。 |
evaluationDatasets[] |
出力専用。評価が属する評価データセットのリスト。形式: |
createTime |
出力専用。評価が作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
createdBy |
出力専用。評価を作成したユーザー。 |
updateTime |
出力専用。評価が最後に更新されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
lastUpdatedBy |
出力専用。評価を最後に更新したユーザー。 |
evaluationRuns[] |
出力専用。この評価に関連付けられている EvaluationRun。 |
etag |
出力専用。読み取り、変更、書き込みオペレーション中にオブジェクトが変更されていないことを確認するために使用される ETag。etag が空の場合、更新によって同時変更が上書きされます。 |
aggregatedMetrics |
出力専用。すべての実行にわたるこの評価の集計指標。 |
lastCompletedResult |
出力専用。この評価の最新の評価結果。 |
invalid |
出力専用。評価が無効かどうか。これは、評価が、削除されたツール、ツールセット、エージェントを参照している場合に発生する可能性があります。 |
lastTenResults[] |
出力専用。この評価の過去 10 回の評価結果。これは、ListEvaluationsRequest または GetEvaluationRequest で include_last_ten_results が true に設定されている場合にのみ入力されます。 |
共用体フィールド inputs。評価 inputs の入力は、次のいずれか 1 つのみです。 |
|
golden |
省略可。評価するゴールデン ステップ。 |
scenario |
省略可。シナリオの構成。 |
Golden
| JSON 表現 |
|---|
{
"turns": [
{
object ( |
| フィールド | |
|---|---|
turns[] |
必須。ゴールデン会話を再生するために必要なゴールデン ターン。 |
evaluationExpectations[] |
省略可。再生された会話を評価するための評価の期待値。形式: |
GoldenTurn
| JSON 表現 |
|---|
{ "steps": [ { object ( |
| フィールド | |
|---|---|
steps[] |
必須。ゴールデン会話を再生するために必要な手順。 |
rootSpan |
省略可。音声情報の処理と維持のためのゴールデン ターンのルート スパン。 |
ステップ
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド step。実行するステップ。step は次のいずれかになります。 |
|
userInput |
省略可。会話のユーザー入力。 |
agentTransfer |
省略可。会話を別のエージェントに転送します。 |
expectation |
省略可。現在のターンで期待値を実行します。 |
SessionInput
| JSON 表現 |
|---|
{ "willContinue": boolean, // Union field |
| フィールド | |
|---|---|
willContinue |
省略可。現在のメッセージが双方向ストリーミング セッションの大きな入力のフラグメントであるかどうかを示すフラグ。
注: このフィールドは音声入力と DTMF 入力には適用されません。これらは常に終端信号に基づいて自動的に処理されるためです。 |
共用体フィールド input_type。入力のタイプ。input_type は次のいずれかになります。 |
|
text |
省略可。エンドユーザーからのテキストデータ。 |
dtmf |
省略可。エンドユーザーからの DTMF 数字。 |
audio |
省略可。エンドユーザーからの音声データ。 Base64 でエンコードされた文字列。 |
toolResponses |
省略可。クライアントからのツール呼び出しの実行結果。 |
image |
省略可。エンドユーザーからの画像データ。 |
blob |
省略可。エンドユーザーからの BLOB データ。 |
variables |
省略可。セッションのコンテキスト変数。名前でキー設定されます。アプリで宣言された変数のみが CES エージェントで使用されます。 認識されない変数は、追加のセッション パラメータとして [Dialogflow エージェント][Agent.RemoteDialogflowAgent] に送信されます。 |
event |
省略可。イベント入力。 |
ToolResponses
| JSON 表現 |
|---|
{
"toolResponses": [
{
object ( |
| フィールド | |
|---|---|
toolResponses[] |
省略可。ツール実行結果のリスト。 |
ToolResponse
| JSON 表現 |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| フィールド | |
|---|---|
id |
省略可。レスポンスの対象となる |
displayName |
出力専用。ツールの表示名。 |
response |
必須。JSON オブジェクト形式のツール実行結果。「output」キーを使用してツールのレスポンスを指定し、「error」キーを使用してエラーの詳細を指定します(ある場合)。「output」キーと「error」キーが指定されていない場合、「response」全体がツール実行結果として扱われます。 |
共用体フィールド tool_identifier。実行されたツールの ID。永続化されたツールまたはツールセットのツールです。tool_identifier は次のいずれかになります。 |
|
tool |
省略可。実行するツールの名前。形式: |
toolsetTool |
省略可。実行されたツールセット ツール。 |
ToolsetTool
| JSON 表現 |
|---|
{ "toolset": string, "toolId": string } |
| フィールド | |
|---|---|
toolset |
必須。このツールが派生した Toolset のリソース名。形式: |
toolId |
省略可。スキーマを取得するツールをフィルタするツール ID。 |
構造体
| JSON 表現 |
|---|
{ "fields": { string: value, ... } } |
| フィールド | |
|---|---|
fields |
動的に型指定される値の順序なしのマップ。
|
FieldsEntry
| JSON 表現 |
|---|
{ "key": string, "value": value } |
| フィールド | |
|---|---|
key |
|
value |
|
値
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド kind。値の種類。kind は次のいずれかになります。 |
|
nullValue |
null 値を表します。 |
numberValue |
double 値を表します。 |
stringValue |
文字列値を表します。 |
boolValue |
ブール値を表します。 |
structValue |
構造化された値を表します。 |
listValue |
|
ListValue
| JSON 表現 |
|---|
{ "values": [ value ] } |
| フィールド | |
|---|---|
values[] |
動的に型指定される値の繰り返しフィールド。 |
画像
| JSON 表現 |
|---|
{ "mimeType": string, "data": string } |
| フィールド | |
|---|---|
mimeType |
必須。ソースデータの IANA 標準 MIME タイプ。サポートされている画像タイプは次のとおりです。* image/png * image/jpeg * image/webp |
data |
必須。画像の未加工のバイト数。 Base64 でエンコードされた文字列。 |
Blob
| JSON 表現 |
|---|
{ "mimeType": string, "data": string } |
| フィールド | |
|---|---|
mimeType |
必須。ソースデータの IANA 標準 MIME タイプ。 |
data |
必須。blob の未加工のバイト数。 Base64 でエンコードされた文字列。 |
イベント
| JSON 表現 |
|---|
{ "event": string } |
| フィールド | |
|---|---|
event |
必須。イベントの名前。 |
AgentTransfer
| JSON 表現 |
|---|
{ "targetAgent": string, "displayName": string } |
| フィールド | |
|---|---|
targetAgent |
必須。会話の転送先のエージェント。この時点からエージェントが会話を処理します。形式: |
displayName |
出力専用。エージェントの表示名。 |
GoldenExpectation
| JSON 表現 |
|---|
{ "note": string, // Union field |
| フィールド | |
|---|---|
note |
省略可。この要件に関するメモ。特定のチェックが失敗した場合のレポートに役立ちます。例: "Check_Payment_Tool_Called". |
共用体フィールド condition。実行する実際のチェック。condition は次のいずれかになります。 |
|
toolCall |
省略可。特定のツールがパラメータとともに呼び出されたことを確認します。 |
toolResponse |
省略可。特定のツールが想定どおりのレスポンスを返したことを確認します。 |
agentResponse |
省略可。エージェントが正しいレスポンスを返したことを確認します。ロール「エージェント」は暗黙的に指定されています。 |
agentTransfer |
省略可。エージェントが会話を別のエージェントに転送したことを確認します。 |
updatedVariables |
省略可。エージェントがセッション変数を想定どおりの値に更新したことを確認します。ゴールデン評価の代理店変数の更新もキャプチャするために使用されます。 |
mockToolResponse |
省略可。モックするツール レスポンス。対象のパラメータを指定します。指定されていないパラメータは LLM によってハルシネーションされます。 |
ToolCall
| JSON 表現 |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| フィールド | |
|---|---|
id |
省略可。ツール呼び出しの一意の識別子。値が設定されている場合、クライアントは |
displayName |
出力専用。ツールの表示名。 |
args |
省略可。JSON オブジェクト形式のツールの入力パラメータと値。 |
共用体フィールド tool_identifier。実行するツールの識別子。永続化されたツールまたはツールセットのツールです。tool_identifier は次のいずれかになります。 |
|
tool |
省略可。実行するツールの名前。形式: |
toolsetTool |
省略可。実行するツールセット ツール。 |
メッセージ
| JSON 表現 |
|---|
{
"role": string,
"chunks": [
{
object ( |
| フィールド | |
|---|---|
role |
省略可。会話内のロール(ユーザー、エージェントなど)。 |
chunks[] |
省略可。メッセージのコンテンツをチャンクのシーケンスとして表します。 |
eventTime |
省略可。メッセージの送信または受信時のタイムスタンプ。メッセージが RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
チャンク
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド data。チャンクデータ。data は次のいずれかになります。 |
|
text |
省略可。テキストデータ。 |
transcript |
省略可。音声に関連付けられた文字起こし。 |
blob |
省略可。Blob データ。 |
payload |
省略可。カスタム ペイロード データ。 |
image |
省略可。画像データ。 |
toolCall |
省略可。ツール実行リクエスト。 |
toolResponse |
省略可。ツール実行のレスポンス。 |
agentTransfer |
省略可。エージェントの転送イベント。 |
updatedVariables |
構造体は、会話で更新された変数を表します。変数の名前でキー設定されます。 |
defaultVariables |
構造体は、会話の開始時のデフォルト変数を表します。変数は変数名でキー設定されます。 |
タイムスタンプ
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
UNIX エポック 1970-01-01T00:00:00Z からの UTC 時刻の秒数を表します。-62135596800~253402300799 の範囲(両端を含む)にする必要があります(これは 0001-01-01T00:00:00Z~9999-12-31T23:59:59Z に対応します)。 |
nanos |
ナノ秒分解能による、秒の負ではない小数以下部分。このフィールドは、秒の代替ではなく、期間のナノ秒部分です。小数以下を含む負の秒の値は、時間を前方にカウントする負ではない nanos 値を持つ必要があります。0~999,999,999 にする必要があります(両端を含む)。 |
スパン
| JSON 表現 |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| フィールド | |
|---|---|
name |
出力専用。スパンの名前。 |
startTime |
出力専用。スパンの開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。スパンの終了時刻。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
duration |
出力専用。スパンの期間。
|
attributes |
出力専用。スパンに関連付けられた Key-Value 属性。 |
childSpans[] |
出力専用。このスパンの下にネストされている子スパン。 |
所要時間
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
期間の符号付き秒数。-315,576,000,000 ~+315,576,000,000 の範囲(両端を含む)にする必要があります。注: これらの境界は、60 秒/分 * 60 分/時間 * 24 時間/日 * 365.25 日/年 * 10,000 年から計算されます。 |
nanos |
期間のナノ秒分解能による、秒の符号付き小数以下部分。1 秒未満の期間は、0 の |
シナリオ
| JSON 表現 |
|---|
{ "task": string, "userFacts": [ { object ( |
| フィールド | |
|---|---|
task |
必須。シナリオの対象となるタスク。 |
userFacts[] |
省略可。シナリオで使用されるユーザーの事実。 |
maxTurns |
省略可。シミュレートするターンの最大数。指定しない場合、シミュレーションはタスクが完了するまで続行されます。 |
rubrics[] |
必須。シナリオを評価するためのルーブリック。 |
scenarioExpectations[] |
必須。ユーザー シミュレーションによって生成された会話を評価する ScenarioExpectations。 |
variableOverrides |
省略可。セッションのコンテキストとしての変数 / セッション パラメータ。変数名でキー設定されます。この構造体のメンバーは、システムによって設定されたデフォルト値をオーバーライドします。 なお、これらはユーザーが知っている事実であるユーザーの事実とは異なります。変数はエージェントが認識しているパラメータです。たとえば、テレフォニー システムから渡された MDN(電話番号)などです。 |
taskCompletionBehavior |
省略可。非推奨。代わりに user_goal_behavior を使用してください。 |
userGoalBehavior |
省略可。ユーザー目標の想定される動作。 |
evaluationExpectations[] |
省略可。シミュレーションによって生成された会話を評価するための評価の期待値。形式: |
UserFact
| JSON 表現 |
|---|
{ "name": string, "value": string } |
| フィールド | |
|---|---|
name |
必須。ユーザー ファクトの名前。 |
value |
必須。ユーザー ファクトの値。 |
ScenarioExpectation
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド expectation。シミュレーションによって生成された会話を評価するための期待値。expectation は次のいずれかになります。 |
|
toolExpectation |
省略可。評価するツール呼び出しとレスポンスのペア。 |
agentResponse |
省略可。評価対象のエージェント レスポンス。 |
ToolExpectation
| JSON 表現 |
|---|
{ "expectedToolCall": { object ( |
| フィールド | |
|---|---|
expectedToolCall |
必須。対象のパラメータが指定された、期待されるツール呼び出し。指定されていないパラメータは LLM によってハルシネーションされます。 |
mockToolResponse |
必須。モックするツール レスポンス。対象のパラメータを指定します。指定されていないパラメータは LLM によってハルシネーションされます。 |
AggregatedMetrics
| JSON 表現 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| フィールド | |
|---|---|
metricsByAppVersion[] |
出力専用。アプリのバージョン ID でグループ化された集計指標。 |
MetricsByAppVersion
| JSON 表現 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
appVersionId |
出力専用。アプリのバージョン ID。 |
toolMetrics[] |
出力専用。このアプリ バージョン内の各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このアプリ バージョン内のセマンティック類似性の指標。 |
hallucinationMetrics[] |
出力専用。このアプリ バージョン内のハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このアプリ バージョン内のツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このアプリ バージョン内のターン レイテンシの指標。 |
passCount |
出力専用。評価に合格した回数。 |
failCount |
出力専用。評価が失敗した回数。 |
metricsByTurn[] |
出力専用。このアプリ バージョン内のターンごとに集計された指標。 |
ToolMetrics
| JSON 表現 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
passCount |
出力専用。ツールが合格した回数。 |
failCount |
出力専用。ツールが失敗した回数。 |
SemanticSimilarityMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均意味的類似性スコア(0 ~ 4)。 |
HallucinationMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均ハルシネーション スコア(0 ~ 1)。 |
ToolCallLatencyMetrics
| JSON 表現 |
|---|
{ "tool": string, "averageLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
averageLatency |
出力専用。ツール呼び出しの平均レイテンシ。
|
TurnLatencyMetrics
| JSON 表現 |
|---|
{ "averageLatency": string } |
| フィールド | |
|---|---|
averageLatency |
出力専用。ターンの平均レイテンシ。
|
MetricsByTurn
| JSON 表現 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
turnIndex |
出力専用。ターン インデックス(0 ベース)。 |
toolMetrics[] |
出力専用。このターンの各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このターンの意味的類似性の指標。 |
hallucinationMetrics[] |
出力専用。このターンのハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このターンのツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このターンのターン レイテンシの指標。 |
EvaluationResult
| JSON 表現 |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| フィールド | |
|---|---|
name |
ID。評価結果の固有識別子。形式: |
displayName |
必須。評価結果の表示名。評価内で一意。デフォルトでは、「 |
createTime |
出力専用。評価結果が作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
evaluationStatus |
出力専用。評価の結果。execution_state が COMPLETE の場合にのみ入力されます。 |
evaluationRun |
出力専用。この結果を生成した評価実行。形式: |
persona |
出力専用。評価結果の会話の生成に使用されたペルソナ。 |
errorInfo |
出力専用。評価結果のエラー情報。 |
error |
出力専用。非推奨: 代わりに、 |
initiatedBy |
出力専用。この結果を生成した評価実行を開始したユーザー。 |
appVersion |
出力専用。この結果につながった会話の生成に使用されたアプリのバージョン。形式: |
appVersionDisplayName |
出力専用。評価が実行された |
changelog |
出力専用。評価が実行されたアプリ バージョンの変更ログ。ユーザーが最新版/下書きで評価を実行した場合に設定されます。 |
changelogCreateTime |
出力専用。評価の実行対象となったアプリ バージョンの変更ログの作成時間。ユーザーが最新版/下書きで評価を実行した場合に設定されます。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionState |
出力専用。評価結果の実行状態。 |
evaluationMetricsThresholds |
出力専用。結果の評価しきい値。 |
config |
出力専用。この結果が得られた評価実行で使用された構成。 |
goldenRunMethod |
出力専用。ゴールデン評価の実行に使用されるメソッド。 |
共用体フィールド result。評価の結果。execution_state が COMPLETED の場合にのみ入力されます。result は次のいずれかになります。 |
|
goldenResult |
出力専用。ゴールデン評価の結果。 |
scenarioResult |
出力専用。シナリオ評価の結果。 |
GoldenResult
| JSON 表現 |
|---|
{ "turnReplayResults": [ { object ( |
| フィールド | |
|---|---|
turnReplayResults[] |
出力専用。ゴールデン会話の各ターンを実行した結果。 |
evaluationExpectationResults[] |
出力専用。評価の期待値の結果。 |
TurnReplayResult
| JSON 表現 |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| フィールド | |
|---|---|
conversation |
出力専用。このターンで生成された会話。 |
expectationOutcome[] |
出力専用。各期待値の結果。 |
hallucinationResult |
出力専用。ハルシネーション チェックの結果。 |
toolInvocationScore |
出力専用。非推奨。代わりに OverallToolInvocationResult を使用してください。 |
turnLatency |
出力専用。ターンの期間。
|
toolCallLatencies[] |
出力専用。ターンの各ツール呼び出しのレイテンシ。 |
semanticSimilarityResult |
出力専用。セマンティック類似性チェックの結果。 |
overallToolInvocationResult |
出力専用。ツール呼び出しの全体的なチェックの結果。 |
errorInfo |
出力専用。このターン中に発生したエラーに関する情報。 |
spanLatencies[] |
出力専用。ターンのスパンのレイテンシ。 |
共用体フィールド
|
|
toolOrderedInvocationScore |
出力専用。このターンのツール呼び出しの全体的な順序スコア。これは、期待されるターンで実際に呼び出されたツールの割合を、期待される順序で示します。 |
GoldenExpectationOutcome
| JSON 表現 |
|---|
{ "expectation": { object ( |
| フィールド | |
|---|---|
expectation |
出力専用。評価された期待値。 |
outcome |
出力専用。期待の結果。 |
semanticSimilarityResult |
出力専用。セマンティック類似性チェックの結果。 |
toolInvocationResult |
出力専用。ツール呼び出しチェックの結果。 |
共用体フィールド result。期待の結果。result は次のいずれかになります。 |
|
observedToolCall |
出力専用。ツール呼び出しの期待値の結果。 |
observedToolResponse |
出力専用。ツール レスポンスの期待値の結果。 |
observedAgentResponse |
出力専用。エージェントのレスポンスの期待値の結果。 |
observedAgentTransfer |
出力専用。エージェント転送の期待値の結果。 |
SemanticSimilarityResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 4: 完全に一貫している スコア 3: ほぼ一貫している スコア 2: 部分的に一貫している(軽微な欠落がある) スコア 1: ほぼ一貫していない(重大な欠落がある) スコア 0: 完全に一貫していない / 矛盾している |
explanation |
出力専用。意味的類似性スコアの説明。 |
outcome |
出力専用。意味的類似性チェックの結果。これは、スコアと semantic_similarity_success_threshold を比較して決定されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
共用体フィールド
|
|
score |
出力専用。意味的類似性スコア。0、1、2、3、4 のいずれかになります。 |
ToolInvocationResult
| JSON 表現 |
|---|
{ "outcome": enum ( |
| フィールド | |
|---|---|
outcome |
出力専用。ツール呼び出しチェックの結果。これは、parameter_correctness_score をしきい値と比較して判断されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
explanation |
出力専用。ツール呼び出し結果の自由形式の説明。 |
共用体フィールド
|
|
parameterCorrectnessScore |
出力専用。ツール呼び出しパラメータの正しさのスコア。これは、実際のツール呼び出しにも含まれていた、期待されるツール呼び出しのパラメータの割合を示します。 |
HallucinationResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: 正当なスコア 0: 正当でないスコア -1: 評価する申し立てなし |
explanation |
出力専用。ハルシネーション スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。ハルシネーション スコア。-1、0、1 のいずれかになります。 |
ToolCallLatency
| JSON 表現 |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。実行されたツールの名前。形式: |
displayName |
出力専用。ツールの表示名。 |
startTime |
出力専用。ツール呼び出しの実行の開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。ツール呼び出しの実行終了時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionLatency |
出力専用。ツール呼び出しの実行レイテンシ。
|
OverallToolInvocationResult
| JSON 表現 |
|---|
{ "outcome": enum ( |
| フィールド | |
|---|---|
outcome |
出力専用。ツール呼び出しチェックの結果。これは、tool_invocation_score と overall_tool_invocation_correctness_threshold を比較して決定されます。スコアがしきい値以上の場合、結果は合格になります。それ以外の場合、結果は FAIL になります。 |
共用体フィールド
|
|
toolInvocationScore |
このターンのツール呼び出しの全体的なスコア。これは、予測されたターンから実際に呼び出されたツールの全体的な割合を示します。 |
EvaluationErrorInfo
| JSON 表現 |
|---|
{
"errorType": enum ( |
| フィールド | |
|---|---|
errorType |
出力専用。エラーのタイプ。 |
errorMessage |
出力専用。エラー メッセージ。 |
sessionId |
出力専用。エラーの原因となった会話のセッション ID。 |
SpanLatency
| JSON 表現 |
|---|
{ "type": enum ( |
| フィールド | |
|---|---|
type |
出力専用。スパンのタイプ。 |
displayName |
出力専用。スパンの表示名。ツールとガードレールのスパンに適用されます。 |
startTime |
出力専用。スパンの開始時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
endTime |
出力専用。スパンの終了時間。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
executionLatency |
出力専用。スパンのレイテンシ。
|
共用体フィールド identifier。タイプに基づく特定のアイテムの識別子。identifier は次のいずれかになります。 |
|
resource |
出力専用。ガードレールまたはツールのスパンのリソース名。 |
toolset |
出力専用。ツールセット ツールの識別子。 |
model |
出力専用。LLM スパンの名前。 |
callback |
出力専用。ユーザー コールバック スパンの名前。 |
EvaluationExpectationResult
| JSON 表現 |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| フィールド | |
|---|---|
evaluationExpectation |
出力専用。評価の期待値。形式: |
prompt |
出力専用。評価に使用されたプロンプト。 |
outcome |
出力専用。評価の期待値の結果。 |
explanation |
出力専用。結果の説明。 |
ScenarioResult
| JSON 表現 |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| フィールド | |
|---|---|
conversation |
出力専用。シナリオで生成された会話。 |
task |
出力専用。この結果のシナリオを実行したときに使用されたタスク。 |
userFacts[] |
出力専用。この結果のシナリオで使用されたユーザーの事実。 |
expectationOutcomes[] |
出力専用。各期待値の結果。 |
rubricOutcomes[] |
出力専用。ルーブリックの結果。 |
hallucinationResult[] |
出力専用。ハルシネーション チェックの結果。会話のターンごとに 1 つのハルシネーション結果が返されます。 |
taskCompletionResult |
出力専用。タスク完了チェックの結果。 |
toolCallLatencies[] |
出力専用。会話内の各ツール呼び出しの実行のレイテンシ。 |
userGoalSatisfactionResult |
出力専用。ユーザー目標の達成度チェックの結果。 |
spanLatencies[] |
出力専用。会話内のスパンのレイテンシ。 |
evaluationExpectationResults[] |
出力専用。評価の期待値の結果。 |
共用体フィールド
|
|
allExpectationsSatisfied |
出力専用。このターンですべての期待値が満たされたかどうか。 |
共用体フィールド
|
|
taskCompleted |
出力専用。このターンでタスクが完了したかどうか。これは、満たされたすべての期待、ハルシネーションの発生なし、ユーザーの目標達成度の複合です。 |
ScenarioExpectationOutcome
| JSON 表現 |
|---|
{ "expectation": { object ( |
| フィールド | |
|---|---|
expectation |
出力専用。評価された期待値。 |
outcome |
出力専用。ScenarioExpectation の結果。 |
共用体フィールド result。期待の結果。result は次のいずれかになります。 |
|
observedToolCall |
出力専用。観測されたツール呼び出し。 |
observedAgentResponse |
出力専用。観測されたエージェントのレスポンス。 |
ObservedToolCall
| JSON 表現 |
|---|
{ "toolCall": { object ( |
| フィールド | |
|---|---|
toolCall |
出力専用。観測されたツール呼び出し。 |
toolResponse |
出力専用。観測されたツールのレスポンス。 |
ScenarioRubricOutcome
| JSON 表現 |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| フィールド | |
|---|---|
rubric |
出力専用。会話の評価に使用されたルーブリック。 |
scoreExplanation |
出力専用。ルーブリックに対する評価者の回答。 |
共用体フィールド
|
|
score |
出力専用。ルーブリックに照らした会話のスコア。 |
TaskCompletionResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: タスク完了 スコア 0: タスク未完了 スコア -1: ユーザーの目標が未定義 |
explanation |
出力専用。タスク完了スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。タスクの完了スコア。-1、0、1 のいずれかになります。 |
UserGoalSatisfactionResult
| JSON 表現 |
|---|
{ "label": string, "explanation": string, // Union field |
| フィールド | |
|---|---|
label |
出力専用。各スコアに関連付けられたラベル。スコア 1: ユーザー タスクが完了したスコア 0: ユーザー タスクが完了しなかったスコア -1: ユーザー タスクが指定されていない |
explanation |
出力専用。ユーザー タスクの満足度スコアの説明。 |
共用体フィールド
|
|
score |
出力専用。ユーザー タスクの満足度スコア。-1、0、1 のいずれかになります。 |
EvaluationPersona
| JSON 表現 |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| フィールド | |
|---|---|
name |
必須。ペルソナの一意の識別子。形式: |
description |
省略可。ペルソナの説明。 |
displayName |
必須。ペルソナの表示名。アプリ内で一意。 |
personality |
必須。評価でどのように動作すべきかについてのエージェントへの指示。 |
speechConfig |
省略可。ペルソナの音声に関する構成(TTS 設定)。 |
SpeechConfig
| JSON 表現 |
|---|
{
"speakingRate": number,
"environment": enum ( |
| フィールド | |
|---|---|
speakingRate |
省略可。発話速度。1.0 が標準です。値が低いほど遅くなります(例: 0.8)、値が大きいほど高速になります(例: 1.5)。エージェントが早口の顧客にどのように対応するかをテストするのに便利です。 |
environment |
省略可。シミュレートされたオーディオ環境。 |
voiceId |
省略可。使用する特定の音声 ID/アクセント。例: 「en-US-Wavenet-D」、「en-GB-Standard-A」 |
ステータス
| JSON 表現 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| フィールド | |
|---|---|
code |
ステータス コード。 |
message |
デベロッパー向けのエラー メッセージ。英語で記述します。ユーザー向けのエラー メッセージは、ローカライズして |
details[] |
エラーの詳細を保持するメッセージのリスト。API が使用する共通のメッセージ タイプのセットがあります。 任意のデータ型のフィールドを含むオブジェクトであり、型を識別する URI を含むフィールド |
すべて
| JSON 表現 |
|---|
{ "typeUrl": string, "value": string } |
| フィールド | |
|---|---|
typeUrl |
スラッシュで終わる接頭辞と完全修飾型名で構成される URI 参照を使用して、シリアル化された Protobuf メッセージの型を識別します。 例: type.googleapis.com/google.protobuf.StringValue この文字列には 接頭辞は任意であり、Protobuf 実装では、最後の すべてのタイプ URL 文字列は、有効な URI 参照である必要があります。また、テキスト形式の場合、参照の内容は英数字、パーセント エンコードされたエスケープ、および次のセットの文字(外側のバッククォートを除く)
|
value |
type_url で記述された型の Protobuf シリアル化を保持します。 Base64 でエンコードされた文字列。 |
EvaluationMetricsThresholds
| JSON 表現 |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| フィールド | |
|---|---|
goldenEvaluationMetricsThresholds |
省略可。ゴールデン評価指標のしきい値。 |
hallucinationMetricBehavior |
省略可。非推奨: 代わりに、 |
goldenHallucinationMetricBehavior |
省略可。ゴールデン評価のハルシネーション指標の動作。 |
scenarioHallucinationMetricBehavior |
省略可。シナリオ評価のハルシネーション指標の動作。 |
GoldenEvaluationMetricsThresholds
| JSON 表現 |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| フィールド | |
|---|---|
turnLevelMetricsThresholds |
省略可。ターンレベルの指標のしきい値。 |
expectationLevelMetricsThresholds |
省略可。期待レベルの指標のしきい値。 |
toolMatchingSettings |
省略可。ツール マッチングの設定。余分なツール呼び出しとは、実行には存在するものの、ゴールデン エクスペクテーションのツール呼び出しと一致しないツール呼び出しのことです。 |
TurnLevelMetricsThresholds
| JSON 表現 |
|---|
{ "semanticSimilarityChannel": enum ( |
| フィールド | |
|---|---|
semanticSimilarityChannel |
省略可。評価に使用する意味的類似性チャネル。 |
共用体フィールド
|
|
semanticSimilaritySuccessThreshold |
省略可。意味的類似性の成功しきい値。0 ~ 4 の整数を指定してください。デフォルトは 3 以上です。 |
共用体フィールド
|
|
overallToolInvocationCorrectnessThreshold |
省略可。ツール呼び出しの全体的な正しさの成功しきい値。0 ~ 1 の浮動小数点数にする必要があります。デフォルトは 1.0 です。 |
ExpectationLevelMetricsThresholds
| JSON 表現 |
|---|
{ // Union field |
| フィールド | |
|---|---|
共用体フィールド
|
|
toolInvocationParameterCorrectnessThreshold |
省略可。個々のツール呼び出しパラメータの正しさの成功しきい値。0 ~ 1 の浮動小数点数にする必要があります。デフォルトは 1.0 です。 |
ToolMatchingSettings
| JSON 表現 |
|---|
{
"extraToolCallBehavior": enum ( |
| フィールド | |
|---|---|
extraToolCallBehavior |
省略可。追加のツール呼び出しの動作。デフォルトは FAIL です。 |
EvaluationConfig
| JSON 表現 |
|---|
{ "inputAudioConfig": { object ( |
| フィールド | |
|---|---|
inputAudioConfig |
省略可。入力音声の処理に関する構成。 |
outputAudioConfig |
省略可。出力音声の生成に関する構成。 |
evaluationChannel |
省略可。評価するチャネル。 |
toolCallBehaviour |
省略可。評価で実際のツール呼び出しを使用するか、フェイクツールを使用するかを指定します。 |
InputAudioConfig
| JSON 表現 |
|---|
{
"audioEncoding": enum ( |
| フィールド | |
|---|---|
audioEncoding |
必須。入力音声データのエンコード。 |
sampleRateHertz |
必須。入力音声データのサンプルレート(ヘルツ単位)。 |
noiseSuppressionLevel |
省略可。入力音声のノイズ抑制を有効にするかどうか。使用可能な値は、「low」、「moderate」、「high」、「very_high」です。 |
OutputAudioConfig
| JSON 表現 |
|---|
{
"audioEncoding": enum ( |
| フィールド | |
|---|---|
audioEncoding |
必須。出力音声データのエンコード。 |
sampleRateHertz |
必須。出力音声データのサンプリング レート(ヘルツ単位)。 |
ツールのアノテーション
破壊的ヒント: ❌ | べき等ヒント: ❌ | 読み取り専用ヒント: ❌ | オープン ワールド ヒント: ❌