ツール: create_evaluation_dataset
新しい評価データセットを作成します。
次のサンプルは、curl を使用して create_evaluation_dataset MCP ツールを呼び出す方法を示しています。
| Curl リクエスト |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "create_evaluation_dataset", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
入力スキーマ
EvaluationService.CreateEvaluationDataset のリクエスト メッセージです。
CreateEvaluationDatasetRequest
| JSON 表現 |
|---|
{
"parent": string,
"evaluationDatasetId": string,
"evaluationDataset": {
object ( |
| フィールド | |
|---|---|
parent |
必須。評価を作成するアプリ。形式: |
evaluationDatasetId |
省略可。評価データセットに使用する ID。評価データセットのリソース名の最終的なコンポーネントになります。指定しない場合、評価に一意の ID が自動的に割り当てられます。 |
evaluationDataset |
必須。作成する評価データセット。 |
EvaluationDataset
| JSON 表現 |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| フィールド | |
|---|---|
name |
ID。この評価データセットの固有識別子。形式: |
displayName |
必須。評価データセットのユーザー定義の表示名。アプリ内で一意。 |
evaluations[] |
省略可。このデータセットに含まれる評価。 |
createTime |
出力専用。評価データセットが作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
updateTime |
出力専用。評価データセットが最後に更新されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
etag |
出力専用。読み取り、変更、書き込みオペレーション中にオブジェクトが変更されていないことを確認するために使用される ETag。etag が空の場合、更新によって同時変更が上書きされます。 |
createdBy |
出力専用。評価データセットを作成したユーザー。 |
lastUpdatedBy |
出力専用。評価データセットを最後に更新したユーザー。 |
aggregatedMetrics |
出力専用。すべての実行にわたるこの評価データセットの集計指標。 |
タイムスタンプ
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
UNIX エポック 1970-01-01T00:00:00Z からの UTC 時刻の秒数を表します。-62135596800~253402300799 の範囲(両端を含む)にする必要があります(これは 0001-01-01T00:00:00Z~9999-12-31T23:59:59Z に対応します)。 |
nanos |
ナノ秒分解能による、秒の負ではない小数以下部分。このフィールドは、秒の代替ではなく、期間のナノ秒部分です。小数以下を含む負の秒の値は、時間を前方にカウントする負ではない nanos 値を持つ必要があります。0~999,999,999 にする必要があります(両端を含む)。 |
AggregatedMetrics
| JSON 表現 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| フィールド | |
|---|---|
metricsByAppVersion[] |
出力専用。アプリのバージョン ID でグループ化された集計指標。 |
MetricsByAppVersion
| JSON 表現 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
appVersionId |
出力専用。アプリのバージョン ID。 |
toolMetrics[] |
出力専用。このアプリ バージョン内の各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このアプリ バージョン内のセマンティック類似性の指標。 |
hallucinationMetrics[] |
出力専用。このアプリ バージョン内のハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このアプリ バージョン内のツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このアプリ バージョン内のターン レイテンシの指標。 |
passCount |
出力専用。評価に合格した回数。 |
failCount |
出力専用。評価が失敗した回数。 |
metricsByTurn[] |
出力専用。このアプリ バージョン内のターンごとに集計された指標。 |
ToolMetrics
| JSON 表現 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
passCount |
出力専用。ツールが合格した回数。 |
failCount |
出力専用。ツールが失敗した回数。 |
SemanticSimilarityMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均意味的類似性スコア(0 ~ 4)。 |
HallucinationMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均ハルシネーション スコア(0 ~ 1)。 |
ToolCallLatencyMetrics
| JSON 表現 |
|---|
{ "tool": string, "averageLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
averageLatency |
出力専用。ツール呼び出しの平均レイテンシ。
|
所要時間
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
期間の符号付き秒数。-315,576,000,000 ~+315,576,000,000 の範囲(両端を含む)にする必要があります。注: これらの境界は、60 秒/分 * 60 分/時間 * 24 時間/日 * 365.25 日/年 * 10,000 年から計算されます。 |
nanos |
期間のナノ秒分解能による、秒の符号付き小数以下部分。1 秒未満の期間は、0 の |
TurnLatencyMetrics
| JSON 表現 |
|---|
{ "averageLatency": string } |
| フィールド | |
|---|---|
averageLatency |
出力専用。ターンの平均レイテンシ。
|
MetricsByTurn
| JSON 表現 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
turnIndex |
出力専用。ターン インデックス(0 ベース)。 |
toolMetrics[] |
出力専用。このターンの各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このターンの意味的類似性の指標。 |
hallucinationMetrics[] |
出力専用。このターンのハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このターンのツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このターンのターン レイテンシの指標。 |
出力スキーマ
評価データセットは、共有タグに基づいてグループ化された一連の評価を表します。
EvaluationDataset
| JSON 表現 |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| フィールド | |
|---|---|
name |
ID。この評価データセットの固有識別子。形式: |
displayName |
必須。評価データセットのユーザー定義の表示名。アプリ内で一意。 |
evaluations[] |
省略可。このデータセットに含まれる評価。 |
createTime |
出力専用。評価データセットが作成されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
updateTime |
出力専用。評価データセットが最後に更新されたときのタイムスタンプ。 RFC 3339 を使用します。生成された出力は常に Z 正規化され、小数点以下は 0、3、6、または 9 桁になります。「Z」以外のオフセットも使用できます。例: |
etag |
出力専用。読み取り、変更、書き込みオペレーション中にオブジェクトが変更されていないことを確認するために使用される ETag。etag が空の場合、更新によって同時変更が上書きされます。 |
createdBy |
出力専用。評価データセットを作成したユーザー。 |
lastUpdatedBy |
出力専用。評価データセットを最後に更新したユーザー。 |
aggregatedMetrics |
出力専用。すべての実行にわたるこの評価データセットの集計指標。 |
タイムスタンプ
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
UNIX エポック 1970-01-01T00:00:00Z からの UTC 時刻の秒数を表します。-62135596800~253402300799 の範囲(両端を含む)にする必要があります(これは 0001-01-01T00:00:00Z~9999-12-31T23:59:59Z に対応します)。 |
nanos |
ナノ秒分解能による、秒の負ではない小数以下部分。このフィールドは、秒の代替ではなく、期間のナノ秒部分です。小数以下を含む負の秒の値は、時間を前方にカウントする負ではない nanos 値を持つ必要があります。0~999,999,999 にする必要があります(両端を含む)。 |
AggregatedMetrics
| JSON 表現 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| フィールド | |
|---|---|
metricsByAppVersion[] |
出力専用。アプリのバージョン ID でグループ化された集計指標。 |
MetricsByAppVersion
| JSON 表現 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
appVersionId |
出力専用。アプリのバージョン ID。 |
toolMetrics[] |
出力専用。このアプリ バージョン内の各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このアプリ バージョン内のセマンティック類似性の指標。 |
hallucinationMetrics[] |
出力専用。このアプリ バージョン内のハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このアプリ バージョン内のツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このアプリ バージョン内のターン レイテンシの指標。 |
passCount |
出力専用。評価に合格した回数。 |
failCount |
出力専用。評価が失敗した回数。 |
metricsByTurn[] |
出力専用。このアプリ バージョン内のターンごとに集計された指標。 |
ToolMetrics
| JSON 表現 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
passCount |
出力専用。ツールが合格した回数。 |
failCount |
出力専用。ツールが失敗した回数。 |
SemanticSimilarityMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均意味的類似性スコア(0 ~ 4)。 |
HallucinationMetrics
| JSON 表現 |
|---|
{ "score": number } |
| フィールド | |
|---|---|
score |
出力専用。平均ハルシネーション スコア(0 ~ 1)。 |
ToolCallLatencyMetrics
| JSON 表現 |
|---|
{ "tool": string, "averageLatency": string } |
| フィールド | |
|---|---|
tool |
出力専用。ツールの名前。 |
averageLatency |
出力専用。ツール呼び出しの平均レイテンシ。
|
所要時間
| JSON 表現 |
|---|
{ "seconds": string, "nanos": integer } |
| フィールド | |
|---|---|
seconds |
期間の符号付き秒数。-315,576,000,000 ~+315,576,000,000 の範囲(両端を含む)にする必要があります。注: これらの境界は、60 秒/分 * 60 分/時間 * 24 時間/日 * 365.25 日/年 * 10,000 年から計算されます。 |
nanos |
期間のナノ秒分解能による、秒の符号付き小数以下部分。1 秒未満の期間は、0 の |
TurnLatencyMetrics
| JSON 表現 |
|---|
{ "averageLatency": string } |
| フィールド | |
|---|---|
averageLatency |
出力専用。ターンの平均レイテンシ。
|
MetricsByTurn
| JSON 表現 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| フィールド | |
|---|---|
turnIndex |
出力専用。ターン インデックス(0 ベース)。 |
toolMetrics[] |
出力専用。このターンの各ツールの指標。 |
semanticSimilarityMetrics[] |
出力専用。このターンの意味的類似性の指標。 |
hallucinationMetrics[] |
出力専用。このターンのハルシネーションの指標。 |
toolCallLatencyMetrics[] |
出力専用。このターンのツール呼び出しレイテンシの指標。 |
turnLatencyMetrics[] |
出力専用。このターンのターン レイテンシの指標。 |
ツールのアノテーション
破壊的ヒント: ❌ | べき等ヒント: ❌ | 読み取り専用ヒント: ❌ | オープン ワールド ヒント: ❌