MCP Tools Reference: ces.googleapis.com

Alat: get_evaluation_result

Mendapatkan detail hasil evaluasi yang ditentukan.

Contoh berikut menunjukkan cara menggunakan curl untuk memanggil alat MCP get_evaluation_result.

Permintaan Curl
                  
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \
--header 'content-type: application/json' \
--header 'accept: application/json, text/event-stream' \
--data '{
  "method": "tools/call",
  "params": {
    "name": "get_evaluation_result",
    "arguments": {
      // provide these details according to the tool's MCP specification
    }
  },
  "jsonrpc": "2.0",
  "id": 1
}'
                

Skema Input

Pesan permintaan untuk EvaluationService.GetEvaluationResult.

GetEvaluationResultRequest

Representasi JSON
{
  "name": string
}
Kolom
name

string

Wajib. Nama resource hasil evaluasi yang akan diambil.

Skema Output

Hasil evaluasi menampilkan output dari menjalankan Evaluasi.

EvaluationResult

Representasi JSON
{
  "name": string,
  "displayName": string,
  "createTime": string,
  "evaluationStatus": enum (Outcome),
  "evaluationRun": string,
  "persona": {
    object (EvaluationPersona)
  },
  "errorInfo": {
    object (EvaluationErrorInfo)
  },
  "error": {
    object (Status)
  },
  "initiatedBy": string,
  "appVersion": string,
  "appVersionDisplayName": string,
  "changelog": string,
  "changelogCreateTime": string,
  "executionState": enum (ExecutionState),
  "evaluationMetricsThresholds": {
    object (EvaluationMetricsThresholds)
  },
  "config": {
    object (EvaluationConfig)
  },
  "goldenRunMethod": enum (GoldenRunMethod),

  // Union field result can be only one of the following:
  "goldenResult": {
    object (GoldenResult)
  },
  "scenarioResult": {
    object (ScenarioResult)
  }
  // End of list of possible types for union field result.
}
Kolom
name

string

ID. ID unik hasil evaluasi. Format: projects/{project}/locations/{location}/apps/{app}/evaluations/{evaluation}/results/{result}

displayName

string

Wajib. Nama tampilan Hasil Evaluasi. Unik dalam Evaluasi. Secara default, formatnya adalah: " hasil - ".

createTime

string (Timestamp format)

Hanya output. Stempel waktu saat hasil evaluasi dibuat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

evaluationStatus

enum (Outcome)

Hanya output. Hasil evaluasi. Hanya diisi jika execution_state adalah COMPLETE.

evaluationRun

string

Hanya output. Jalannya evaluasi yang menghasilkan hasil ini. Format: projects/{project}/locations/{location}/apps/{app}/evaluationRuns/{evaluationRun}

persona

object (EvaluationPersona)

Hanya output. Persona yang digunakan untuk membuat percakapan untuk hasil evaluasi.

errorInfo

object (EvaluationErrorInfo)

Hanya output. Informasi error untuk hasil evaluasi.

error
(deprecated)

object (Status)

Hanya output. Tidak digunakan lagi: Gunakan error_info sebagai gantinya. Terjadi error selama eksekusi.

initiatedBy

string

Hanya output. Pengguna yang memulai proses evaluasi yang menghasilkan hasil ini.

appVersion

string

Hanya output. Versi aplikasi yang digunakan untuk membuat percakapan yang menghasilkan hasil ini. Format: projects/{project}/locations/{location}/apps/{app}/versions/{version}

appVersionDisplayName

string

Hanya output. Nama tampilan app_version yang digunakan untuk menjalankan evaluasi.

changelog

string

Hanya output. Log perubahan versi aplikasi yang digunakan untuk menjalankan evaluasi. Kolom ini diisi jika pengguna menjalankan evaluasi pada versi terbaru/draf.

changelogCreateTime

string (Timestamp format)

Hanya output. Waktu pembuatan log perubahan versi aplikasi yang digunakan untuk menjalankan evaluasi. Kolom ini diisi jika pengguna menjalankan evaluasi pada versi terbaru/draf.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

executionState

enum (ExecutionState)

Hanya output. Status eksekusi hasil evaluasi.

evaluationMetricsThresholds

object (EvaluationMetricsThresholds)

Hanya output. Nilai minimum evaluasi untuk hasil.

config

object (EvaluationConfig)

Hanya output. Konfigurasi yang digunakan dalam proses evaluasi yang menghasilkan hasil ini.

goldenRunMethod

enum (GoldenRunMethod)

Hanya output. Metode yang digunakan untuk menjalankan evaluasi standar.

Kolom union result. Hasil evaluasi. Hanya diisi jika execution_state adalah COMPLETED. result hanya ada berupa salah satu diantara berikut:
goldenResult

object (GoldenResult)

Hanya output. Hasil evaluasi emas.

scenarioResult

object (ScenarioResult)

Hanya output. Hasil evaluasi skenario.

GoldenResult

Representasi JSON
{
  "turnReplayResults": [
    {
      object (TurnReplayResult)
    }
  ],
  "evaluationExpectationResults": [
    {
      object (EvaluationExpectationResult)
    }
  ]
}
Kolom
turnReplayResults[]

object (TurnReplayResult)

Hanya output. Hasil menjalankan setiap giliran percakapan emas.

evaluationExpectationResults[]

object (EvaluationExpectationResult)

Hanya output. Hasil ekspektasi evaluasi.

TurnReplayResult

Representasi JSON
{
  "conversation": string,
  "expectationOutcome": [
    {
      object (GoldenExpectationOutcome)
    }
  ],
  "hallucinationResult": {
    object (HallucinationResult)
  },
  "toolInvocationScore": number,
  "turnLatency": string,
  "toolCallLatencies": [
    {
      object (ToolCallLatency)
    }
  ],
  "semanticSimilarityResult": {
    object (SemanticSimilarityResult)
  },
  "overallToolInvocationResult": {
    object (OverallToolInvocationResult)
  },
  "errorInfo": {
    object (EvaluationErrorInfo)
  },
  "spanLatencies": [
    {
      object (SpanLatency)
    }
  ],

  // Union field _tool_ordered_invocation_score can be only one of the following:
  "toolOrderedInvocationScore": number
  // End of list of possible types for union field
  // _tool_ordered_invocation_score.
}
Kolom
conversation

string

Hanya output. Percakapan yang dibuat untuk giliran ini.

expectationOutcome[]

object (GoldenExpectationOutcome)

Hanya output. Hasil dari setiap ekspektasi.

hallucinationResult

object (HallucinationResult)

Hanya output. Hasil pemeriksaan halusinasi.

toolInvocationScore
(deprecated)

number

Hanya output. Tidak digunakan lagi. Gunakan OverallToolInvocationResult sebagai gantinya.

turnLatency

string (Duration format)

Hanya output. Durasi giliran.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

toolCallLatencies[]

object (ToolCallLatency)

Hanya output. Latensi setiap panggilan alat secara bergiliran.

semanticSimilarityResult

object (SemanticSimilarityResult)

Hanya output. Hasil pemeriksaan kemiripan semantik.

overallToolInvocationResult

object (OverallToolInvocationResult)

Hanya output. Hasil pemeriksaan pemanggilan alat secara keseluruhan.

errorInfo

object (EvaluationErrorInfo)

Hanya output. Informasi tentang error yang terjadi selama giliran ini.

spanLatencies[]

object (SpanLatency)

Hanya output. Latensi rentang dalam giliran.

Kolom union _tool_ordered_invocation_score.

_tool_ordered_invocation_score hanya dapat berupa salah satu dari berikut:

toolOrderedInvocationScore

number

Hanya output. Skor pemanggilan alat keseluruhan yang diurutkan untuk giliran ini. Hal ini menunjukkan persentase keseluruhan alat dari belokan yang diharapkan yang benar-benar dipanggil dalam urutan yang diharapkan.

GoldenExpectationOutcome

Representasi JSON
{
  "expectation": {
    object (GoldenExpectation)
  },
  "outcome": enum (Outcome),
  "semanticSimilarityResult": {
    object (SemanticSimilarityResult)
  },
  "toolInvocationResult": {
    object (ToolInvocationResult)
  },

  // Union field result can be only one of the following:
  "observedToolCall": {
    object (ToolCall)
  },
  "observedToolResponse": {
    object (ToolResponse)
  },
  "observedAgentResponse": {
    object (Message)
  },
  "observedAgentTransfer": {
    object (AgentTransfer)
  }
  // End of list of possible types for union field result.
}
Kolom
expectation

object (GoldenExpectation)

Hanya output. Ekspektasi yang dievaluasi.

outcome

enum (Outcome)

Hanya output. Hasil dari ekspektasi.

semanticSimilarityResult
(deprecated)

object (SemanticSimilarityResult)

Hanya output. Hasil pemeriksaan kemiripan semantik.

toolInvocationResult

object (ToolInvocationResult)

Hanya output. Hasil pemeriksaan pemanggilan alat.

Kolom union result. Hasil ekspektasi. result hanya ada berupa salah satu diantara berikut:
observedToolCall

object (ToolCall)

Hanya output. Hasil ekspektasi panggilan alat.

observedToolResponse

object (ToolResponse)

Hanya output. Hasil ekspektasi respons alat.

observedAgentResponse

object (Message)

Hanya output. Hasil ekspektasi respons agen.

observedAgentTransfer

object (AgentTransfer)

Hanya output. Hasil ekspektasi transfer agen.

ToolCall

Representasi JSON
{
  "id": string,
  "displayName": string,
  "args": {
    object
  },

  // Union field tool_identifier can be only one of the following:
  "tool": string,
  "toolsetTool": {
    object (ToolsetTool)
  }
  // End of list of possible types for union field tool_identifier.
}
Kolom
id

string

Opsional. ID unik panggilan alat. Jika diisi, klien harus menampilkan hasil eksekusi dengan ID yang cocok di ToolResponse.

displayName

string

Hanya output. Nama tampilan alat.

args

object (Struct format)

Opsional. Parameter dan nilai input untuk alat dalam format objek JSON.

Kolom union tool_identifier. ID alat yang akan dieksekusi. Alat ini bisa berupa alat yang tetap ada atau alat dari toolset. tool_identifier hanya ada berupa salah satu diantara berikut:
tool

string

Opsional. Nama alat yang akan dieksekusi. Format: projects/{project}/locations/{location}/apps/{app}/tools/{tool}

toolsetTool

object (ToolsetTool)

Opsional. Alat toolset yang akan dieksekusi.

ToolsetTool

Representasi JSON
{
  "toolset": string,
  "toolId": string
}
Kolom
toolset

string

Wajib. Nama resource Toolset dari mana alat ini berasal. Format: projects/{project}/locations/{location}/apps/{app}/toolsets/{toolset}

toolId

string

Opsional. ID alat untuk memfilter alat guna mengambil skemanya.

Struct

Representasi JSON
{
  "fields": {
    string: value,
    ...
  }
}
Kolom
fields

map (key: string, value: value (Value format))

Peta tidak berurutan dari nilai yang diketik secara dinamis.

Objek yang berisi daftar pasangan "key": value. Contoh: { "name": "wrench", "mass": "1.3kg", "count": "3" }.

FieldsEntry

Representasi JSON
{
  "key": string,
  "value": value
}
Kolom
key

string

value

value (Value format)

Nilai

Representasi JSON
{

  // Union field kind can be only one of the following:
  "nullValue": null,
  "numberValue": number,
  "stringValue": string,
  "boolValue": boolean,
  "structValue": {
    object
  },
  "listValue": array
  // End of list of possible types for union field kind.
}
Kolom
Kolom union kind. Jenis nilai. kind hanya ada berupa salah satu diantara berikut:
nullValue

null

Mewakili nilai null.

numberValue

number

Mewakili nilai ganda.

stringValue

string

Mewakili nilai string.

boolValue

boolean

Mewakili nilai boolean.

structValue

object (Struct format)

Mewakili nilai terstruktur.

listValue

array (ListValue format)

Merepresentasikan Value yang berulang.

ListValue

Representasi JSON
{
  "values": [
    value
  ]
}
Kolom
values[]

value (Value format)

Kolom berulang dari nilai yang diketik secara dinamis.

ToolResponse

Representasi JSON
{
  "id": string,
  "displayName": string,
  "response": {
    object
  },

  // Union field tool_identifier can be only one of the following:
  "tool": string,
  "toolsetTool": {
    object (ToolsetTool)
  }
  // End of list of possible types for union field tool_identifier.
}
Kolom
id

string

Opsional. ID yang cocok dengan tool call yang menjadi tujuan respons.

displayName

string

Hanya output. Nama tampilan alat.

response

object (Struct format)

Wajib. Hasil eksekusi alat dalam format objek JSON. Gunakan kunci "output" untuk menentukan respons alat dan kunci "error" untuk menentukan detail error (jika ada). Jika kunci "output" dan "error" tidak ditentukan, seluruh "respons" akan diperlakukan sebagai hasil eksekusi alat.

Kolom union tool_identifier. ID alat yang dieksekusi. Alat ini bisa berupa alat yang tetap ada atau alat dari toolset. tool_identifier hanya ada berupa salah satu diantara berikut:
tool

string

Opsional. Nama alat yang akan dieksekusi. Format: projects/{project}/locations/{location}/apps/{app}/tools/{tool}

toolsetTool

object (ToolsetTool)

Opsional. Alat toolset yang dieksekusi.

Pesan

Representasi JSON
{
  "role": string,
  "chunks": [
    {
      object (Chunk)
    }
  ],
  "eventTime": string
}
Kolom
role

string

Opsional. Peran dalam percakapan, misalnya, pengguna, agen.

chunks[]

object (Chunk)

Opsional. Konten pesan sebagai serangkaian bagian.

eventTime

string (Timestamp format)

Opsional. Stempel waktu saat pesan dikirim atau diterima. Tidak boleh digunakan jika pesan adalah bagian dari example.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

Chunk

Representasi JSON
{

  // Union field data can be only one of the following:
  "text": string,
  "transcript": string,
  "blob": {
    object (Blob)
  },
  "payload": {
    object
  },
  "image": {
    object (Image)
  },
  "toolCall": {
    object (ToolCall)
  },
  "toolResponse": {
    object (ToolResponse)
  },
  "agentTransfer": {
    object (AgentTransfer)
  },
  "updatedVariables": {
    object
  },
  "defaultVariables": {
    object
  }
  // End of list of possible types for union field data.
}
Kolom
Kolom union data. Data chunk. data hanya ada berupa salah satu diantara berikut:
text

string

Opsional. Data teks.

transcript

string

Opsional. Transkrip yang terkait dengan audio.

blob

object (Blob)

Opsional. Data blob.

payload

object (Struct format)

Opsional. Data payload kustom.

image

object (Image)

Opsional. Data gambar.

toolCall

object (ToolCall)

Opsional. Permintaan eksekusi alat.

toolResponse

object (ToolResponse)

Opsional. Respons eksekusi alat.

agentTransfer

object (AgentTransfer)

Opsional. Acara transfer agen.

updatedVariables

object (Struct format)

Struct merepresentasikan variabel yang diperbarui dalam percakapan, yang dikelompokkan berdasarkan nama variabel.

defaultVariables

object (Struct format)

Struct merepresentasikan variabel default di awal percakapan, yang dikelompokkan berdasarkan nama variabel.

Blob

Representasi JSON
{
  "mimeType": string,
  "data": string
}
Kolom
mimeType

string

Wajib. Jenis MIME standar IANA dari data sumber.

data

string (bytes format)

Wajib. Byte mentah blob.

String berenkode base64.

Gambar

Representasi JSON
{
  "mimeType": string,
  "data": string
}
Kolom
mimeType

string

Wajib. Jenis MIME standar IANA dari data sumber. Jenis gambar yang didukung meliputi: * image/png * image/jpeg * image/webp

data

string (bytes format)

Wajib. Byte mentah gambar.

String berenkode base64.

AgentTransfer

Representasi JSON
{
  "targetAgent": string,
  "displayName": string
}
Kolom
targetAgent

string

Wajib. Agen yang akan menerima pengalihan percakapan. Agen akan menangani percakapan mulai dari saat ini. Format: projects/{project}/locations/{location}/apps/{app}/agents/{agent}

displayName

string

Hanya output. Nama tampilan agen.

Stempel waktu

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z).

nanos

integer

Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif.

GoldenExpectation

Representasi JSON
{
  "note": string,

  // Union field condition can be only one of the following:
  "toolCall": {
    object (ToolCall)
  },
  "toolResponse": {
    object (ToolResponse)
  },
  "agentResponse": {
    object (Message)
  },
  "agentTransfer": {
    object (AgentTransfer)
  },
  "updatedVariables": {
    object
  },
  "mockToolResponse": {
    object (ToolResponse)
  }
  // End of list of possible types for union field condition.
}
Kolom
note

string

Opsional. Catatan untuk persyaratan ini, berguna dalam pelaporan saat pemeriksaan tertentu gagal. Misalnya, "Check_Payment_Tool_Called".

Kolom union condition. Pemeriksaan sebenarnya yang akan dilakukan. condition hanya ada berupa salah satu diantara berikut:
toolCall

object (ToolCall)

Opsional. Periksa apakah alat tertentu dipanggil dengan parameter.

toolResponse

object (ToolResponse)

Opsional. Periksa apakah alat tertentu memberikan respons yang diharapkan.

agentResponse

object (Message)

Opsional. Periksa apakah agen merespons dengan respons yang benar. Peran "agen" tersirat.

agentTransfer

object (AgentTransfer)

Opsional. Periksa apakah agen mengalihkan percakapan ke agen lain.

updatedVariables

object (Struct format)

Opsional. Periksa apakah agen memperbarui variabel sesi ke nilai yang diharapkan. Juga digunakan untuk merekam pembaruan variabel agen untuk evaluasi emas.

mockToolResponse

object (ToolResponse)

Opsional. Respons alat untuk meniru, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM.

SemanticSimilarityResult

Representasi JSON
{
  "label": string,
  "explanation": string,
  "outcome": enum (Outcome),

  // Union field _score can be only one of the following:
  "score": integer
  // End of list of possible types for union field _score.
}
Kolom
label

string

Hanya output. Label yang terkait dengan setiap skor. Skor 4: Sepenuhnya Konsisten Skor 3: Sebagian Besar Konsisten Skor 2: Sebagian Konsisten (Kekurangan Kecil) Skor 1: Sebagian Besar Tidak Konsisten (Kekurangan Besar) Skor 0: Sepenuhnya Tidak Konsisten / Bertentangan

explanation

string

Hanya output. Penjelasan untuk skor kemiripan semantik.

outcome

enum (Outcome)

Hanya output. Hasil pemeriksaan kemiripan semantik. Hal ini ditentukan dengan membandingkan skor dengan semantic_similarity_success_threshold. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL.

Kolom union _score.

_score hanya dapat berupa salah satu dari berikut:

score

integer

Hanya output. Skor kemiripan semantik. Dapat berupa 0, 1, 2, 3, atau 4.

ToolInvocationResult

Representasi JSON
{
  "outcome": enum (Outcome),
  "explanation": string,

  // Union field _parameter_correctness_score can be only one of the following:
  "parameterCorrectnessScore": number
  // End of list of possible types for union field _parameter_correctness_score.
}
Kolom
outcome

enum (Outcome)

Hanya output. Hasil pemeriksaan pemanggilan alat. Hal ini ditentukan dengan membandingkan parameter_correctness_score dengan nilai minimum. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL.

explanation

string

Hanya output. Penjelasan teks bebas untuk hasil pemanggilan alat.

Kolom union _parameter_correctness_score.

_parameter_correctness_score hanya dapat berupa salah satu dari berikut:

parameterCorrectnessScore

number

Hanya output. Skor kebenaran parameter pemanggilan alat. Ini menunjukkan persentase parameter dari panggilan alat yang diharapkan yang juga ada dalam panggilan alat sebenarnya.

HallucinationResult

Representasi JSON
{
  "label": string,
  "explanation": string,

  // Union field _score can be only one of the following:
  "score": integer
  // End of list of possible types for union field _score.
}
Kolom
label

string

Hanya output. Label yang terkait dengan setiap skor. Skor 1: Dibenarkan Skor 0: Tidak Dibenarkan Skor -1: Tidak Ada Klaim untuk Dinilai

explanation

string

Hanya output. Penjelasan untuk skor halusinasi.

Kolom union _score.

_score hanya dapat berupa salah satu dari berikut:

score

integer

Hanya output. Skor halusinasi. Dapat berupa -1, 0, 1.

Durasi

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn

nanos

integer

Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom seconds 0 dan kolom nanos positif atau negatif. Untuk durasi satu detik atau lebih, nilai non-nol untuk kolom nanos harus memiliki tanda yang sama dengan kolom seconds. Harus dari -999.999.999 hingga +999.999.999 inklusif.

ToolCallLatency

Representasi JSON
{
  "tool": string,
  "displayName": string,
  "startTime": string,
  "endTime": string,
  "executionLatency": string
}
Kolom
tool

string

Hanya output. Nama alat yang dieksekusi. Format: projects/{project}/locations/{location}/apps/{app}/tools/{tool}.

displayName

string

Hanya output. Nama tampilan alat.

startTime

string (Timestamp format)

Hanya output. Waktu mulai eksekusi panggilan alat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

endTime

string (Timestamp format)

Hanya output. Waktu berakhir eksekusi panggilan alat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

executionLatency

string (Duration format)

Hanya output. Latensi eksekusi panggilan alat.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

OverallToolInvocationResult

Representasi JSON
{
  "outcome": enum (Outcome),

  // Union field _tool_invocation_score can be only one of the following:
  "toolInvocationScore": number
  // End of list of possible types for union field _tool_invocation_score.
}
Kolom
outcome

enum (Outcome)

Hanya output. Hasil pemeriksaan pemanggilan alat. Hal ini ditentukan dengan membandingkan tool_invocation_score dengan overall_tool_invocation_correctness_threshold. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL.

Kolom union _tool_invocation_score.

_tool_invocation_score hanya dapat berupa salah satu dari berikut:

toolInvocationScore

number

Skor pemanggilan alat keseluruhan untuk giliran ini. Hal ini menunjukkan persentase keseluruhan alat dari belokan yang diharapkan yang benar-benar dipanggil.

EvaluationErrorInfo

Representasi JSON
{
  "errorType": enum (ErrorType),
  "errorMessage": string,
  "sessionId": string
}
Kolom
errorType

enum (ErrorType)

Hanya output. Jenis error.

errorMessage

string

Hanya output. Pesan error.

sessionId

string

Hanya output. ID sesi untuk percakapan yang menyebabkan error.

SpanLatency

Representasi JSON
{
  "type": enum (Type),
  "displayName": string,
  "startTime": string,
  "endTime": string,
  "executionLatency": string,

  // Union field identifier can be only one of the following:
  "resource": string,
  "toolset": {
    object (ToolsetTool)
  },
  "model": string,
  "callback": string
  // End of list of possible types for union field identifier.
}
Kolom
type

enum (Type)

Hanya output. Jenis rentang.

displayName

string

Hanya output. Nama tampilan rentang. Berlaku untuk rentang alat dan pengamanan.

startTime

string (Timestamp format)

Hanya output. Waktu mulai rentang.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

endTime

string (Timestamp format)

Hanya output. Waktu berakhir rentang.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

executionLatency

string (Duration format)

Hanya output. Latensi rentang.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

Kolom union identifier. ID item tertentu berdasarkan jenisnya. identifier hanya ada berupa salah satu diantara berikut:
resource

string

Hanya output. Nama resource rentang alat atau batas aman.

toolset

object (ToolsetTool)

Hanya output. ID alat toolset.

model

string

Hanya output. Nama rentang LLM.

callback

string

Hanya output. Nama rentang callback pengguna.

EvaluationExpectationResult

Representasi JSON
{
  "evaluationExpectation": string,
  "prompt": string,
  "outcome": enum (Outcome),
  "explanation": string
}
Kolom
evaluationExpectation

string

Hanya output. Ekspektasi evaluasi. Format: projects/{project}/locations/{location}/apps/{app}/evaluationExpectations/{evaluation_expectation}

prompt

string

Hanya output. Perintah yang digunakan untuk evaluasi.

outcome

enum (Outcome)

Hanya output. Hasil ekspektasi evaluasi.

explanation

string

Hanya output. Penjelasan untuk hasil.

ScenarioResult

Representasi JSON
{
  "conversation": string,
  "task": string,
  "userFacts": [
    {
      object (UserFact)
    }
  ],
  "expectationOutcomes": [
    {
      object (ScenarioExpectationOutcome)
    }
  ],
  "rubricOutcomes": [
    {
      object (ScenarioRubricOutcome)
    }
  ],
  "hallucinationResult": [
    {
      object (HallucinationResult)
    }
  ],
  "taskCompletionResult": {
    object (TaskCompletionResult)
  },
  "toolCallLatencies": [
    {
      object (ToolCallLatency)
    }
  ],
  "userGoalSatisfactionResult": {
    object (UserGoalSatisfactionResult)
  },
  "spanLatencies": [
    {
      object (SpanLatency)
    }
  ],
  "evaluationExpectationResults": [
    {
      object (EvaluationExpectationResult)
    }
  ],

  // Union field _all_expectations_satisfied can be only one of the following:
  "allExpectationsSatisfied": boolean
  // End of list of possible types for union field _all_expectations_satisfied.

  // Union field _task_completed can be only one of the following:
  "taskCompleted": boolean
  // End of list of possible types for union field _task_completed.
}
Kolom
conversation

string

Hanya output. Percakapan yang dihasilkan dalam skenario.

task

string

Hanya output. Tugas yang digunakan saat menjalankan skenario untuk hasil ini.

userFacts[]

object (UserFact)

Hanya output. Fakta pengguna yang digunakan oleh skenario untuk hasil ini.

expectationOutcomes[]

object (ScenarioExpectationOutcome)

Hanya output. Hasil dari setiap ekspektasi.

rubricOutcomes[]

object (ScenarioRubricOutcome)

Hanya output. Hasil rubrik.

hallucinationResult[]

object (HallucinationResult)

Hanya output. Hasil pemeriksaan halusinasi. Akan ada satu hasil halusinasi untuk setiap giliran dalam percakapan.

taskCompletionResult
(deprecated)

object (TaskCompletionResult)

Hanya output. Hasil pemeriksaan penyelesaian tugas.

toolCallLatencies[]

object (ToolCallLatency)

Hanya output. Latensi setiap eksekusi panggilan alat dalam percakapan.

userGoalSatisfactionResult

object (UserGoalSatisfactionResult)

Hanya output. Hasil pemeriksaan kepuasan tujuan pengguna.

spanLatencies[]

object (SpanLatency)

Hanya output. Latensi rentang dalam percakapan.

evaluationExpectationResults[]

object (EvaluationExpectationResult)

Hanya output. Hasil ekspektasi evaluasi.

Kolom union _all_expectations_satisfied.

_all_expectations_satisfied hanya dapat berupa salah satu dari berikut:

allExpectationsSatisfied

boolean

Hanya output. Apakah semua ekspektasi terpenuhi untuk giliran ini.

Kolom union _task_completed.

_task_completed hanya dapat berupa salah satu dari berikut:

taskCompleted

boolean

Hanya output. Apakah tugas telah diselesaikan untuk giliran ini. Ini adalah gabungan dari semua ekspektasi yang terpenuhi, tidak ada halusinasi, dan kepuasan tujuan pengguna.

UserFact

Representasi JSON
{
  "name": string,
  "value": string
}
Kolom
name

string

Wajib. Nama fakta pengguna.

value

string

Wajib. Nilai fakta pengguna.

ScenarioExpectationOutcome

Representasi JSON
{
  "expectation": {
    object (ScenarioExpectation)
  },
  "outcome": enum (Outcome),

  // Union field result can be only one of the following:
  "observedToolCall": {
    object (ObservedToolCall)
  },
  "observedAgentResponse": {
    object (Message)
  }
  // End of list of possible types for union field result.
}
Kolom
expectation

object (ScenarioExpectation)

Hanya output. Ekspektasi yang dievaluasi.

outcome

enum (Outcome)

Hanya output. Hasil ScenarioExpectation.

Kolom union result. Hasil ekspektasi. result hanya ada berupa salah satu diantara berikut:
observedToolCall

object (ObservedToolCall)

Hanya output. Panggilan alat yang diamati.

observedAgentResponse

object (Message)

Hanya output. Respons agen yang diamati.

ObservedToolCall

Representasi JSON
{
  "toolCall": {
    object (ToolCall)
  },
  "toolResponse": {
    object (ToolResponse)
  }
}
Kolom
toolCall

object (ToolCall)

Hanya output. Panggilan alat yang diamati.

toolResponse

object (ToolResponse)

Hanya output. Respons alat yang diamati.

ScenarioExpectation

Representasi JSON
{

  // Union field expectation can be only one of the following:
  "toolExpectation": {
    object (ToolExpectation)
  },
  "agentResponse": {
    object (Message)
  }
  // End of list of possible types for union field expectation.
}
Kolom
Kolom union expectation. Ekspektasi untuk mengevaluasi percakapan yang dihasilkan oleh simulasi. expectation hanya ada berupa salah satu diantara berikut:
toolExpectation

object (ToolExpectation)

Opsional. Pasangan panggilan dan respons alat yang akan dievaluasi.

agentResponse

object (Message)

Opsional. Respons agen yang akan dievaluasi.

ToolExpectation

Representasi JSON
{
  "expectedToolCall": {
    object (ToolCall)
  },
  "mockToolResponse": {
    object (ToolResponse)
  }
}
Kolom
expectedToolCall

object (ToolCall)

Wajib. Panggilan alat yang diharapkan, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM.

mockToolResponse

object (ToolResponse)

Wajib. Respons alat untuk meniru, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM.

ScenarioRubricOutcome

Representasi JSON
{
  "rubric": string,
  "scoreExplanation": string,

  // Union field _score can be only one of the following:
  "score": number
  // End of list of possible types for union field _score.
}
Kolom
rubric

string

Hanya output. Rubrik yang digunakan untuk mengevaluasi percakapan.

scoreExplanation

string

Hanya output. Respons pemberi rating terhadap rubrik.

Kolom union _score.

_score hanya dapat berupa salah satu dari berikut:

score

number

Hanya output. Skor percakapan berdasarkan rubrik.

TaskCompletionResult

Representasi JSON
{
  "label": string,
  "explanation": string,

  // Union field _score can be only one of the following:
  "score": integer
  // End of list of possible types for union field _score.
}
Kolom
label

string

Hanya output. Label yang terkait dengan setiap skor. Skor 1: Tugas Selesai Skor 0: Tugas Tidak Selesai Skor -1: Sasaran Pengguna Tidak Ditentukan

explanation

string

Hanya output. Penjelasan untuk skor penyelesaian tugas.

Kolom union _score.

_score hanya dapat berupa salah satu dari berikut:

score

integer

Hanya output. Skor penyelesaian tugas. Dapat berupa -1, 0, 1

UserGoalSatisfactionResult

Representasi JSON
{
  "label": string,
  "explanation": string,

  // Union field _score can be only one of the following:
  "score": integer
  // End of list of possible types for union field _score.
}
Kolom
label

string

Hanya output. Label yang terkait dengan setiap skor. Skor 1: Tugas Pengguna Selesai Skor 0: Tugas Pengguna Tidak Selesai Skor -1: Tugas Pengguna Tidak Ditentukan

explanation

string

Hanya output. Penjelasan untuk skor kepuasan tugas pengguna.

Kolom union _score.

_score hanya dapat berupa salah satu dari berikut:

score

integer

Hanya output. Skor kepuasan tugas pengguna. Dapat berupa -1, 0, 1.

EvaluationPersona

Representasi JSON
{
  "name": string,
  "description": string,
  "displayName": string,
  "personality": string,
  "speechConfig": {
    object (SpeechConfig)
  }
}
Kolom
name

string

Wajib. ID unik persona. Format: projects/{project}/locations/{location}/apps/{app}/evaluationPersonas/{evaluationPersona}

description

string

Opsional. Deskripsi persona.

displayName

string

Wajib. Nama tampilan persona. Unik dalam aplikasi.

personality

string

Wajib. Petunjuk bagi agen tentang cara berperilaku dalam evaluasi.

speechConfig

object (SpeechConfig)

Opsional. Konfigurasi untuk suara persona (setelan TTS).

SpeechConfig

Representasi JSON
{
  "speakingRate": number,
  "environment": enum (BackgroundEnvironment),
  "voiceId": string
}
Kolom
speakingRate

number

Opsional. Kecepatan bicara. 1.0 adalah normal. Lebih rendah berarti lebih lambat (misalnya, 0,8), yang lebih tinggi lebih cepat (misalnya, 1.5). Berguna untuk menguji cara agen menangani orang yang berbicara cepat.

environment

enum (BackgroundEnvironment)

Opsional. Lingkungan audio simulasi.

voiceId

string

Opsional. ID/aksen suara tertentu yang akan digunakan. Contoh: "en-US-Wavenet-D" atau "en-GB-Standard-A"

Status

Representasi JSON
{
  "code": integer,
  "message": string,
  "details": [
    {
      "@type": string,
      field1: ...,
      ...
    }
  ]
}
Kolom
code

integer

Kode status, harus berupa nilai enum dari google.rpc.Code.

message

string

Pesan error yang ditampilkan ke developer dan seharusnya dalam bahasa Inggris. Setiap pesan error yang ditampilkan kepada pengguna harus dilokalkan dan dikirim di kolom google.rpc.Status.details, atau dilokalkan oleh klien.

details[]

object

Daftar pesan yang membawa detail error. Ada seperangkat jenis pesan umum untuk digunakan API.

Objek yang berisi kolom tipe arbitrer. Kolom tambahan "@type" berisi URI yang mengidentifikasi jenis. Contoh: { "id": 1234, "@type": "types.example.com/standard/id" }.

Semua

Representasi JSON
{
  "typeUrl": string,
  "value": string
}
Kolom
typeUrl

string

Mengidentifikasi jenis pesan Protobuf yang diserialkan dengan referensi URI yang terdiri dari awalan yang diakhiri dengan garis miring dan nama jenis yang sepenuhnya memenuhi syarat.

Contoh: type.googleapis.com/google.protobuf.StringValue

String ini harus berisi setidaknya satu karakter /, dan konten setelah / terakhir harus berupa nama yang sepenuhnya memenuhi syarat dari jenis dalam bentuk kanonis, tanpa titik di depannya. Jangan tulis skema pada referensi URI ini agar klien tidak mencoba menghubungi mereka.

Awalan bersifat arbitrer dan implementasi Protobuf diharapkan cukup menghapus semua yang ada hingga dan termasuk / terakhir untuk mengidentifikasi jenisnya. type.googleapis.com/ adalah awalan default umum yang diperlukan oleh beberapa penerapan lama. Awalan ini tidak menunjukkan asal jenis, dan URI yang memuatnya tidak diharapkan merespons permintaan apa pun.

Semua string URL jenis harus berupa referensi URI yang valid dengan batasan tambahan (untuk format teks) bahwa konten referensi hanya boleh terdiri dari karakter alfanumerik, escape yang dienkode persen, dan karakter dalam set berikut (tidak termasuk tanda petik terbalik luar): /-.~_!$&()*+,;=. Meskipun kami mengizinkan encoding persen, implementasi tidak boleh meng-unescape-nya untuk mencegah kebingungan dengan parser yang ada. Misalnya, type.googleapis.com%2FFoo harus ditolak.

Dalam desain asli Any, kemungkinan meluncurkan layanan penyelesaian jenis di URL jenis ini dipertimbangkan, tetapi Protobuf tidak pernah mengimplementasikannya dan menganggap menghubungi URL ini bermasalah dan berpotensi menjadi masalah keamanan. Jangan mencoba menghubungi URL jenis kontak.

value

string (bytes format)

Berisi serialisasi Protobuf dari jenis yang dijelaskan oleh type_url.

String berenkode base64.

EvaluationMetricsThresholds

Representasi JSON
{
  "goldenEvaluationMetricsThresholds": {
    object (GoldenEvaluationMetricsThresholds)
  },
  "hallucinationMetricBehavior": enum (HallucinationMetricBehavior),
  "goldenHallucinationMetricBehavior": enum (HallucinationMetricBehavior),
  "scenarioHallucinationMetricBehavior": enum (HallucinationMetricBehavior)
}
Kolom
goldenEvaluationMetricsThresholds

object (GoldenEvaluationMetricsThresholds)

Opsional. Nilai minimum metrik evaluasi emas.

hallucinationMetricBehavior
(deprecated)

enum (HallucinationMetricBehavior)

Opsional. Tidak digunakan lagi: Gunakan golden_hallucination_metric_behavior sebagai gantinya. Perilaku metrik halusinasi saat ini digunakan untuk evaluasi utama.

goldenHallucinationMetricBehavior

enum (HallucinationMetricBehavior)

Opsional. Perilaku metrik halusinasi untuk evaluasi tepercaya.

scenarioHallucinationMetricBehavior

enum (HallucinationMetricBehavior)

Opsional. Perilaku metrik halusinasi untuk evaluasi skenario.

GoldenEvaluationMetricsThresholds

Representasi JSON
{
  "turnLevelMetricsThresholds": {
    object (TurnLevelMetricsThresholds)
  },
  "expectationLevelMetricsThresholds": {
    object (ExpectationLevelMetricsThresholds)
  },
  "toolMatchingSettings": {
    object (ToolMatchingSettings)
  }
}
Kolom
turnLevelMetricsThresholds

object (TurnLevelMetricsThresholds)

Opsional. Nilai minimum metrik tingkat perputaran.

expectationLevelMetricsThresholds

object (ExpectationLevelMetricsThresholds)

Opsional. Nilai minimum metrik tingkat ekspektasi.

toolMatchingSettings

object (ToolMatchingSettings)

Opsional. Setelan pencocokan alat. Panggilan alat tambahan adalah panggilan alat yang ada dalam eksekusi, tetapi tidak cocok dengan panggilan alat apa pun dalam ekspektasi standar.

TurnLevelMetricsThresholds

Representasi JSON
{
  "semanticSimilarityChannel": enum (SemanticSimilarityChannel),

  // Union field _semantic_similarity_success_threshold can be only one of the
  // following:
  "semanticSimilaritySuccessThreshold": integer
  // End of list of possible types for union field
  // _semantic_similarity_success_threshold.

  // Union field _overall_tool_invocation_correctness_threshold can be only one
  // of the following:
  "overallToolInvocationCorrectnessThreshold": number
  // End of list of possible types for union field
  // _overall_tool_invocation_correctness_threshold.
}
Kolom
semanticSimilarityChannel

enum (SemanticSimilarityChannel)

Opsional. Saluran kemiripan semantik yang akan digunakan untuk evaluasi.

Kolom union _semantic_similarity_success_threshold.

_semantic_similarity_success_threshold hanya dapat berupa salah satu dari berikut:

semanticSimilaritySuccessThreshold

integer

Opsional. Ambang batas keberhasilan untuk kemiripan semantik. Harus berupa bilangan bulat antara 0 dan 4. Defaultnya adalah >= 3.

Kolom union _overall_tool_invocation_correctness_threshold.

_overall_tool_invocation_correctness_threshold hanya dapat berupa salah satu dari berikut:

overallToolInvocationCorrectnessThreshold

number

Opsional. Ambang batas keberhasilan untuk kebenaran pemanggilan alat secara keseluruhan. Harus berupa float antara 0 dan 1. Defaultnya adalah 1.0.

ExpectationLevelMetricsThresholds

Representasi JSON
{

  // Union field _tool_invocation_parameter_correctness_threshold can be only one
  // of the following:
  "toolInvocationParameterCorrectnessThreshold": number
  // End of list of possible types for union field
  // _tool_invocation_parameter_correctness_threshold.
}
Kolom

Kolom union _tool_invocation_parameter_correctness_threshold.

_tool_invocation_parameter_correctness_threshold hanya dapat berupa salah satu dari berikut:

toolInvocationParameterCorrectnessThreshold

number

Opsional. Ambang batas keberhasilan untuk kebenaran parameter pemanggilan alat individual. Harus berupa float antara 0 dan 1. Defaultnya adalah 1.0.

ToolMatchingSettings

Representasi JSON
{
  "extraToolCallBehavior": enum (ExtraToolCallBehavior)
}
Kolom
extraToolCallBehavior

enum (ExtraToolCallBehavior)

Opsional. Perilaku untuk panggilan alat tambahan. Nilai defaultnya adalah GAGAL.

EvaluationConfig

Representasi JSON
{
  "inputAudioConfig": {
    object (InputAudioConfig)
  },
  "outputAudioConfig": {
    object (OutputAudioConfig)
  },
  "evaluationChannel": enum (EvaluationChannel),
  "toolCallBehaviour": enum (EvaluationToolCallBehaviour)
}
Kolom
inputAudioConfig
(deprecated)

object (InputAudioConfig)

Opsional. Konfigurasi untuk memproses audio input.

outputAudioConfig
(deprecated)

object (OutputAudioConfig)

Opsional. Konfigurasi untuk membuat audio output.

evaluationChannel

enum (EvaluationChannel)

Opsional. Saluran yang akan dievaluasi.

toolCallBehaviour

enum (EvaluationToolCallBehaviour)

Opsional. Menentukan apakah evaluasi harus menggunakan panggilan alat asli atau alat palsu.

InputAudioConfig

Representasi JSON
{
  "audioEncoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "noiseSuppressionLevel": string
}
Kolom
audioEncoding

enum (AudioEncoding)

Wajib. Encoding data audio input.

sampleRateHertz

integer

Wajib. Frekuensi sampel (dalam Hertz) data audio input.

noiseSuppressionLevel

string

Opsional. Apakah akan mengaktifkan peredam bising pada audio input. Nilai yang tersedia adalah "low", "moderate", "high", "very_high".

OutputAudioConfig

Representasi JSON
{
  "audioEncoding": enum (AudioEncoding),
  "sampleRateHertz": integer
}
Kolom
audioEncoding

enum (AudioEncoding)

Wajib. Encoding data audio output.

sampleRateHertz

integer

Wajib. Frekuensi sampel (dalam Hertz) data audio output.

Anotasi Alat

Petunjuk Destruktif: ❌ | Petunjuk Idempoten: ✅ | Petunjuk Hanya Baca: ✅ | Petunjuk Dunia Terbuka: ❌