Alat: get_evaluation
Mendapatkan detail evaluasi yang ditentukan.
Contoh berikut menunjukkan cara menggunakan curl untuk memanggil alat MCP get_evaluation.
| Permintaan Curl |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Skema Input
Pesan permintaan untuk EvaluationService.GetEvaluation.
GetEvaluationRequest
| Representasi JSON |
|---|
{ "name": string } |
| Kolom | |
|---|---|
name |
Wajib. Nama resource evaluasi yang akan diambil. |
Skema Output
Evaluasi merepresentasikan semua informasi yang diperlukan untuk menyimulasikan dan mengevaluasi agen.
Evaluasi
| Representasi JSON |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| Kolom | |
|---|---|
name |
ID. ID unik evaluasi ini. Format: |
displayName |
Wajib. Nama tampilan evaluasi yang ditentukan pengguna. Unik dalam Aplikasi. |
description |
Opsional. Deskripsi evaluasi yang ditentukan pengguna. |
tags[] |
Opsional. Tag yang ditentukan pengguna untuk mengategorikan evaluasi. |
evaluationDatasets[] |
Hanya output. Daftar set data evaluasi yang termasuk dalam evaluasi. Format: |
createTime |
Hanya output. Stempel waktu saat evaluasi dibuat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
createdBy |
Hanya output. Pengguna yang membuat evaluasi. |
updateTime |
Hanya output. Stempel waktu saat evaluasi terakhir diperbarui. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
lastUpdatedBy |
Hanya output. Pengguna yang terakhir memperbarui evaluasi. |
evaluationRuns[] |
Hanya output. EvaluationRuns yang terkait dengan Evaluasi ini. |
etag |
Hanya output. ETag yang digunakan untuk memastikan objek tidak berubah selama operasi baca-ubah-tulis. Jika etag kosong, pembaruan akan menimpa perubahan serentak. |
aggregatedMetrics |
Hanya output. Metrik gabungan untuk evaluasi ini di semua proses. |
lastCompletedResult |
Hanya output. Hasil evaluasi terbaru untuk evaluasi ini. |
invalid |
Hanya output. Apakah evaluasi tidak valid. Hal ini dapat terjadi jika evaluasi mereferensikan alat, toolset, atau agen yang telah dihapus. |
lastTenResults[] |
Hanya output. 10 hasil evaluasi terakhir untuk evaluasi ini. Ini hanya diisi jika include_last_ten_results disetel ke benar (true) di ListEvaluationsRequest atau GetEvaluationRequest. |
Kolom union inputs. Input untuk evaluasi inputs hanya dapat berupa salah satu dari berikut ini: |
|
golden |
Opsional. Langkah-langkah emas yang akan dievaluasi. |
scenario |
Opsional. Konfigurasi untuk skenario. |
Golden
| Representasi JSON |
|---|
{
"turns": [
{
object ( |
| Kolom | |
|---|---|
turns[] |
Wajib. Jumlah putaran emas yang diperlukan untuk memutar ulang percakapan emas. |
evaluationExpectations[] |
Opsional. Ekspektasi evaluasi untuk mengevaluasi percakapan yang diputar ulang. Format: |
GoldenTurn
| Representasi JSON |
|---|
{ "steps": [ { object ( |
| Kolom | |
|---|---|
steps[] |
Wajib. Langkah-langkah yang diperlukan untuk memutar ulang percakapan emas. |
rootSpan |
Opsional. Rentang root pergantian emas untuk memproses dan mempertahankan informasi audio. |
Langkah
| Representasi JSON |
|---|
{ // Union field |
| Kolom | |
|---|---|
Kolom union step. Langkah yang akan dilakukan. step hanya ada berupa salah satu diantara berikut: |
|
userInput |
Opsional. Input pengguna untuk percakapan. |
agentTransfer |
Opsional. Mentransfer percakapan ke agen lain. |
expectation |
Opsional. Mengeksekusi ekspektasi pada giliran saat ini. |
SessionInput
| Representasi JSON |
|---|
{ "willContinue": boolean, // Union field |
| Kolom | |
|---|---|
willContinue |
Opsional. Flag untuk menunjukkan apakah pesan saat ini adalah fragmen input yang lebih besar dalam sesi streaming bidi. Jika disetel ke CATATAN: Kolom ini tidak berlaku untuk input audio dan DTMF, karena input tersebut selalu diproses secara otomatis berdasarkan sinyal pengakhiran. |
Kolom union input_type. Jenis input. input_type hanya ada berupa salah satu diantara berikut: |
|
text |
Opsional. Data teks dari pengguna akhir. |
dtmf |
Opsional. Digit DTMF dari pengguna akhir. |
audio |
Opsional. Data audio dari pengguna akhir. String berenkode base64. |
toolResponses |
Opsional. Hasil eksekusi untuk panggilan alat dari klien. |
image |
Opsional. Data gambar dari pengguna akhir. |
blob |
Opsional. Data blob dari pengguna akhir. |
variables |
Opsional. Variabel kontekstual untuk sesi, yang dikelompokkan berdasarkan nama. Hanya variabel yang dideklarasikan di aplikasi yang akan digunakan oleh agen CES. Variabel yang tidak dikenali akan tetap dikirim ke [agen Dialogflow][Agent.RemoteDialogflowAgent] sebagai parameter sesi tambahan. |
event |
Opsional. Input acara. |
ToolResponses
| Representasi JSON |
|---|
{
"toolResponses": [
{
object ( |
| Kolom | |
|---|---|
toolResponses[] |
Opsional. Daftar hasil eksekusi alat. |
ToolResponse
| Representasi JSON |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Kolom | |
|---|---|
id |
Opsional. ID yang cocok dengan |
displayName |
Hanya output. Nama tampilan alat. |
response |
Wajib. Hasil eksekusi alat dalam format objek JSON. Gunakan kunci "output" untuk menentukan respons alat dan kunci "error" untuk menentukan detail error (jika ada). Jika kunci "output" dan "error" tidak ditentukan, seluruh "respons" akan diperlakukan sebagai hasil eksekusi alat. |
Kolom union tool_identifier. ID alat yang dieksekusi. Alat ini bisa berupa alat yang tetap ada atau alat dari toolset. tool_identifier hanya ada berupa salah satu diantara berikut: |
|
tool |
Opsional. Nama alat yang akan dieksekusi. Format: |
toolsetTool |
Opsional. Alat toolset yang dieksekusi. |
ToolsetTool
| Representasi JSON |
|---|
{ "toolset": string, "toolId": string } |
| Kolom | |
|---|---|
toolset |
Wajib. Nama resource Toolset dari mana alat ini berasal. Format: |
toolId |
Opsional. ID alat untuk memfilter alat guna mengambil skemanya. |
Struct
| Representasi JSON |
|---|
{ "fields": { string: value, ... } } |
| Kolom | |
|---|---|
fields |
Peta tidak berurutan dari nilai yang diketik secara dinamis. Objek yang berisi daftar pasangan |
FieldsEntry
| Representasi JSON |
|---|
{ "key": string, "value": value } |
| Kolom | |
|---|---|
key |
|
value |
|
Nilai
| Representasi JSON |
|---|
{ // Union field |
| Kolom | |
|---|---|
Kolom union kind. Jenis nilai. kind hanya ada berupa salah satu diantara berikut: |
|
nullValue |
Mewakili nilai null. |
numberValue |
Mewakili nilai ganda. |
stringValue |
Mewakili nilai string. |
boolValue |
Mewakili nilai boolean. |
structValue |
Mewakili nilai terstruktur. |
listValue |
Merepresentasikan |
ListValue
| Representasi JSON |
|---|
{ "values": [ value ] } |
| Kolom | |
|---|---|
values[] |
Kolom berulang dari nilai yang diketik secara dinamis. |
Gambar
| Representasi JSON |
|---|
{ "mimeType": string, "data": string } |
| Kolom | |
|---|---|
mimeType |
Wajib. Jenis MIME standar IANA dari data sumber. Jenis gambar yang didukung meliputi: * image/png * image/jpeg * image/webp |
data |
Wajib. Byte mentah gambar. String berenkode base64. |
Blob
| Representasi JSON |
|---|
{ "mimeType": string, "data": string } |
| Kolom | |
|---|---|
mimeType |
Wajib. Jenis MIME standar IANA dari data sumber. |
data |
Wajib. Byte mentah blob. String berenkode base64. |
Acara
| Representasi JSON |
|---|
{ "event": string } |
| Kolom | |
|---|---|
event |
Wajib. Nama acara. |
AgentTransfer
| Representasi JSON |
|---|
{ "targetAgent": string, "displayName": string } |
| Kolom | |
|---|---|
targetAgent |
Wajib. Agen yang akan menerima pengalihan percakapan. Agen akan menangani percakapan mulai dari saat ini. Format: |
displayName |
Hanya output. Nama tampilan agen. |
GoldenExpectation
| Representasi JSON |
|---|
{ "note": string, // Union field |
| Kolom | |
|---|---|
note |
Opsional. Catatan untuk persyaratan ini, berguna dalam pelaporan saat pemeriksaan tertentu gagal. Misalnya, "Check_Payment_Tool_Called". |
Kolom union condition. Pemeriksaan sebenarnya yang akan dilakukan. condition hanya ada berupa salah satu diantara berikut: |
|
toolCall |
Opsional. Periksa apakah alat tertentu dipanggil dengan parameter. |
toolResponse |
Opsional. Periksa apakah alat tertentu memberikan respons yang diharapkan. |
agentResponse |
Opsional. Periksa apakah agen merespons dengan respons yang benar. Peran "agen" tersirat. |
agentTransfer |
Opsional. Periksa apakah agen mengalihkan percakapan ke agen lain. |
updatedVariables |
Opsional. Periksa apakah agen memperbarui variabel sesi ke nilai yang diharapkan. Juga digunakan untuk merekam pembaruan variabel agen untuk evaluasi emas. |
mockToolResponse |
Opsional. Respons alat untuk meniru, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM. |
ToolCall
| Representasi JSON |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Kolom | |
|---|---|
id |
Opsional. ID unik panggilan alat. Jika diisi, klien harus menampilkan hasil eksekusi dengan ID yang cocok di |
displayName |
Hanya output. Nama tampilan alat. |
args |
Opsional. Parameter dan nilai input untuk alat dalam format objek JSON. |
Kolom union tool_identifier. ID alat yang akan dieksekusi. Alat ini bisa berupa alat yang tetap ada atau alat dari toolset. tool_identifier hanya ada berupa salah satu diantara berikut: |
|
tool |
Opsional. Nama alat yang akan dieksekusi. Format: |
toolsetTool |
Opsional. Alat toolset yang akan dieksekusi. |
Pesan
| Representasi JSON |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Kolom | |
|---|---|
role |
Opsional. Peran dalam percakapan, misalnya, pengguna, agen. |
chunks[] |
Opsional. Konten pesan sebagai serangkaian bagian. |
eventTime |
Opsional. Stempel waktu saat pesan dikirim atau diterima. Tidak boleh digunakan jika pesan adalah bagian dari Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
Chunk
| Representasi JSON |
|---|
{ // Union field |
| Kolom | |
|---|---|
Kolom union data. Data chunk. data hanya ada berupa salah satu diantara berikut: |
|
text |
Opsional. Data teks. |
transcript |
Opsional. Transkrip yang terkait dengan audio. |
blob |
Opsional. Data blob. |
payload |
Opsional. Data payload kustom. |
image |
Opsional. Data gambar. |
toolCall |
Opsional. Permintaan eksekusi alat. |
toolResponse |
Opsional. Respons eksekusi alat. |
agentTransfer |
Opsional. Acara transfer agen. |
updatedVariables |
Struct merepresentasikan variabel yang diperbarui dalam percakapan, yang dikelompokkan berdasarkan nama variabel. |
defaultVariables |
Struct merepresentasikan variabel default di awal percakapan, yang dikelompokkan berdasarkan nama variabel. |
Stempel waktu
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z). |
nanos |
Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif. |
Span
| Representasi JSON |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| Kolom | |
|---|---|
name |
Hanya output. Nama rentang. |
startTime |
Hanya output. Waktu mulai rentang. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
endTime |
Hanya output. Waktu berakhir rentang. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
duration |
Hanya output. Durasi rentang. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
attributes |
Hanya output. Atribut nilai kunci yang terkait dengan rentang. |
childSpans[] |
Hanya output. Span turunan yang bertingkat di bawah span ini. |
Durasi
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn |
nanos |
Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom |
Skenario
| Representasi JSON |
|---|
{ "task": string, "userFacts": [ { object ( |
| Kolom | |
|---|---|
task |
Wajib. Tugas yang akan ditargetkan oleh skenario. |
userFacts[] |
Opsional. Fakta pengguna yang akan digunakan oleh skenario. |
maxTurns |
Opsional. Jumlah maksimum giliran yang akan disimulasikan. Jika tidak ditentukan, simulasi akan berlanjut hingga tugas selesai. |
rubrics[] |
Wajib. Rubrik untuk menilai skenario. |
scenarioExpectations[] |
Wajib. ScenarioExpectations untuk mengevaluasi percakapan yang dihasilkan oleh simulasi pengguna. |
variableOverrides |
Opsional. Variabel / Parameter Sesi sebagai konteks untuk sesi, dikelompokkan berdasarkan nama variabel. Anggota struct ini akan menggantikan nilai default yang ditetapkan oleh sistem. Perhatikan bahwa ini berbeda dengan fakta pengguna, yang merupakan fakta yang diketahui pengguna. Variabel adalah parameter yang diketahui oleh agen: yaitu MDN (nomor telepon) yang diteruskan oleh sistem telepon. |
taskCompletionBehavior |
Opsional. Tidak digunakan lagi. Gunakan user_goal_behavior sebagai gantinya. |
userGoalBehavior |
Opsional. Perilaku yang diharapkan dari sasaran pengguna. |
evaluationExpectations[] |
Opsional. Ekspektasi evaluasi untuk mengevaluasi percakapan yang dihasilkan oleh simulasi. Format: |
UserFact
| Representasi JSON |
|---|
{ "name": string, "value": string } |
| Kolom | |
|---|---|
name |
Wajib. Nama fakta pengguna. |
value |
Wajib. Nilai fakta pengguna. |
ScenarioExpectation
| Representasi JSON |
|---|
{ // Union field |
| Kolom | |
|---|---|
Kolom union expectation. Ekspektasi untuk mengevaluasi percakapan yang dihasilkan oleh simulasi. expectation hanya ada berupa salah satu diantara berikut: |
|
toolExpectation |
Opsional. Pasangan panggilan dan respons alat yang akan dievaluasi. |
agentResponse |
Opsional. Respons agen yang akan dievaluasi. |
ToolExpectation
| Representasi JSON |
|---|
{ "expectedToolCall": { object ( |
| Kolom | |
|---|---|
expectedToolCall |
Wajib. Panggilan alat yang diharapkan, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM. |
mockToolResponse |
Wajib. Respons alat untuk meniru, dengan parameter yang diinginkan ditentukan. Parameter yang tidak ditentukan akan dihalusinasi oleh LLM. |
AggregatedMetrics
| Representasi JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Kolom | |
|---|---|
metricsByAppVersion[] |
Hanya output. Metrik gabungan, dikelompokkan menurut ID versi aplikasi. |
MetricsByAppVersion
| Representasi JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
appVersionId |
Hanya output. ID versi aplikasi. |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam versi aplikasi ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam versi aplikasi ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam versi aplikasi ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam versi aplikasi ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi belokan dalam versi aplikasi ini. |
passCount |
Hanya output. Jumlah evaluasi yang lulus. |
failCount |
Hanya output. Jumlah kegagalan evaluasi. |
metricsByTurn[] |
Hanya output. Metrik yang diagregasi per giliran dalam versi aplikasi ini. |
ToolMetrics
| Representasi JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
passCount |
Hanya output. Jumlah keberhasilan alat. |
failCount |
Hanya output. Frekuensi kegagalan alat. |
SemanticSimilarityMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor kesamaan semantik rata-rata (0-4). |
HallucinationMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor halusinasi rata-rata (0 hingga 1). |
ToolCallLatencyMetrics
| Representasi JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
averageLatency |
Hanya output. Latensi rata-rata panggilan alat. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
TurnLatencyMetrics
| Representasi JSON |
|---|
{ "averageLatency": string } |
| Kolom | |
|---|---|
averageLatency |
Hanya output. Latensi rata-rata giliran. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
MetricsByTurn
| Representasi JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
turnIndex |
Hanya output. Indeks giliran (berbasis 0). |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam giliran ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam giliran ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam giliran ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam giliran ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi giliran dalam giliran ini. |
EvaluationResult
| Representasi JSON |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Kolom | |
|---|---|
name |
ID. ID unik hasil evaluasi. Format: |
displayName |
Wajib. Nama tampilan Hasil Evaluasi. Unik dalam Evaluasi. Secara default, formatnya adalah: " |
createTime |
Hanya output. Stempel waktu saat hasil evaluasi dibuat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
evaluationStatus |
Hanya output. Hasil evaluasi. Hanya diisi jika execution_state adalah COMPLETE. |
evaluationRun |
Hanya output. Jalannya evaluasi yang menghasilkan hasil ini. Format: |
persona |
Hanya output. Persona yang digunakan untuk membuat percakapan untuk hasil evaluasi. |
errorInfo |
Hanya output. Informasi error untuk hasil evaluasi. |
error |
Hanya output. Tidak digunakan lagi: Gunakan |
initiatedBy |
Hanya output. Pengguna yang memulai proses evaluasi yang menghasilkan hasil ini. |
appVersion |
Hanya output. Versi aplikasi yang digunakan untuk membuat percakapan yang menghasilkan hasil ini. Format: |
appVersionDisplayName |
Hanya output. Nama tampilan |
changelog |
Hanya output. Log perubahan versi aplikasi yang digunakan untuk menjalankan evaluasi. Kolom ini diisi jika pengguna menjalankan evaluasi pada versi terbaru/draf. |
changelogCreateTime |
Hanya output. Waktu pembuatan log perubahan versi aplikasi yang digunakan untuk menjalankan evaluasi. Kolom ini diisi jika pengguna menjalankan evaluasi pada versi terbaru/draf. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
executionState |
Hanya output. Status eksekusi hasil evaluasi. |
evaluationMetricsThresholds |
Hanya output. Nilai minimum evaluasi untuk hasil. |
config |
Hanya output. Konfigurasi yang digunakan dalam proses evaluasi yang menghasilkan hasil ini. |
goldenRunMethod |
Hanya output. Metode yang digunakan untuk menjalankan evaluasi standar. |
Kolom union result. Hasil evaluasi. Hanya diisi jika execution_state adalah COMPLETED. result hanya ada berupa salah satu diantara berikut: |
|
goldenResult |
Hanya output. Hasil evaluasi emas. |
scenarioResult |
Hanya output. Hasil evaluasi skenario. |
GoldenResult
| Representasi JSON |
|---|
{ "turnReplayResults": [ { object ( |
| Kolom | |
|---|---|
turnReplayResults[] |
Hanya output. Hasil menjalankan setiap giliran percakapan emas. |
evaluationExpectationResults[] |
Hanya output. Hasil ekspektasi evaluasi. |
TurnReplayResult
| Representasi JSON |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Kolom | |
|---|---|
conversation |
Hanya output. Percakapan yang dibuat untuk giliran ini. |
expectationOutcome[] |
Hanya output. Hasil dari setiap ekspektasi. |
hallucinationResult |
Hanya output. Hasil pemeriksaan halusinasi. |
toolInvocationScore |
Hanya output. Tidak digunakan lagi. Gunakan OverallToolInvocationResult sebagai gantinya. |
turnLatency |
Hanya output. Durasi giliran. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
toolCallLatencies[] |
Hanya output. Latensi setiap panggilan alat secara bergiliran. |
semanticSimilarityResult |
Hanya output. Hasil pemeriksaan kemiripan semantik. |
overallToolInvocationResult |
Hanya output. Hasil pemeriksaan pemanggilan alat secara keseluruhan. |
errorInfo |
Hanya output. Informasi tentang error yang terjadi selama giliran ini. |
spanLatencies[] |
Hanya output. Latensi rentang dalam giliran. |
Kolom union
|
|
toolOrderedInvocationScore |
Hanya output. Skor pemanggilan alat keseluruhan yang diurutkan untuk giliran ini. Hal ini menunjukkan persentase keseluruhan alat dari belokan yang diharapkan yang benar-benar dipanggil dalam urutan yang diharapkan. |
GoldenExpectationOutcome
| Representasi JSON |
|---|
{ "expectation": { object ( |
| Kolom | |
|---|---|
expectation |
Hanya output. Ekspektasi yang dievaluasi. |
outcome |
Hanya output. Hasil dari ekspektasi. |
semanticSimilarityResult |
Hanya output. Hasil pemeriksaan kemiripan semantik. |
toolInvocationResult |
Hanya output. Hasil pemeriksaan pemanggilan alat. |
Kolom union result. Hasil ekspektasi. result hanya ada berupa salah satu diantara berikut: |
|
observedToolCall |
Hanya output. Hasil ekspektasi panggilan alat. |
observedToolResponse |
Hanya output. Hasil ekspektasi respons alat. |
observedAgentResponse |
Hanya output. Hasil ekspektasi respons agen. |
observedAgentTransfer |
Hanya output. Hasil ekspektasi transfer agen. |
SemanticSimilarityResult
| Representasi JSON |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Kolom | |
|---|---|
label |
Hanya output. Label yang terkait dengan setiap skor. Skor 4: Sepenuhnya Konsisten Skor 3: Sebagian Besar Konsisten Skor 2: Sebagian Konsisten (Kekurangan Kecil) Skor 1: Sebagian Besar Tidak Konsisten (Kekurangan Besar) Skor 0: Sepenuhnya Tidak Konsisten / Bertentangan |
explanation |
Hanya output. Penjelasan untuk skor kemiripan semantik. |
outcome |
Hanya output. Hasil pemeriksaan kemiripan semantik. Hal ini ditentukan dengan membandingkan skor dengan semantic_similarity_success_threshold. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL. |
Kolom union
|
|
score |
Hanya output. Skor kemiripan semantik. Dapat berupa 0, 1, 2, 3, atau 4. |
ToolInvocationResult
| Representasi JSON |
|---|
{ "outcome": enum ( |
| Kolom | |
|---|---|
outcome |
Hanya output. Hasil pemeriksaan pemanggilan alat. Hal ini ditentukan dengan membandingkan parameter_correctness_score dengan nilai minimum. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL. |
explanation |
Hanya output. Penjelasan teks bebas untuk hasil pemanggilan alat. |
Kolom union
|
|
parameterCorrectnessScore |
Hanya output. Skor kebenaran parameter pemanggilan alat. Ini menunjukkan persentase parameter dari panggilan alat yang diharapkan yang juga ada dalam panggilan alat sebenarnya. |
HallucinationResult
| Representasi JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Kolom | |
|---|---|
label |
Hanya output. Label yang terkait dengan setiap skor. Skor 1: Dibenarkan Skor 0: Tidak Dibenarkan Skor -1: Tidak Ada Klaim untuk Dinilai |
explanation |
Hanya output. Penjelasan untuk skor halusinasi. |
Kolom union
|
|
score |
Hanya output. Skor halusinasi. Dapat berupa -1, 0, 1. |
ToolCallLatency
| Representasi JSON |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat yang dieksekusi. Format: |
displayName |
Hanya output. Nama tampilan alat. |
startTime |
Hanya output. Waktu mulai eksekusi panggilan alat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
endTime |
Hanya output. Waktu berakhir eksekusi panggilan alat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
executionLatency |
Hanya output. Latensi eksekusi panggilan alat. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
OverallToolInvocationResult
| Representasi JSON |
|---|
{ "outcome": enum ( |
| Kolom | |
|---|---|
outcome |
Hanya output. Hasil pemeriksaan pemanggilan alat. Hal ini ditentukan dengan membandingkan tool_invocation_score dengan overall_tool_invocation_correctness_threshold. Jika skor sama dengan atau di atas nilai minimum, hasilnya adalah LULUS. Jika tidak, hasilnya akan GAGAL. |
Kolom union
|
|
toolInvocationScore |
Skor pemanggilan alat keseluruhan untuk giliran ini. Hal ini menunjukkan persentase keseluruhan alat dari belokan yang diharapkan yang benar-benar dipanggil. |
EvaluationErrorInfo
| Representasi JSON |
|---|
{
"errorType": enum ( |
| Kolom | |
|---|---|
errorType |
Hanya output. Jenis error. |
errorMessage |
Hanya output. Pesan error. |
sessionId |
Hanya output. ID sesi untuk percakapan yang menyebabkan error. |
SpanLatency
| Representasi JSON |
|---|
{ "type": enum ( |
| Kolom | |
|---|---|
type |
Hanya output. Jenis rentang. |
displayName |
Hanya output. Nama tampilan rentang. Berlaku untuk rentang alat dan pengamanan. |
startTime |
Hanya output. Waktu mulai rentang. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
endTime |
Hanya output. Waktu berakhir rentang. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
executionLatency |
Hanya output. Latensi rentang. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
Kolom union identifier. ID item tertentu berdasarkan jenisnya. identifier hanya ada berupa salah satu diantara berikut: |
|
resource |
Hanya output. Nama resource rentang alat atau batas aman. |
toolset |
Hanya output. ID alat toolset. |
model |
Hanya output. Nama rentang LLM. |
callback |
Hanya output. Nama rentang callback pengguna. |
EvaluationExpectationResult
| Representasi JSON |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Kolom | |
|---|---|
evaluationExpectation |
Hanya output. Ekspektasi evaluasi. Format: |
prompt |
Hanya output. Perintah yang digunakan untuk evaluasi. |
outcome |
Hanya output. Hasil ekspektasi evaluasi. |
explanation |
Hanya output. Penjelasan untuk hasil. |
ScenarioResult
| Representasi JSON |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Kolom | |
|---|---|
conversation |
Hanya output. Percakapan yang dihasilkan dalam skenario. |
task |
Hanya output. Tugas yang digunakan saat menjalankan skenario untuk hasil ini. |
userFacts[] |
Hanya output. Fakta pengguna yang digunakan oleh skenario untuk hasil ini. |
expectationOutcomes[] |
Hanya output. Hasil dari setiap ekspektasi. |
rubricOutcomes[] |
Hanya output. Hasil rubrik. |
hallucinationResult[] |
Hanya output. Hasil pemeriksaan halusinasi. Akan ada satu hasil halusinasi untuk setiap giliran dalam percakapan. |
taskCompletionResult |
Hanya output. Hasil pemeriksaan penyelesaian tugas. |
toolCallLatencies[] |
Hanya output. Latensi setiap eksekusi panggilan alat dalam percakapan. |
userGoalSatisfactionResult |
Hanya output. Hasil pemeriksaan kepuasan tujuan pengguna. |
spanLatencies[] |
Hanya output. Latensi rentang dalam percakapan. |
evaluationExpectationResults[] |
Hanya output. Hasil ekspektasi evaluasi. |
Kolom union
|
|
allExpectationsSatisfied |
Hanya output. Apakah semua ekspektasi terpenuhi untuk giliran ini. |
Kolom union
|
|
taskCompleted |
Hanya output. Apakah tugas telah diselesaikan untuk giliran ini. Ini adalah gabungan dari semua ekspektasi yang terpenuhi, tidak ada halusinasi, dan kepuasan tujuan pengguna. |
ScenarioExpectationOutcome
| Representasi JSON |
|---|
{ "expectation": { object ( |
| Kolom | |
|---|---|
expectation |
Hanya output. Ekspektasi yang dievaluasi. |
outcome |
Hanya output. Hasil ScenarioExpectation. |
Kolom union result. Hasil ekspektasi. result hanya ada berupa salah satu diantara berikut: |
|
observedToolCall |
Hanya output. Panggilan alat yang diamati. |
observedAgentResponse |
Hanya output. Respons agen yang diamati. |
ObservedToolCall
| Representasi JSON |
|---|
{ "toolCall": { object ( |
| Kolom | |
|---|---|
toolCall |
Hanya output. Panggilan alat yang diamati. |
toolResponse |
Hanya output. Respons alat yang diamati. |
ScenarioRubricOutcome
| Representasi JSON |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Kolom | |
|---|---|
rubric |
Hanya output. Rubrik yang digunakan untuk mengevaluasi percakapan. |
scoreExplanation |
Hanya output. Respons pemberi rating terhadap rubrik. |
Kolom union
|
|
score |
Hanya output. Skor percakapan berdasarkan rubrik. |
TaskCompletionResult
| Representasi JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Kolom | |
|---|---|
label |
Hanya output. Label yang terkait dengan setiap skor. Skor 1: Tugas Selesai Skor 0: Tugas Tidak Selesai Skor -1: Sasaran Pengguna Tidak Ditentukan |
explanation |
Hanya output. Penjelasan untuk skor penyelesaian tugas. |
Kolom union
|
|
score |
Hanya output. Skor penyelesaian tugas. Dapat berupa -1, 0, 1 |
UserGoalSatisfactionResult
| Representasi JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Kolom | |
|---|---|
label |
Hanya output. Label yang terkait dengan setiap skor. Skor 1: Tugas Pengguna Selesai Skor 0: Tugas Pengguna Tidak Selesai Skor -1: Tugas Pengguna Tidak Ditentukan |
explanation |
Hanya output. Penjelasan untuk skor kepuasan tugas pengguna. |
Kolom union
|
|
score |
Hanya output. Skor kepuasan tugas pengguna. Dapat berupa -1, 0, 1. |
EvaluationPersona
| Representasi JSON |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Kolom | |
|---|---|
name |
Wajib. ID unik persona. Format: |
description |
Opsional. Deskripsi persona. |
displayName |
Wajib. Nama tampilan persona. Unik dalam aplikasi. |
personality |
Wajib. Petunjuk bagi agen tentang cara berperilaku dalam evaluasi. |
speechConfig |
Opsional. Konfigurasi untuk suara persona (setelan TTS). |
SpeechConfig
| Representasi JSON |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Kolom | |
|---|---|
speakingRate |
Opsional. Kecepatan bicara. 1.0 adalah normal. Lebih rendah berarti lebih lambat (misalnya, 0,8), yang lebih tinggi lebih cepat (misalnya, 1.5). Berguna untuk menguji cara agen menangani orang yang berbicara cepat. |
environment |
Opsional. Lingkungan audio simulasi. |
voiceId |
Opsional. ID/aksen suara tertentu yang akan digunakan. Contoh: "en-US-Wavenet-D" atau "en-GB-Standard-A" |
Status
| Representasi JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Kolom | |
|---|---|
code |
Kode status, harus berupa nilai enum dari |
message |
Pesan error yang ditampilkan ke developer dan seharusnya dalam bahasa Inggris. Setiap pesan error yang ditampilkan kepada pengguna harus dilokalkan dan dikirim di kolom |
details[] |
Daftar pesan yang membawa detail error. Ada seperangkat jenis pesan umum untuk digunakan API. Objek yang berisi kolom tipe arbitrer. Kolom tambahan |
Semua
| Representasi JSON |
|---|
{ "typeUrl": string, "value": string } |
| Kolom | |
|---|---|
typeUrl |
Mengidentifikasi jenis pesan Protobuf yang diserialkan dengan referensi URI yang terdiri dari awalan yang diakhiri dengan garis miring dan nama jenis yang sepenuhnya memenuhi syarat. Contoh: type.googleapis.com/google.protobuf.StringValue String ini harus berisi setidaknya satu karakter Awalan bersifat arbitrer dan implementasi Protobuf diharapkan cukup menghapus semua yang ada hingga dan termasuk Semua string URL jenis harus berupa referensi URI yang valid dengan batasan tambahan (untuk format teks) bahwa konten referensi hanya boleh terdiri dari karakter alfanumerik, escape yang dienkode persen, dan karakter dalam set berikut (tidak termasuk tanda petik terbalik luar): Dalam desain asli |
value |
Berisi serialisasi Protobuf dari jenis yang dijelaskan oleh type_url. String berenkode base64. |
EvaluationMetricsThresholds
| Representasi JSON |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Kolom | |
|---|---|
goldenEvaluationMetricsThresholds |
Opsional. Nilai minimum metrik evaluasi emas. |
hallucinationMetricBehavior |
Opsional. Tidak digunakan lagi: Gunakan |
goldenHallucinationMetricBehavior |
Opsional. Perilaku metrik halusinasi untuk evaluasi tepercaya. |
scenarioHallucinationMetricBehavior |
Opsional. Perilaku metrik halusinasi untuk evaluasi skenario. |
GoldenEvaluationMetricsThresholds
| Representasi JSON |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Kolom | |
|---|---|
turnLevelMetricsThresholds |
Opsional. Nilai minimum metrik tingkat perputaran. |
expectationLevelMetricsThresholds |
Opsional. Nilai minimum metrik tingkat ekspektasi. |
toolMatchingSettings |
Opsional. Setelan pencocokan alat. Panggilan alat tambahan adalah panggilan alat yang ada dalam eksekusi, tetapi tidak cocok dengan panggilan alat apa pun dalam ekspektasi standar. |
TurnLevelMetricsThresholds
| Representasi JSON |
|---|
{ "semanticSimilarityChannel": enum ( |
| Kolom | |
|---|---|
semanticSimilarityChannel |
Opsional. Saluran kemiripan semantik yang akan digunakan untuk evaluasi. |
Kolom union
|
|
semanticSimilaritySuccessThreshold |
Opsional. Ambang batas keberhasilan untuk kemiripan semantik. Harus berupa bilangan bulat antara 0 dan 4. Defaultnya adalah >= 3. |
Kolom union
|
|
overallToolInvocationCorrectnessThreshold |
Opsional. Ambang batas keberhasilan untuk kebenaran pemanggilan alat secara keseluruhan. Harus berupa float antara 0 dan 1. Defaultnya adalah 1.0. |
ExpectationLevelMetricsThresholds
| Representasi JSON |
|---|
{ // Union field |
| Kolom | |
|---|---|
Kolom union
|
|
toolInvocationParameterCorrectnessThreshold |
Opsional. Ambang batas keberhasilan untuk kebenaran parameter pemanggilan alat individual. Harus berupa float antara 0 dan 1. Defaultnya adalah 1.0. |
ToolMatchingSettings
| Representasi JSON |
|---|
{
"extraToolCallBehavior": enum ( |
| Kolom | |
|---|---|
extraToolCallBehavior |
Opsional. Perilaku untuk panggilan alat tambahan. Nilai defaultnya adalah GAGAL. |
EvaluationConfig
| Representasi JSON |
|---|
{ "inputAudioConfig": { object ( |
| Kolom | |
|---|---|
inputAudioConfig |
Opsional. Konfigurasi untuk memproses audio input. |
outputAudioConfig |
Opsional. Konfigurasi untuk membuat audio output. |
evaluationChannel |
Opsional. Saluran yang akan dievaluasi. |
toolCallBehaviour |
Opsional. Menentukan apakah evaluasi harus menggunakan panggilan alat asli atau alat palsu. |
InputAudioConfig
| Representasi JSON |
|---|
{
"audioEncoding": enum ( |
| Kolom | |
|---|---|
audioEncoding |
Wajib. Encoding data audio input. |
sampleRateHertz |
Wajib. Frekuensi sampel (dalam Hertz) data audio input. |
noiseSuppressionLevel |
Opsional. Apakah akan mengaktifkan peredam bising pada audio input. Nilai yang tersedia adalah "low", "moderate", "high", "very_high". |
OutputAudioConfig
| Representasi JSON |
|---|
{
"audioEncoding": enum ( |
| Kolom | |
|---|---|
audioEncoding |
Wajib. Encoding data audio output. |
sampleRateHertz |
Wajib. Frekuensi sampel (dalam Hertz) data audio output. |
Anotasi Alat
Petunjuk Destruktif: ❌ | Petunjuk Idempoten: ✅ | Petunjuk Hanya Baca: ✅ | Petunjuk Dunia Terbuka: ❌