Alat: update_evaluation_dataset
Memperbarui set data evaluasi yang ditentukan. Pastikan untuk selalu meneruskan mask update dalam input.
Contoh berikut menunjukkan cara menggunakan curl untuk memanggil alat MCP update_evaluation_dataset.
| Permintaan Curl |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "update_evaluation_dataset", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Skema Input
Pesan permintaan untuk EvaluationService.UpdateEvaluationDataset.
UpdateEvaluationDatasetRequest
| Representasi JSON |
|---|
{
"evaluationDataset": {
object ( |
| Kolom | |
|---|---|
evaluationDataset |
Wajib. Set data evaluasi yang akan diperbarui. |
updateMask |
Opsional. Mask kolom digunakan untuk mengontrol kolom mana yang diperbarui. Jika mask tidak ada, semua kolom akan diperbarui. Ini adalah comma-separated list berisi nama kolom yang sepenuhnya memenuhi syarat. Contoh: |
EvaluationDataset
| Representasi JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Kolom | |
|---|---|
name |
ID. ID unik set data evaluasi ini. Format: |
displayName |
Wajib. Nama tampilan set data evaluasi yang ditentukan pengguna. Unik dalam Aplikasi. |
evaluations[] |
Opsional. Evaluasi yang disertakan dalam set data ini. |
createTime |
Hanya output. Stempel waktu saat set data evaluasi dibuat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
updateTime |
Hanya output. Stempel waktu saat set data evaluasi terakhir diperbarui. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
etag |
Hanya output. ETag yang digunakan untuk memastikan objek tidak berubah selama operasi baca-ubah-tulis. Jika etag kosong, pembaruan akan menimpa perubahan serentak. |
createdBy |
Hanya output. Pengguna yang membuat set data evaluasi. |
lastUpdatedBy |
Hanya output. Pengguna yang terakhir memperbarui set data evaluasi. |
aggregatedMetrics |
Hanya output. Metrik gabungan untuk set data evaluasi ini di semua proses. |
Stempel waktu
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z). |
nanos |
Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif. |
AggregatedMetrics
| Representasi JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Kolom | |
|---|---|
metricsByAppVersion[] |
Hanya output. Metrik gabungan, dikelompokkan menurut ID versi aplikasi. |
MetricsByAppVersion
| Representasi JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
appVersionId |
Hanya output. ID versi aplikasi. |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam versi aplikasi ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam versi aplikasi ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam versi aplikasi ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam versi aplikasi ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi belokan dalam versi aplikasi ini. |
passCount |
Hanya output. Jumlah evaluasi yang lulus. |
failCount |
Hanya output. Jumlah kegagalan evaluasi. |
metricsByTurn[] |
Hanya output. Metrik yang diagregasi per giliran dalam versi aplikasi ini. |
ToolMetrics
| Representasi JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
passCount |
Hanya output. Jumlah keberhasilan alat. |
failCount |
Hanya output. Frekuensi kegagalan alat. |
SemanticSimilarityMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor kesamaan semantik rata-rata (0-4). |
HallucinationMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor halusinasi rata-rata (0 hingga 1). |
ToolCallLatencyMetrics
| Representasi JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
averageLatency |
Hanya output. Latensi rata-rata panggilan alat. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
Durasi
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn |
nanos |
Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom |
TurnLatencyMetrics
| Representasi JSON |
|---|
{ "averageLatency": string } |
| Kolom | |
|---|---|
averageLatency |
Hanya output. Latensi rata-rata giliran. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
MetricsByTurn
| Representasi JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
turnIndex |
Hanya output. Indeks giliran (berbasis 0). |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam giliran ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam giliran ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam giliran ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam giliran ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi giliran dalam giliran ini. |
FieldMask
| Representasi JSON |
|---|
{ "paths": [ string ] } |
| Kolom | |
|---|---|
paths[] |
Kumpulan jalur mask kolom. |
Skema Output
Set data evaluasi mewakili serangkaian evaluasi yang dikelompokkan bersama berdasarkan tag bersama.
EvaluationDataset
| Representasi JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Kolom | |
|---|---|
name |
ID. ID unik set data evaluasi ini. Format: |
displayName |
Wajib. Nama tampilan set data evaluasi yang ditentukan pengguna. Unik dalam Aplikasi. |
evaluations[] |
Opsional. Evaluasi yang disertakan dalam set data ini. |
createTime |
Hanya output. Stempel waktu saat set data evaluasi dibuat. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
updateTime |
Hanya output. Stempel waktu saat set data evaluasi terakhir diperbarui. Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: |
etag |
Hanya output. ETag yang digunakan untuk memastikan objek tidak berubah selama operasi baca-ubah-tulis. Jika etag kosong, pembaruan akan menimpa perubahan serentak. |
createdBy |
Hanya output. Pengguna yang membuat set data evaluasi. |
lastUpdatedBy |
Hanya output. Pengguna yang terakhir memperbarui set data evaluasi. |
aggregatedMetrics |
Hanya output. Metrik gabungan untuk set data evaluasi ini di semua proses. |
Stempel waktu
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z). |
nanos |
Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif. |
AggregatedMetrics
| Representasi JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Kolom | |
|---|---|
metricsByAppVersion[] |
Hanya output. Metrik gabungan, dikelompokkan menurut ID versi aplikasi. |
MetricsByAppVersion
| Representasi JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
appVersionId |
Hanya output. ID versi aplikasi. |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam versi aplikasi ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam versi aplikasi ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam versi aplikasi ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam versi aplikasi ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi belokan dalam versi aplikasi ini. |
passCount |
Hanya output. Jumlah evaluasi yang lulus. |
failCount |
Hanya output. Jumlah kegagalan evaluasi. |
metricsByTurn[] |
Hanya output. Metrik yang diagregasi per giliran dalam versi aplikasi ini. |
ToolMetrics
| Representasi JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
passCount |
Hanya output. Jumlah keberhasilan alat. |
failCount |
Hanya output. Frekuensi kegagalan alat. |
SemanticSimilarityMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor kesamaan semantik rata-rata (0-4). |
HallucinationMetrics
| Representasi JSON |
|---|
{ "score": number } |
| Kolom | |
|---|---|
score |
Hanya output. Skor halusinasi rata-rata (0 hingga 1). |
ToolCallLatencyMetrics
| Representasi JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Kolom | |
|---|---|
tool |
Hanya output. Nama alat. |
averageLatency |
Hanya output. Latensi rata-rata panggilan alat. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
Durasi
| Representasi JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Kolom | |
|---|---|
seconds |
Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn |
nanos |
Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom |
TurnLatencyMetrics
| Representasi JSON |
|---|
{ "averageLatency": string } |
| Kolom | |
|---|---|
averageLatency |
Hanya output. Latensi rata-rata giliran. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
MetricsByTurn
| Representasi JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Kolom | |
|---|---|
turnIndex |
Hanya output. Indeks giliran (berbasis 0). |
toolMetrics[] |
Hanya output. Metrik untuk setiap alat dalam giliran ini. |
semanticSimilarityMetrics[] |
Hanya output. Metrik untuk kesamaan semantik dalam giliran ini. |
hallucinationMetrics[] |
Hanya output. Metrik untuk halusinasi dalam giliran ini. |
toolCallLatencyMetrics[] |
Hanya output. Metrik untuk latensi panggilan alat dalam giliran ini. |
turnLatencyMetrics[] |
Hanya output. Metrik untuk latensi giliran dalam giliran ini. |
Anotasi Alat
Petunjuk Destruktif: ❌ | Petunjuk Idempoten: ❌ | Petunjuk Hanya Baca: ❌ | Petunjuk Dunia Terbuka: ❌