MCP Tools Reference: ces.googleapis.com

Alat: create_evaluation_dataset

Membuat set data evaluasi baru.

Contoh berikut menunjukkan cara menggunakan curl untuk memanggil alat MCP create_evaluation_dataset.

Permintaan Curl
                  
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \
--header 'content-type: application/json' \
--header 'accept: application/json, text/event-stream' \
--data '{
  "method": "tools/call",
  "params": {
    "name": "create_evaluation_dataset",
    "arguments": {
      // provide these details according to the tool's MCP specification
    }
  },
  "jsonrpc": "2.0",
  "id": 1
}'
                

Skema Input

Pesan permintaan untuk EvaluationService.CreateEvaluationDataset.

CreateEvaluationDatasetRequest

Representasi JSON
{
  "parent": string,
  "evaluationDatasetId": string,
  "evaluationDataset": {
    object (EvaluationDataset)
  }
}
Kolom
parent

string

Wajib. Aplikasi untuk membuat evaluasi. Format: projects/{project}/locations/{location}/apps/{app}

evaluationDatasetId

string

Opsional. ID yang akan digunakan untuk set data evaluasi, yang akan menjadi komponen akhir dari nama resource set data evaluasi. Jika tidak diberikan, ID unik akan otomatis ditetapkan untuk evaluasi.

evaluationDataset

object (EvaluationDataset)

Wajib. Set data evaluasi yang akan dibuat.

EvaluationDataset

Representasi JSON
{
  "name": string,
  "displayName": string,
  "evaluations": [
    string
  ],
  "createTime": string,
  "updateTime": string,
  "etag": string,
  "createdBy": string,
  "lastUpdatedBy": string,
  "aggregatedMetrics": {
    object (AggregatedMetrics)
  }
}
Kolom
name

string

ID. ID unik set data evaluasi ini. Format: projects/{project}/locations/{location}/apps/{app}/evaluationDatasets/{evaluationDataset}

displayName

string

Wajib. Nama tampilan set data evaluasi yang ditentukan pengguna. Unik dalam Aplikasi.

evaluations[]

string

Opsional. Evaluasi yang disertakan dalam set data ini.

createTime

string (Timestamp format)

Hanya output. Stempel waktu saat set data evaluasi dibuat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

updateTime

string (Timestamp format)

Hanya output. Stempel waktu saat set data evaluasi terakhir diperbarui.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

etag

string

Hanya output. ETag yang digunakan untuk memastikan objek tidak berubah selama operasi baca-ubah-tulis. Jika etag kosong, pembaruan akan menimpa perubahan serentak.

createdBy

string

Hanya output. Pengguna yang membuat set data evaluasi.

lastUpdatedBy

string

Hanya output. Pengguna yang terakhir memperbarui set data evaluasi.

aggregatedMetrics

object (AggregatedMetrics)

Hanya output. Metrik gabungan untuk set data evaluasi ini di semua proses.

Stempel waktu

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z).

nanos

integer

Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif.

AggregatedMetrics

Representasi JSON
{
  "metricsByAppVersion": [
    {
      object (MetricsByAppVersion)
    }
  ]
}
Kolom
metricsByAppVersion[]

object (MetricsByAppVersion)

Hanya output. Metrik gabungan, dikelompokkan menurut ID versi aplikasi.

MetricsByAppVersion

Representasi JSON
{
  "appVersionId": string,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ],
  "passCount": integer,
  "failCount": integer,
  "metricsByTurn": [
    {
      object (MetricsByTurn)
    }
  ]
}
Kolom
appVersionId

string

Hanya output. ID versi aplikasi.

toolMetrics[]

object (ToolMetrics)

Hanya output. Metrik untuk setiap alat dalam versi aplikasi ini.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Hanya output. Metrik untuk kesamaan semantik dalam versi aplikasi ini.

hallucinationMetrics[]

object (HallucinationMetrics)

Hanya output. Metrik untuk halusinasi dalam versi aplikasi ini.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Hanya output. Metrik untuk latensi panggilan alat dalam versi aplikasi ini.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Hanya output. Metrik untuk latensi belokan dalam versi aplikasi ini.

passCount

integer

Hanya output. Jumlah evaluasi yang lulus.

failCount

integer

Hanya output. Jumlah kegagalan evaluasi.

metricsByTurn[]

object (MetricsByTurn)

Hanya output. Metrik yang diagregasi per giliran dalam versi aplikasi ini.

ToolMetrics

Representasi JSON
{
  "tool": string,
  "passCount": integer,
  "failCount": integer
}
Kolom
tool

string

Hanya output. Nama alat.

passCount

integer

Hanya output. Jumlah keberhasilan alat.

failCount

integer

Hanya output. Frekuensi kegagalan alat.

SemanticSimilarityMetrics

Representasi JSON
{
  "score": number
}
Kolom
score

number

Hanya output. Skor kesamaan semantik rata-rata (0-4).

HallucinationMetrics

Representasi JSON
{
  "score": number
}
Kolom
score

number

Hanya output. Skor halusinasi rata-rata (0 hingga 1).

ToolCallLatencyMetrics

Representasi JSON
{
  "tool": string,
  "averageLatency": string
}
Kolom
tool

string

Hanya output. Nama alat.

averageLatency

string (Duration format)

Hanya output. Latensi rata-rata panggilan alat.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

Durasi

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn

nanos

integer

Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom seconds 0 dan kolom nanos positif atau negatif. Untuk durasi satu detik atau lebih, nilai non-nol untuk kolom nanos harus memiliki tanda yang sama dengan kolom seconds. Harus dari -999.999.999 hingga +999.999.999 inklusif.

TurnLatencyMetrics

Representasi JSON
{
  "averageLatency": string
}
Kolom
averageLatency

string (Duration format)

Hanya output. Latensi rata-rata giliran.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

MetricsByTurn

Representasi JSON
{
  "turnIndex": integer,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ]
}
Kolom
turnIndex

integer

Hanya output. Indeks giliran (berbasis 0).

toolMetrics[]

object (ToolMetrics)

Hanya output. Metrik untuk setiap alat dalam giliran ini.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Hanya output. Metrik untuk kesamaan semantik dalam giliran ini.

hallucinationMetrics[]

object (HallucinationMetrics)

Hanya output. Metrik untuk halusinasi dalam giliran ini.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Hanya output. Metrik untuk latensi panggilan alat dalam giliran ini.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Hanya output. Metrik untuk latensi giliran dalam giliran ini.

Skema Output

Set data evaluasi mewakili serangkaian evaluasi yang dikelompokkan bersama berdasarkan tag bersama.

EvaluationDataset

Representasi JSON
{
  "name": string,
  "displayName": string,
  "evaluations": [
    string
  ],
  "createTime": string,
  "updateTime": string,
  "etag": string,
  "createdBy": string,
  "lastUpdatedBy": string,
  "aggregatedMetrics": {
    object (AggregatedMetrics)
  }
}
Kolom
name

string

ID. ID unik set data evaluasi ini. Format: projects/{project}/locations/{location}/apps/{app}/evaluationDatasets/{evaluationDataset}

displayName

string

Wajib. Nama tampilan set data evaluasi yang ditentukan pengguna. Unik dalam Aplikasi.

evaluations[]

string

Opsional. Evaluasi yang disertakan dalam set data ini.

createTime

string (Timestamp format)

Hanya output. Stempel waktu saat set data evaluasi dibuat.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

updateTime

string (Timestamp format)

Hanya output. Stempel waktu saat set data evaluasi terakhir diperbarui.

Menggunakan RFC 3339 yang outputnya akan selalu dinormalisasi Z dan menggunakan 0, 3, 6, atau 9 digit pecahan. Offset selain "Z" juga diterima. Contoh: "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z", atau "2014-10-02T15:01:23+05:30".

etag

string

Hanya output. ETag yang digunakan untuk memastikan objek tidak berubah selama operasi baca-ubah-tulis. Jika etag kosong, pembaruan akan menimpa perubahan serentak.

createdBy

string

Hanya output. Pengguna yang membuat set data evaluasi.

lastUpdatedBy

string

Hanya output. Pengguna yang terakhir memperbarui set data evaluasi.

aggregatedMetrics

object (AggregatedMetrics)

Hanya output. Metrik gabungan untuk set data evaluasi ini di semua proses.

Stempel waktu

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Mewakili detik waktu UTC sejak epoch Unix 1970-01-01T00:00:00Z. Harus antara -62135596800 dan 253402300799 inklusif (yang sesuai dengan 0001-01-01T00:00:00Z hingga 9999-12-31T23:59:59Z).

nanos

integer

Pecahan detik non-negatif pada resolusi nanodetik. Kolom ini adalah bagian nanodetik dari durasi, bukan alternatif untuk detik. Nilai detik negatif dengan pecahan harus tetap memiliki nilai nanos non-negatif yang dihitung maju dalam waktu. Harus antara 0 dan 999.999.999 inklusif.

AggregatedMetrics

Representasi JSON
{
  "metricsByAppVersion": [
    {
      object (MetricsByAppVersion)
    }
  ]
}
Kolom
metricsByAppVersion[]

object (MetricsByAppVersion)

Hanya output. Metrik gabungan, dikelompokkan menurut ID versi aplikasi.

MetricsByAppVersion

Representasi JSON
{
  "appVersionId": string,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ],
  "passCount": integer,
  "failCount": integer,
  "metricsByTurn": [
    {
      object (MetricsByTurn)
    }
  ]
}
Kolom
appVersionId

string

Hanya output. ID versi aplikasi.

toolMetrics[]

object (ToolMetrics)

Hanya output. Metrik untuk setiap alat dalam versi aplikasi ini.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Hanya output. Metrik untuk kesamaan semantik dalam versi aplikasi ini.

hallucinationMetrics[]

object (HallucinationMetrics)

Hanya output. Metrik untuk halusinasi dalam versi aplikasi ini.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Hanya output. Metrik untuk latensi panggilan alat dalam versi aplikasi ini.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Hanya output. Metrik untuk latensi belokan dalam versi aplikasi ini.

passCount

integer

Hanya output. Jumlah evaluasi yang lulus.

failCount

integer

Hanya output. Jumlah kegagalan evaluasi.

metricsByTurn[]

object (MetricsByTurn)

Hanya output. Metrik yang diagregasi per giliran dalam versi aplikasi ini.

ToolMetrics

Representasi JSON
{
  "tool": string,
  "passCount": integer,
  "failCount": integer
}
Kolom
tool

string

Hanya output. Nama alat.

passCount

integer

Hanya output. Jumlah keberhasilan alat.

failCount

integer

Hanya output. Frekuensi kegagalan alat.

SemanticSimilarityMetrics

Representasi JSON
{
  "score": number
}
Kolom
score

number

Hanya output. Skor kesamaan semantik rata-rata (0-4).

HallucinationMetrics

Representasi JSON
{
  "score": number
}
Kolom
score

number

Hanya output. Skor halusinasi rata-rata (0 hingga 1).

ToolCallLatencyMetrics

Representasi JSON
{
  "tool": string,
  "averageLatency": string
}
Kolom
tool

string

Hanya output. Nama alat.

averageLatency

string (Duration format)

Hanya output. Latensi rata-rata panggilan alat.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

Durasi

Representasi JSON
{
  "seconds": string,
  "nanos": integer
}
Kolom
seconds

string (int64 format)

Detik yang ditandatangani dari rentang waktu. Harus dari -315.576.000.000 hingga +315.576.000.000 inklusif. Catatan: batas ini dihitung dari: 60 dtk/mnt * 60 mnt/j * 24 j/hr * 365,25 hr/thn * 10.000 thn

nanos

integer

Pecahan detik bertanda pada resolusi nanodetik rentang waktu. Durasi kurang dari satu detik ditampilkan dengan kolom seconds 0 dan kolom nanos positif atau negatif. Untuk durasi satu detik atau lebih, nilai non-nol untuk kolom nanos harus memiliki tanda yang sama dengan kolom seconds. Harus dari -999.999.999 hingga +999.999.999 inklusif.

TurnLatencyMetrics

Representasi JSON
{
  "averageLatency": string
}
Kolom
averageLatency

string (Duration format)

Hanya output. Latensi rata-rata giliran.

Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan 's'. Contoh: "3.5s".

MetricsByTurn

Representasi JSON
{
  "turnIndex": integer,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ]
}
Kolom
turnIndex

integer

Hanya output. Indeks giliran (berbasis 0).

toolMetrics[]

object (ToolMetrics)

Hanya output. Metrik untuk setiap alat dalam giliran ini.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Hanya output. Metrik untuk kesamaan semantik dalam giliran ini.

hallucinationMetrics[]

object (HallucinationMetrics)

Hanya output. Metrik untuk halusinasi dalam giliran ini.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Hanya output. Metrik untuk latensi panggilan alat dalam giliran ini.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Hanya output. Metrik untuk latensi giliran dalam giliran ini.

Anotasi Alat

Petunjuk Destruktif: ❌ | Petunjuk Idempoten: ❌ | Petunjuk Hanya Baca: ❌ | Petunjuk Dunia Terbuka: ❌