Sebelum memulai
Untuk menyimulasikan dan mengevaluasi perilaku agen, pastikan Anda telah menyelesaikan hal berikut:
- Membuat versi agen: Simulasi memerlukan snapshot konfigurasi agen yang tidak dapat diubah, termasuk petunjuk sistem, alat, dan model, dll. Pastikan Anda telah membuat setidaknya satu versi agen di Registry Agen.
- Menginisialisasi SDK: Jika Anda berencana menjalankan simulasi secara terprogram, instal Agent Platform SDK dan inisialisasi klien seperti yang dijelaskan dalam Mengevaluasi agen.
Simulasi memungkinkan Anda membuat rangkaian evaluasi komprehensif dari awal, bahkan tanpa data produksi yang ada. Proses ini menggunakan LLM untuk otomatis membuat kasus pengujian, lalu berperan sebagai pengguna untuk melakukan uji stres pada logika percakapan multi-giliran agen Anda.
Alur kerja simulasi 2 langkah
Pengujian agen baru biasanya mengikuti proses dua tahap:
Membuat Skenario: Buat set data "spesifikasi pengujian" berdasarkan petunjuk dan definisi alat agen Anda.
Menyimulasikan Sesi: Jalankan spesifikasi tersebut dengan membuat pengguna simulasi berinteraksi dengan agen Anda untuk menghasilkan jejak perilaku. Jejak adalah catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat.
Pada langkah pertama, sistem akan membuat kasus evaluasi. Kasus evaluasi adalah spesifikasi yang menentukan tugas agen. Setiap kasus terdiri dari dua elemen:
- Prompt Awal: Pesan pertama yang dikirim pengguna ke agen.
- Rencana Percakapan: "Petunjuk" tersembunyi untuk pengguna simulasi, yang menjelaskan sasaran mereka dan cara mereka harus bereaksi jika agen mengajukan pertanyaan tertentu.
Pada langkah kedua, sistem akan membuat daftar perilaku agen dalam format data agen kanonis.
Membuat skenario di konsol
Di Google Cloud konsol, buka halaman Agent Platform > Agents > Evaluation.
Klik New evaluation , lalu pilih Simulate sessions.
Masukkan Generation instruction untuk memandu skenario (misalnya, "Buat skenario saat pengguna mencoba memesan tiket pesawat, tetapi kemudian berubah pikiran").
Tinjau tabel yang dibuat. Anda dapat mengedit prompt atau menambahkan kasus pengujian Anda sendiri secara manual.
Menjalankan simulasi pengguna
Setelah skenario dibuat, User Simulator akan bertindak sebagai pengguna untuk mendorong percakapan.
Setelan simulasi pengguna
Saat menjalankan simulasi, Anda dapat mengonfigurasi atribut berikut:
- Max Turn: Jumlah maksimum pemanggilan yang diizinkan oleh eksekusi agen multi-giliran run. Properti ini memungkinkan kita menghentikan percakapan yang tidak ada habisnya saat agen dan simulator pengguna terjebak dalam loop yang tidak pernah berakhir. (Nilai default-nya adalah 5).
- Model Name: Nama model untuk menyimulasikan pesan pengguna berikutnya untuk eksekusi agen multi-giliran.
- Model Configuration: Konfigurasi model untuk menyimulasikan pesan pengguna.
Contoh SDK: Simulasi Terprogram
Anda juga dapat mem-bootstrap rangkaian evaluasi menggunakan Agent Platform SDK:
# 1. Define agent
travel_agent = Agent(
model="gemini-3-flash-preview",
name='travel_agent',
instruction='You are a travel expert, help users to find flights, book flights with flight ID',
tools=[find_flights, book_flight],
)
# 2. Generate scenarios from agent info
travel_agent_info = types.evals.AgentInfo.load_from_agent(agent=travel_agent)
eval_dataset = client.evals.generate_conversation_scenarios(
agent_info=travel_agent_info,
config={
"count": 5,
"generation_instruction": "Generate scenarios where the user tries to book a flight.",
"environment_context": "Today is Monday. I am located in San Francisco. Flights to Paris, New York, Tokyo, Chicago, Sydney, etc are available.",
},
)
# 3. Simulate multi-turn interactions
eval_dataset_with_traces = client.evals.run_inference(
agent=travel_agent,
src=eval_dataset,
config={
"user_simulator_config": {
"max_turn": 5
}
}
)