Sebelum memulai
Untuk menyimulasikan dan mengevaluasi perilaku agen, pastikan Anda telah menyelesaikan hal berikut:
- Buat versi agen: Simulasi memerlukan snapshot konfigurasi agen yang tidak dapat diubah, termasuk petunjuk sistem, alat, dan model, dll. Pastikan Anda telah membuat setidaknya satu versi agen di Agent Registry.
- Lakukan inisialisasi SDK: Jika Anda berencana menjalankan simulasi secara terprogram, instal Agent Platform SDK dan lakukan inisialisasi klien seperti yang dijelaskan dalam Mengevaluasi agen Anda.
Simulasi memungkinkan Anda membuat rangkaian evaluasi komprehensif dari awal, bahkan tanpa data produksi yang ada. Proses ini menggunakan LLM untuk otomatis membuat kasus pengujian, lalu berperan sebagai pengguna untuk menguji ketahanan logika percakapan multi-turn agen Anda.
Alur kerja simulasi 2 langkah
Pengujian agen baru biasanya mengikuti proses dua tahap:
Buat Skenario: Buat set data "spesifikasi pengujian" berdasarkan petunjuk agen dan definisi alat Anda.
Simulasikan Sesi: Jalankan spesifikasi tersebut dengan membuat pengguna simulasi berinteraksi dengan agen Anda untuk menghasilkan rekaman aktivitas perilaku. Trace adalah catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat.
Pada langkah pertama, sistem membuat kasus evaluasi. Kasus evaluasi adalah spesifikasi yang menentukan tugas agen. Setiap kasus terdiri dari dua elemen:
- Perintah Awal: Pesan pertama yang dikirim pengguna ke agen.
- Rencana Percakapan: "Petunjuk" tersembunyi untuk pengguna simulasi, yang menjelaskan tujuan mereka dan cara mereka harus bereaksi jika agen mengajukan pertanyaan tertentu.
Pada langkah kedua, sistem membuat daftar perilaku agen dalam format data agen kanonis.
Membuat skenario di konsol
Di konsol Google Cloud , buka halaman Agent Platform > Agents > Evaluation.
Klik Evaluasi baru, lalu pilih Simulasikan sesi.
Masukkan Petunjuk pembuatan untuk memandu skenario (misalnya, "Buat skenario saat pengguna mencoba memesan penerbangan, tetapi kemudian berubah pikiran").
Tinjau tabel yang dibuat. Anda dapat mengedit perintah atau menambahkan kasus pengujian sendiri secara manual.
Menjalankan simulasi pengguna
Setelah skenario Anda dibuat, Simulator Pengguna akan bertindak sebagai pengguna untuk melanjutkan percakapan.
Setelan simulasi pengguna
Saat menjalankan simulasi, Anda dapat mengonfigurasi atribut berikut:
- Putaran Maksimum: Jumlah maksimum pemanggilan yang diizinkan oleh jalannya agen multi-putaran. Properti ini memungkinkan kami menghentikan percakapan yang tidak dapat diselesaikan di mana agen dan simulator pengguna terjebak dalam loop yang tidak pernah berakhir. (Nilai defaultnya adalah 5).
- Nama Model: Nama model untuk menyimulasikan pesan pengguna berikutnya untuk menjalankan agen multi-giliran.
- Konfigurasi Model: Konfigurasi model untuk menyimulasikan pesan pengguna.
Contoh SDK: Simulasi Terprogram
Anda juga dapat mem-bootstrap rangkaian evaluasi menggunakan Agent Platform SDK:
# 1. Define agent
travel_agent = Agent(
model="gemini-3-flash-preview",
name='travel_agent',
instruction='You are a travel expert, help users to find flights, book flights with flight ID',
tools=[find_flights, book_flight],
)
# 2. Generate scenarios from agent info
travel_agent_info = types.evals.AgentInfo.load_from_agent(agent=travel_agent)
eval_dataset = client.evals.generate_conversation_scenarios(
agent_info=travel_agent_info,
config={
"count": 5,
"generation_instruction": "Generate scenarios where the user tries to book a flight.",
"environment_context": "Today is Monday. I am located in San Francisco. Flights to Paris, New York, Tokyo, Chicago, Sydney, etc are available.",
},
)
# 3. Simulate multi-turn interactions
eval_dataset_with_traces = client.evals.run_inference(
agent=travel_agent,
src=eval_dataset,
config={
"user_simulator_config": {
"max_turn": 5
}
}
)