Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menyimulasikan perilaku agen

Sebelum memulai

Untuk menyimulasikan dan mengevaluasi perilaku agen, pastikan Anda telah menyelesaikan hal berikut:

Membuat versi agen: Simulasi memerlukan snapshot konfigurasi agen yang tidak dapat diubah, termasuk petunjuk sistem, alat, dan model, dll. Pastikan Anda telah membuat setidaknya satu versi agen di Registry Agen.
Menginisialisasi SDK: Jika Anda berencana menjalankan simulasi secara terprogram, instal Agent Platform SDK dan inisialisasi klien seperti yang dijelaskan dalam Mengevaluasi agen Anda.

Simulasi memungkinkan Anda membuat rangkaian evaluasi komprehensif dari awal, bahkan tanpa data produksi yang ada. Proses ini menggunakan LLM untuk otomatis membuat kasus pengujian, lalu berperan sebagai pengguna untuk melakukan uji stres pada logika percakapan multi-turn agen Anda.

Alur kerja simulasi 2 langkah

Pengujian agen baru biasanya mengikuti proses dua tahap:

Membuat Skenario: Buat set data "spesifikasi pengujian" berdasarkan petunjuk dan definisi alat agen Anda.
Menyimulasikan Sesi: Jalankan spesifikasi tersebut dengan membuat pengguna simulasi berinteraksi dengan agen Anda untuk menghasilkan jejak perilaku. Jejak adalah catatan faktual dan tidak dapat diubah tentang perilaku agen, termasuk input model, respons, dan panggilan alat.

Pada langkah pertama, sistem akan membuat kasus evaluasi. Kasus evaluasi adalah spesifikasi yang menentukan tugas agen. Setiap kasus terdiri dari dua elemen:

Prompt Awal: Pesan pertama yang dikirim pengguna ke agen.
Rencana Percakapan: "Petunjuk" tersembunyi untuk pengguna simulasi, yang menjelaskan sasaran mereka dan cara mereka harus bereaksi jika agen mengajukan pertanyaan tertentu.

Pada langkah kedua, sistem akan membuat daftar perilaku agen dalam format data agen kanonis.

Membuat skenario di konsol

Di Google Cloud konsol, buka halaman Agent Platform > Agents > Evaluation.
Buka Evaluasi
Klik New evaluation , lalu pilih Simulate sessions.
Masukkan Generation instruction untuk memandu skenario (misalnya, "Generate scenarios where the user tries to book a flight but then changes their mind").
Tinjau tabel yang dibuat. Anda dapat mengedit perintah atau menambahkan kasus pengujian Anda sendiri secara manual.

Menjalankan simulasi pengguna

Setelah skenario dibuat, User Simulator akan bertindak sebagai pengguna untuk mendorong percakapan.

Setelan simulasi pengguna

Saat menjalankan simulasi, Anda dapat mengonfigurasi atribut berikut:

Max Turn: Jumlah maksimum pemanggilan yang diizinkan oleh multi-turn agent run. Properti ini memungkinkan kita menghentikan percakapan yang tidak ada habisnya saat agen dan simulator pengguna terjebak dalam loop yang tidak pernah berakhir. (Nilai default-nya adalah 5).
Model Name: Nama model untuk menyimulasikan pesan pengguna berikutnya untuk multi-turn agent run.
Model Configuration: Konfigurasi model untuk menyimulasikan pesan pengguna.

Contoh SDK: Simulasi Terprogram

Anda juga dapat mem-bootstrap rangkaian evaluasi menggunakan Agent Platform SDK:

# 1. Define agent
travel_agent = Agent(
    model="gemini-3-flash-preview",
    name='travel_agent',
    instruction='You are a travel expert, help users to find flights, book flights with flight ID',
    tools=[find_flights, book_flight],
)

# 2. Generate scenarios from agent info
travel_agent_info = types.evals.AgentInfo.load_from_agent(agent=travel_agent)

eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=travel_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where the user tries to book a flight.",
        "environment_context": "Today is Monday. I am located in San Francisco. Flights to Paris, New York, Tokyo, Chicago, Sydney, etc are available.",
    },
)

# 3. Simulate multi-turn interactions
eval_dataset_with_traces = client.evals.run_inference(
    agent=travel_agent,
    src=eval_dataset,
    config={
        "user_simulator_config": {
            "max_turn": 5
        }
    }
)

Menyimulasikan perilaku agen Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.