Kemampuan observasi agen

Dalam lanskap AI yang berkembang pesat, membangun dan men-deploy agen menghadirkan tantangan unik. Agen AI dapat menyimpang, berhalusinasi, dan mengalami regresi secara diam-diam. Mereka dapat membuat keputusan dan melakukan tindakan yang tidak Anda duga. Agen juga dapat gagal dengan cara yang berbeda dari software non-agen. Observabilitas agen mengacu pada metode untuk mendapatkan insight tentang status dan perilaku internal agen software, terutama agen yang didukung AI seperti yang dibuat menggunakan Model Bahasa Besar (LLM).

Manfaat kemampuan observasi agen

Karena agen AI bersifat non-deterministik dan kompleks, kemampuan observasi sangat penting untuk memahami, men-debug, mengevaluasi, dan meningkatkan performa, keamanan, dan keandalannya.

Aspek utama kemampuan pengamatan agen mencakup pemantauan dan analisis berikut:

  • Interaksi LLM: Lacak perintah, respons, penggunaan token, latensi, dan tingkat error.
  • Penggunaan alat: Pantau alat dan API eksternal yang berinteraksi dengan agen, termasuk jumlah panggilan, keberhasilan atau kegagalan, latensi, dan data yang dipertukarkan.
  • Perilaku dan penalaran agen: Pahami proses pengambilan keputusan agen, urutan langkah-langkah yang diambil, dan perubahan status internal.
  • Performa: Mengukur latensi end-to-end pemanggilan agen, latensi setiap langkah, dan konsumsi resource, yang sering kali melibatkan pelacakan mendetail.
  • Keamanan dan keselamatan: Melacak penegakan kebijakan, mengidentifikasi operasi berisiko, menganalisis keamanan konten, dan memantau pola akses.
  • Kualitas dan evaluasi: Menilai ketepatan, faktualitas, kegunaan, dan kualitas keseluruhan output agen, yang sering kali terintegrasi dengan framework evaluasi.

Apa yang dimaksud dengan kemampuan observasi agen dalam Google Cloud?

Application Monitoring di Google Cloud menyediakan kemampuan observasi agen dan kemampuan observasi aplikasi. Layanan ini menyediakan dasbor dan peta topologi yang memungkinkan Anda memahami kondisi dan performa aplikasi, layanan, dan beban kerja App Hub Anda. Dasbor ini juga menghasilkan dan menampilkan metrik seperti rasio error dan penggunaan token untuk resource AI. Untuk membuat metrik ini, Pemantauan Aplikasi memfilter dan menggabungkan data rekaman aktivitas Anda menggunakan label dan peristiwa khusus aplikasi yang mengikuti konvensi semantik GenAI OpenTelemetry.

Untuk kemampuan observasi agen, sebaiknya bangun agen Anda dengan framework Agent Development Kit (ADK). Karena ADK mengandalkan OpenTelemetry, telemetri yang dihasilkan ADK konsisten dengan konvensi semantik GenAI OpenTelemetry.

Untuk men-debug kegagalan, memantau biaya, atau menganalisis perilaku agen—termasuk dari Platform Agen Gemini Enterprise, Gateway Agen, dan Agen Model Armor—Anda memerlukan data log, metrik, dan aktivitas:

  • Log memberikan informasi tentang peristiwa dan error.
  • Metrik memungkinkan Anda memantau latensi dan penggunaan token.
  • Trace memberikan informasi tentang jalur eksekusi, dan dianalisis untuk mendapatkan metrik seperti jumlah panggilan model atau total penggunaan token. Metrik turunan ini memberikan visibilitas ke dalam performa dan perilaku agen. Untuk mengetahui informasi selengkapnya, lihat Melihat resource AI.
  • Data perintah dan respons memungkinkan Anda menilai kualitas dan pengambilan keputusan agen menggunakan layanan evaluasi AI generatif.

Dasbor Pemantauan Aplikasi untuk aplikasi menampilkan daftar layanan dan beban kerja aplikasi, seperti aplikasi Gemini Enterprise, agen Platform Agen Gemini Enterprise, dan server MCP:

Ringkasan yang mencantumkan layanan dan workload dalam aplikasi.

Anda dapat mengidentifikasi layanan dan beban kerja agentik menggunakan jenis infrastruktur atau jenis fungsional App Hub. Kolom jenis fungsional disembunyikan secara default.

Mulai menggunakan kemampuan pengamatan agen

Untuk mengetahui informasi tentang cara membangun, men-deploy, dan mengelola agen AI yang menggunakan penalaran dan alat untuk melakukan tugas perusahaan yang kompleks, lihat Ringkasan agen.

Untuk mempelajari cara melakukan evaluasi, yang memberikan informasi tentang kualitas agen, lihat Evaluasi agen.

Untuk contoh kode, lihat berikut ini:

Langkah berikutnya

  • Untuk mengetahui informasi tentang cara mengamankan dan mengatur agen Anda, lihat Mengatur agen Anda.