Observabilitas di Google Cloud

Google Cloud Observability mencakup layanan observabilitas yang membantu Anda memahami perilaku, kondisi, dan performa aplikasi Anda, termasuk aplikasi berbasis agen. Visibilitas tentang perilaku aplikasi dan cara komponen terhubung membantu Anda mengantisipasi, mengidentifikasi, dan merespons perubahan tak terduga dengan lebih cepat dan efektif.

Dokumen ini mencakup informasi berikut:

Kemampuan observasi

Kemampuan observasi adalah pendekatan holistik untuk mengumpulkan dan menganalisis data telemetri guna memahami status aplikasi Anda, termasuk aplikasi agentik, dan lingkungan operasinya. Data telemetri mencakup data log, metrik, dan data aktivitas. Data tersebut juga dapat mencakup data lain yang dihasilkan aplikasi Anda, seperti perintah dan respons. Data telemetri memberikan informasi yang Anda butuhkan untuk memahami kondisi dan performa aplikasi Anda.

Data metrik
Data metrik adalah data numerik tentang kondisi atau performa yang diukur sistem secara berkala, misalnya, pemakaian CPU dan latensi permintaan. Perubahan yang tidak terduga pada data metrik dapat mengindikasikan adanya masalah yang perlu diselidiki. Seiring waktu, Anda juga dapat menganalisis pola untuk lebih memahami pola penggunaan dan mengantisipasi kebutuhan resource.
Data log

Log adalah catatan yang dihasilkan dari aktivitas sistem atau aplikasi dari waktu ke waktu. Setiap log adalah kumpulan entri log yang diberi stempel waktu, dan setiap entri log menjelaskan peristiwa tertentu.

Log sering kali berisi informasi yang kaya dan mendetail yang membantu Anda memahami apa yang terjadi di bagian tertentu aplikasi Anda. Namun, data log tidak secara efektif menunjukkan bagaimana perubahan pada satu komponen aplikasi Anda terkait dengan aktivitas di komponen lain. Data rekaman aktivitas dapat menjembatani kesenjangan tersebut.

Data rekaman aktivitas

Trace mewakili jalur permintaan di seluruh bagian aplikasi terdistribusi Anda. Artinya, setiap rekaman aktivitas mewakili satu operasi end-to-end. Karena terdiri dari span, yang merupakan rekaman untuk satu fungsi atau operasi, rekaman aktivitas memungkinkan Anda mengikuti alur permintaan dan memeriksa data latensi. Informasi ini dapat membantu Anda mengidentifikasi akar penyebab masalah.

Untuk aplikasi agentic, rekaman aktivitas menangkap tindakan yang dilakukan agen Anda. Misalnya, rekaman aktivitas dapat merekam panggilan MCP.

Data lainnya

Anda bisa mendapatkan insight tambahan dengan menganalisis data log, metrik, dan rekaman aktivitas bersama informasi relevan lainnya. Misalnya, label yang menunjukkan keparahan insiden atau ID pelanggan dalam log memberikan konteks yang berguna untuk pemecahan masalah dan proses debug.

Kemampuan observasi agen

Observabilitas agen mengacu pada metode untuk memahami status dan perilaku internal agen software, terutama agen yang didukung AI yang dibangun menggunakan Model Bahasa Besar (LLM). Karena agen AI bersifat non-deterministik dan kompleks, kemampuan observasi sangat penting untuk memahami, men-debug, mengevaluasi, dan meningkatkan performa, keamanan, serta keandalannya.

Google Cloud memberikan dukungan untuk kemampuan pengamatan aplikasi dengan Pemantauan Aplikasi, yang membuat dasbor yang menampilkan telemetri, metrik resource AI, dan informasi seperti insiden terbuka. Untuk mempelajari lebih lanjut, lihat bagian Kemampuan observasi agen dan aplikasi di Google Cloud dalam dokumen ini.

Kemampuan observasi aplikasi dan APM

Pemantauan Performa Aplikasi (APM) memantau, mendiagnosis, dan mengelola performa, ketersediaan, dan pengalaman pengguna aplikasi software, termasuk aplikasi agentik. Sistem APM biasanya menyediakan dasbor yang menampilkan telemetri dan layanan yang memantau telemetri. Sistem ini membantu Anda mengidentifikasi penyebab kegagalan.

Kemampuan observasi aplikasi menggunakan data telemetri untuk menghasilkan insight yang dapat membantu Anda memahami perilaku aplikasi.

Google Cloud memberikan dukungan untuk kemampuan pengamatan aplikasi dengan Pemantauan Aplikasi, yang membuat dasbor yang menampilkan telemetri, metrik resource AI, dan informasi seperti insiden terbuka. Untuk mempelajari lebih lanjut, lihat bagian Kemampuan observasi agen dan aplikasi di Google Cloud dalam dokumen ini.

Layanan kemampuan observasi

Layanan kemampuan observasi mengumpulkan, menganalisis, dan mengorelasikan data telemetri, seperti data log, metrik, dan trace. Layanan ini membantu Anda menjaga keandalan aplikasi dengan menyediakan kemampuan berikut:

  • Deteksi masalah secara proaktif sebelum berdampak pada pengguna.
  • Memecahkan masalah umum dan masalah baru.
  • Debug aplikasi selama pengembangan.
  • Pahami dampak perubahan pada aplikasi Anda.
  • Temukan insight baru melalui eksplorasi data.

Untuk mempelajari lebih lanjut praktik keandalan, termasuk prinsip dan praktik yang terkait dengan kemampuan observasi, baca buku Site Reliability Engineering: How Google Runs Production Systems. Topiknya mencakup Memantau sistem terdistribusi, Pemberitahuan, dan Pemecahan masalah.

Google Cloud Observability

Layanan di Google Cloud Observability membantu Anda mengumpulkan, menganalisis, dan mengorelasikan data telemetri, baik dari aplikasi maupun dari infrastruktur yang mendasarinya. Layanan ini juga menyediakan default bawaan untuk membantu Anda memulai dengan lebih cepat. Misalnya, Pemantauan Aplikasi membuat dasbor dan peta topologi untuk aplikasi, layanan, dan workload yang terdaftar di App Hub Anda.

Pengumpulan data telemetri otomatis

Monitoring, Logging, dan Trace adalah salah satu layanan yang diaktifkan secara default saat Anda membuat project Google Cloud . Layanan ini menyediakan kemampuan inti untuk mengumpulkan, menganalisis, dan memvisualisasikan telemetri Anda:

  • Mengumpulkan telemetri secara otomatis untuk sebagian besar Google Cloud layanan.
  • Mengumpulkan log audit secara otomatis untuk sebagian besar layanan Google Cloud.
  • Menyediakan layanan visualisasi, termasuk dasbor dan penjelajah telemetri, yang memungkinkan Anda melihat dan memeriksa telemetri. Misalnya, Trace explorer memungkinkan Anda melihat rekaman aktivitas, rentang, dan metadata, termasuk perintah dan respons multimodal. Untuk informasi selengkapnya, lihat Mengkueri dan melihat data telemetri.
  • Menyediakan layanan analisis berbasis SQL untuk data log dan rekaman aktivitas Anda. Misalnya, Anda dapat menggunakan BigQuery untuk membandingkan URL dalam log Anda dengan set data publik URL berbahaya yang diketahui.
  • Menyediakan pemantauan aplikasi dan telemetri. Misalnya, Anda dapat membuat kebijakan pemberitahuan yang memberi tahu Anda saat data log atau metrik Anda memenuhi kondisi yang Anda tentukan. Anda juga dapat menggunakan pemantauan sintetis untuk menguji performa aplikasi Anda.
  • Kumpulkan telemetri dari aplikasi yang diinstrumentasi. Instrumentasi adalah kode yang Anda tambahkan ke aplikasi untuk memancarkan data telemetri.

    Untuk menginstrumentasi aplikasi, sebaiknya gunakan framework instrumentasi open source yang netral terhadap vendor, seperti OpenTelemetry, bukan API atau library klien khusus produk dan vendor. Untuk mengetahui informasi tentang framework ini, lihat Pengukuran dan kemampuan observasi dan Memilih pendekatan pengukuran.

Kemampuan observasi agen dan aplikasi

Application Monitoring di Google Cloud menyediakan kemampuan observasi agen dan kemampuan observasi aplikasi. Layanan ini menyediakan dasbor dan peta topologi yang memungkinkan Anda memahami kondisi dan performa aplikasi, layanan, dan beban kerja App Hub Anda. Dasbor ini juga menghasilkan dan menampilkan metrik seperti rasio error dan penggunaan token untuk resource AI. Untuk membuat metrik ini, Pemantauan Aplikasi memfilter dan menggabungkan data rekaman aktivitas Anda menggunakan label dan peristiwa khusus aplikasi yang mengikuti konvensi semantik GenAI OpenTelemetry.

Untuk kemampuan pengamatan agen, sebaiknya bangun agen Anda dengan framework Agent Development Kit (ADK). Karena ADK mengandalkan OpenTelemetry, telemetri yang dihasilkan ADK konsisten dengan konvensi semantik GenAI OpenTelemetry.

Untuk men-debug kegagalan, memantau biaya, atau menganalisis perilaku agen—termasuk dari Platform Agen Gemini Enterprise, Gateway Agen, dan Agen Model Armor—Anda memerlukan data log, metrik, dan aktivitas:

  • Log memberikan informasi tentang peristiwa dan error.
  • Metrik memungkinkan Anda memantau latensi dan penggunaan token.
  • Trace memberikan informasi tentang jalur eksekusi, dan dianalisis untuk mendapatkan metrik seperti jumlah panggilan model atau total penggunaan token. Metrik turunan ini memberikan visibilitas ke dalam performa dan perilaku agen. Untuk mengetahui informasi selengkapnya, lihat Melihat resource AI.
  • Data perintah dan respons memungkinkan Anda menilai kualitas dan pengambilan keputusan agen menggunakan layanan evaluasi AI generatif.

Dasbor Pemantauan Aplikasi untuk aplikasi menampilkan daftar layanan dan beban kerja aplikasi, seperti aplikasi Gemini Enterprise, agen Platform Agen Gemini Enterprise, dan server MCP:

Ringkasan yang mencantumkan layanan dan workload dalam aplikasi.

Anda dapat mengidentifikasi layanan dan beban kerja agentik menggunakan jenis infrastruktur atau jenis fungsional App Hub. Kolom jenis fungsional disembunyikan secara default.

Untuk contoh kode, lihat berikut ini:

Dukungan untuk mengidentifikasi error

Error Reporting menganalisis entri log dari Cloud Logging untuk menemukan error. Saat menemukan error, Error Reporting akan memberi anotasi pada entri log terkait dan membuat grup error. Jelajahi grup error ini untuk mengidentifikasi penyebab dan histori error.

Dukungan pembuatan profil

Cloud Profiler memungkinkan Anda menganalisis penggunaan CPU dan memori untuk aplikasi Anda guna mengidentifikasi peluang untuk meningkatkan performa.

Mulai

Bagian ini menjelaskan langkah-langkah yang dapat Anda lakukan untuk memahami fitur pengamatan di Google Cloud.

Coba panduan memulai

Coba panduan memulai untuk memahami layanan yang tersedia.

Melihat data yang dikumpulkan secara otomatis

Sebagian besar Google Cloud layanan secara otomatis membuat data log dan metrik. Artinya, Anda dapat mulai melihat beberapa data pengamatan untuk layananGoogle Cloud yang didukung tanpa konfigurasi tambahan.

  • Beberapa Google Cloud layanan seperti Google Kubernetes Engine (GKE), Compute Engine, dan Cloud SQL menyediakan dasbor default di konsol Google Cloud untuk melihat data kemampuan observasi dalam konteks layanan.
  • Compute Engine, GKE, dan Cloud Run menghasilkan metrik dan log sistem secara default, dan Anda mengonfigurasi pengumpulan data tambahan.
  • Fungsi Cloud Run dan App Engine secara otomatis menghasilkan metrik, log, dan trace.

Anda juga dapat membuat diagram metrik yang dikumpulkan di Metrics Explorer, melihat log di Logs Explorer, atau melihat rekaman aktivitas di Trace. Untuk meninjau data terkait secara bersamaan, buat dasbor kustom. Misalnya, Anda dapat membuat dasbor yang mencakup log, metrik performa, dan kebijakan pemberitahuan untuk virtual machine.

Mengonfigurasi VM Compute Engine untuk mengumpulkan data tambahan

Secara default, VM Compute Engine hanya mengumpulkan metrik dan log sistem dasar. Namun, Anda dapat menginstal Agen Operasional untuk mengumpulkan telemetri tambahan dari instance dan aplikasi Compute Engine Anda untuk pemecahan masalah, pemantauan performa, dan pemberitahuan. Agen Operasional bukan aplikasi agentik. Sebaliknya, ini adalah bagian software deterministik yang mengumpulkan telemetri.

Mengonfigurasi cluster GKE untuk mengumpulkan data tambahan

Secara default, cluster GKE mengirimkan log sistem dan metrik sistem ke Logging dan Monitoring. Google Cloud Managed Service for Prometheus menangani pengumpulan metrik pihak ketiga dan yang ditentukan pengguna.

  • Gunakan paket metrik kemampuan pengamatan untuk lebih memahami status aplikasi dan resource cluster Anda. Misalnya, metrik bidang kontrol berguna untuk membuat SLO guna memantau ketersediaan dan latensi layanan.
  • Pantau aplikasi pihak ketiga seperti Postgres, MongoDB, dan Redis. Integrasi ini menyediakan dasbor dan kebijakan pemberitahuan yang telah dikonfigurasi sebelumnya.

Mengonfigurasi Cloud Run untuk mengumpulkan data kustom

Jika Anda memiliki layanan Cloud Run yang menulis metrik Prometheus, Anda dapat menggunakan file bantuan Prometheus untuk mengirim metrik ke Cloud Monitoring.

Jika layanan Cloud Run Anda menulis metrik OTLP, Anda dapat menggunakan file bantuan OpenTelemetry. Sebagai contoh, lihat tutorial untuk mengumpulkan metrik OTLP dengan menggunakan file bantuan.