Google Cloud Observability incluye servicios de observabilidad que te ayudan a comprender el comportamiento, el estado y el rendimiento de tus aplicaciones, incluidas las aplicaciones de agentes. Comprender cómo se comportan las aplicaciones y cómo se conectan los componentes te ayuda a anticipar, identificar y responder a los cambios inesperados de forma rápida y eficaz.
Este documento incluye la siguiente información:
- Definiciones de términos como observabilidad, observabilidad de agentes, y observabilidad de aplicaciones y APM.
- Los beneficios de los servicios de observabilidad para desarrollar y mantener aplicaciones confiables
- Cómo Google Cloud Observability te ayuda a supervisar y mantener el estado de las aplicaciones y la infraestructura
- Pasos para comenzar a usar la observabilidad en Google Cloud.
Observabilidad
La observabilidad es un enfoque integral para recopilar y analizar datos de telemetría que te ayudan a comprender el estado de tus aplicaciones, incluidas las aplicaciones de agentes, y su entorno operativo. Los datos de telemetría incluyen datos de registros, datos de métricas y datos de seguimiento. También pueden incluir otros datos que generan tus aplicaciones, como instrucciones y respuestas. Los datos de telemetría proporcionan la información que necesitas para comprender el estado y el rendimiento de tus aplicaciones.
- Datos de métricas
- Los datos de métricas son datos numéricos sobre el estado o el rendimiento que el sistema mide en intervalos regulares, por ejemplo, el uso de CPU y la latencia de las solicitudes. Los cambios inesperados en los datos de métricas pueden indicar un problema que debes investigar. Con el tiempo, también puedes analizar patrones para comprender los patrones de uso y anticipar las necesidades de recursos.
- Datos de registros
Un registro es un registro generado de la actividad del sistema o de la aplicación a lo largo del tiempo. Cada registro es una colección de entradas de registro con marcas de tiempo, y cada entrada de registro describe un evento específico.
Los datos de registros suelen contener información detallada y abundante que te ayuda a comprender lo que sucedió en una parte específica de la aplicación. Sin embargo, los datos de registros no muestran de manera eficaz cómo se relaciona un cambio en un componente de la aplicación con la actividad en otros componentes. Los datos de seguimiento pueden cerrar esta brecha.
- Datos de seguimiento
Un seguimiento representa la ruta de una solicitud en los componentes de tu aplicación distribuida. Es decir, cada seguimiento representa una sola operación de extremo a extremo. Debido a que los seguimientos se componen de intervalos, que son registros de una sola función u operación, te permiten seguir el flujo de solicitudes y examinar los datos de latencia. Esta información puede ayudarte a identificar la causa raíz de un problema.
En el caso de las aplicaciones de agentes, los seguimientos capturan las acciones que realiza tu agente. Por ejemplo, un seguimiento puede capturar llamadas a MCP.
- Otros datos
Para obtener estadísticas adicionales, analiza los datos de registros, los datos de métricas y los datos de seguimiento junto con otra información pertinente. Por ejemplo, una etiqueta que indica la gravedad de un incidente o un ID de cliente en los datos de registros proporciona un contexto que es útil para solucionar problemas y depurar.
Observabilidad de agentes
La observabilidad de agentes se refiere a los métodos para comprender el estado interno y el comportamiento de los agentes de software, en especial los agentes potenciados por IA creados con modelos de lenguaje grandes (LLM). Los agentes de IA no son deterministas y son complejos. Por lo tanto, la observabilidad es fundamental para comprender, depurar, evaluar y mejorar su rendimiento, seguridad y confiabilidad.
Google Cloud proporciona compatibilidad con la observabilidad de aplicaciones con la Supervisión de la aplicación, que crea paneles que muestran datos de telemetría datos, datos de métricas de recursos de IA y datos como incidentes abiertos. Para obtener más información, consulta la sección Observabilidad de agentes y aplicaciones en Google Cloud este documento.
Observabilidad de aplicaciones y APM
La supervisión del rendimiento de las aplicaciones (APM) supervisa, diagnostica y administra el rendimiento, la disponibilidad y la experiencia del usuario de las aplicaciones de software, incluidas las aplicaciones de agentes. Por lo general, un sistema APM proporciona paneles que muestran datos de telemetría y servicios que supervisan los datos de telemetría. Estos sistemas te ayudan a identificar fallas.
La observabilidad de aplicaciones usa datos de telemetría para generar estadísticas que te ayudan a comprender el comportamiento de tus aplicaciones.
Google Cloud proporciona compatibilidad con la observabilidad de aplicaciones con la Supervisión de la aplicación, que crea paneles que muestran datos de telemetría datos, datos de métricas de recursos de IA y datos como incidentes abiertos. Para obtener más información, consulta la sección Observabilidad de agentes y aplicaciones en Google Cloud este documento.
Servicios de observabilidad
Los servicios de observabilidad recopilan, analizan y correlacionan datos de telemetría, como datos de registros, datos de métricas y datos de seguimiento. Proporcionan las siguientes capacidades para ayudarte a mantener la confiabilidad de las aplicaciones:
- Detectar problemas de forma proactiva antes de que afecten a los usuarios
- Solucionar problemas conocidos y nuevos
- Depurar aplicaciones durante el desarrollo
- Comprender el impacto de los cambios en tus aplicaciones
- Descubrir estadísticas nuevas a través de la exploración de datos
Para obtener más información sobre las prácticas de confiabilidad, incluidos los principios y las prácticas relacionadas con la observabilidad, lee el libro Ingeniería de confiabilidad de sitios: Cómo Google ejecuta los sistemas de producción. Entre los temas, se incluyen la supervisión de sistemas distribuidos, las alertas y la solución de problemas.
Google Cloud Observability
Los servicios en Google Cloud Observability te ayudan a recopilar, analizar y correlacionar datos de telemetría, tanto de tus aplicaciones como de la infraestructura subyacente. Estos servicios también proporcionan valores predeterminados integrados para ayudarte a comenzar. Por ejemplo, la Supervisión de la aplicación crea paneles y mapas de topología para tus aplicaciones, servicios y cargas de trabajo registrados en App Hub.
Recopilación automática de datos de telemetría
Monitoring, Logging, y Trace son servicios que se habilitan de forma predeterminada cuando creas un Google Cloud proyecto. Estos servicios proporcionan las capacidades principales para recopilar, analizar y visualizar tus datos de telemetría:
- Recopila automáticamente datos de telemetría para la mayoría de los Google Cloud servicios.
- Recopila automáticamente registros de auditoría para la mayoría de los Google Cloud servicios.
- Proporciona servicios de visualización, incluidos paneles y exploradores de telemetría, que te permiten ver y examinar tus datos de telemetría. Por ejemplo, el explorador de Trace te permite ver seguimientos, intervalos y metadatos, incluidas las instrucciones y respuestas multimodales. Para obtener más información, consulta Cómo consultar y ver datos de telemetría.
- Proporciona servicios de análisis basados en SQL para tus datos de registros y datos de seguimiento. Por ejemplo, puedes usar BigQuery para comparar URLs en tus datos de registros con un conjunto de datos públicos de URLs maliciosas conocidas.
- Proporciona supervisión de aplicaciones y supervisión de telemetría. Por ejemplo, puedes crear políticas de alertas que te notifiquen cuando tus datos de registros o datos de métricas cumplan con las condiciones que especificaste. También puedes usar la supervisión sintética para probar el rendimiento de tus aplicaciones.
Recopila datos de telemetría de tus aplicaciones instrumentadas. La instrumentación es código que agregas a una aplicación para emitir datos de telemetría.
Para instrumentar tu aplicación, te recomendamos que uses un framework de instrumentación de código abierto y con proveedor neutro, como OpenTelemetry, en lugar de las APIs o bibliotecas cliente específicas de proveedor y producto. Para obtener información sobre estos frameworks, consulta Instrumentación y observabilidad y Elige un enfoque de instrumentación.
Observabilidad de agentes y aplicaciones
Supervisión de la aplicación en Google Cloud proporciona observabilidad de agentes y observabilidad de aplicaciones. Este servicio proporciona paneles y mapas de topología que te permiten comprender el estado y el rendimiento de tus aplicaciones, servicios y cargas de trabajo de App Hub. También genera y muestra métricas, como tasas de errores y uso de tokens para recursos de IA. Para generar estas métricas, la Supervisión de la aplicación filtra y agrega tus datos de seguimiento con etiquetas y eventos específicos de la aplicación que siguen las convenciones semánticas de OpenTelemetry GenAI.
Para la observabilidad de agentes, te recomendamos que compiles tus agentes con el framework del Kit de desarrollo de agentes (ADK). Debido a que ADK se basa en OpenTelemetry, la telemetría que genera ADK es coherente con las convenciones semánticas de OpenTelemetry GenAI.
Para depurar fallas, supervisar costos o analizar el comportamiento de los agentes, incluidos los agentes de Agent Platform de Gemini Enterprise, Agent Gateway y Model Armor, necesitas datos de registros, métricas y seguimientos:
- Los registros proporcionan información sobre eventos y errores.
- Las métricas te permiten supervisar la latencia y el uso de tokens.
- Los seguimientos proporcionan información sobre las rutas de ejecución y se analizan para obtener métricas, como la cantidad de llamadas al modelo o el uso total de tokens. Estas métricas derivadas proporcionan visibilidad del rendimiento y el comportamiento del agente. Para obtener más información, consulta Visualiza recursos de IA.
- Los datos de instrucciones y respuestas te permiten evaluar la calidad y la toma de decisiones del agente con el servicio de evaluación de IA generativa.
El panel de Supervisión de la aplicación para una aplicación muestra una lista de los servicios y las cargas de trabajo de la aplicación, como las apps de Gemini Enterprise, los agentes de Agent Platform de Gemini Enterprise y los servidores de MCP:
Puedes identificar los servicios y las cargas de trabajo de agentes con el tipo de infraestructura o el tipo funcional de App Hub. La columna de tipo funcional está oculta de forma predeterminada.
Para obtener ejemplos de código, consulta lo siguiente:
- Instrumenta aplicaciones de IA generativa.
- Recopila y visualiza instrucciones y respuestas multimodales.
Compatibilidad para identificar errores
Error Reporting analiza las entradas de registro de Cloud Logging para encontrar errores. Cuando Error Reporting encuentra errores, anota las entradas de registro asociadas y crea un grupo de errores. Explora estos grupos de errores para identificar la causa y el historial del error.
Compatibilidad con la creación de perfiles
Cloud Profiler te permite analizar el uso de CPU y memoria de tus aplicaciones para identificar oportunidades para mejorar el rendimiento.
Comenzar
En esta sección, se describen los pasos que puedes seguir para familiarizarte con las funciones de observabilidad en Google Cloud.
Prueba las guías de inicio rápido
Prueba las guías de inicio rápido para familiarizarte con los servicios disponibles.
Visualiza los datos recopilados automáticamente
La mayoría de los Google Cloud servicios generan automáticamente datos de registros y datos de métricas. Esto significa que puedes comenzar a ver algunos datos de observabilidad de los servicios Google Cloud compatibles sin configuración adicional.
- Algunos Google Cloud servicios, como Google Kubernetes Engine (GKE), Compute Engine y Cloud SQL, proporcionan paneles predeterminados en la Google Cloud console para ver los datos de observabilidad en el contexto del servicio.
- Compute Engine, GKE y Cloud Run generan datos de métricas del sistema y datos de registros de forma predeterminada. Tú configuras la recopilación de datos adicionales.
- Cloud Run Functions y App Engine generan automáticamente datos de métricas, datos de registros y datos de seguimiento.
También puedes graficar los datos de métricas recopilados en el Explorador de métricas, ver los datos de registros en el Explorador de registros o ver los datos de seguimiento en Trace. Para revisar los datos relacionados en conjunto, crea paneles personalizados. Por ejemplo, puedes crear un panel que incluya datos de registros, datos de métricas de rendimiento y políticas de alertas para máquinas virtuales.
Configura las VMs de Compute Engine para recopilar datos adicionales
De forma predeterminada, las VMs de Compute Engine solo recopilan datos de métricas y datos de registros básicos del sistema. Sin embargo, puedes instalar el Agente de operaciones para recopilar datos de telemetría adicionales de tus instancias y aplicaciones de Compute Engine para solucionar problemas, supervisar el rendimiento y crear alertas. El Agente de operaciones no es una aplicación de agentes. En cambio, es un software determinista que recopila datos de telemetría.
- Recopila automáticamente datos de métricas del host, como datos de métricas de CPU, GPU, memoria y procesos.
- Recopila automáticamente datos de registros del sistema, como el syslog de las VMs de Linux y el registro de eventos de Windows de las VMs de Windows.
- Puedes observar tus aplicaciones con lo siguiente:
- Integraciones de aplicaciones de terceros para software popular , como Postgres, MongoDB y Java Virtual Machine. Estas integraciones incluyen paneles preconfigurados y políticas de alertas.
- Datos de métricas de Prometheus
- Datos de métricas y datos de seguimiento del protocolo OpenTelemetry (OTLP)
- Datos de registros de la aplicación
- Para obtener un resumen de los datos de telemetría recopilados, consulta la descripción general del Agente de operaciones.
Configura clústeres de GKE para recopilar datos adicionales
De forma predeterminada, los clústeres de GKE envían datos de registros y datos de métricas del sistema a Logging y Monitoring. Google Cloud Managed Service para Prometheus controla la recopilación de datos de métricas de terceros y datos de métricas definidos por el usuario.
- Usa paquetes de datos de métricas de observabilidad para comprender el estado de tus aplicaciones y recursos del clúster. Por ejemplo, los datos de métricas del plano de control son útiles para crear SLOs para supervisar la disponibilidad y la latencia del servicio.
- Supervisa aplicaciones de terceros, como Postgres, MongoDB, y Redis. Estas integraciones proporcionan paneles preconfigurados y políticas de alertas.
Configura Cloud Run para recopilar datos personalizados
Si tienes un servicio de Cloud Run que escribe datos de métricas de Prometheus, puedes usar el archivo adicional de Prometheus para enviar los datos de métricas a Cloud Monitoring.
Si tu servicio de Cloud Run escribe datos de métricas de OTLP en su lugar, puedes usar un archivo adicional de OpenTelemetry. Si deseas ver un ejemplo, consulta el instructivo para recopilar datos de métricas de OTLP mediante el archivo adicional.