Observabilidad en Google Cloud

Google Cloud Observability incluye servicios de observabilidad que te ayudan a comprender el comportamiento, el estado y el rendimiento de tus aplicaciones, incluidas las aplicaciones basadas en agentes. La visibilidad sobre cómo se comportan las aplicaciones y cómo se conectan los componentes te ayuda a anticipar, identificar y responder a los cambios inesperados con mayor rapidez y eficacia.

Este documento incluye la siguiente información:

Observabilidad

La observabilidad es un enfoque integral para recopilar y analizar datos de telemetría con el objetivo de comprender el estado de tus aplicaciones, incluidas las aplicaciones agentivas, y su entorno operativo. Los datos de telemetría incluyen datos de registros, métricas y seguimientos. También puede incluir otros datos que generan tus aplicaciones, como instrucciones y respuestas. Los datos de telemetría proporcionan la información que necesitas para comprender el estado y el rendimiento de tus aplicaciones.

Datos de métricas
Los datos de métricas son datos numéricos sobre el estado o el rendimiento que el sistema mide en intervalos regulares, por ejemplo, el uso de CPU y la latencia de las solicitudes. Los cambios inesperados en los datos de las métricas pueden indicar un problema que se debe investigar. Con el tiempo, también puedes analizar los patrones para comprender mejor los patrones de uso y anticipar las necesidades de recursos.
Datos de registros

Un registro es un registro generado de la actividad del sistema o de la aplicación a lo largo del tiempo. Cada registro es una colección de entradas de registro con marcas de tiempo, y cada entrada de registro describe un evento específico.

Los registros suelen contener información detallada y abundante que te ayuda a comprender lo que ocurrió en una parte específica de la aplicación. Sin embargo, los datos de registro no muestran de manera eficaz cómo se relaciona un cambio en un componente de tu aplicación con la actividad en otros componentes. Los datos de seguimiento pueden ayudar a eliminar esa brecha.

Datos de seguimiento

Un registro de seguimiento representa la ruta de una solicitud en las partes de tu aplicación distribuida. Es decir, cada registro representa una sola operación de extremo a extremo. Dado que los registros se componen de intervalos, que son registros de una sola función u operación, te permiten seguir el flujo de las solicitudes y examinar los datos de latencia. Esta información puede ayudarte a identificar la causa raíz de un problema.

En el caso de las aplicaciones con agentes, los registros capturan las acciones que realiza tu agente. Por ejemplo, un registro puede capturar llamadas de MCP.

Otros datos

Puedes obtener estadísticas adicionales analizando los datos de registros, métricas y seguimientos junto con otra información pertinente. Por ejemplo, una etiqueta que indica la gravedad de un incidente o un ID de cliente en los registros proporciona un contexto que es útil para solucionar problemas y depurar.

Observabilidad de agentes

La observabilidad del agente se refiere a los métodos para comprender el estado interno y el comportamiento de los agentes de software, en especial los agentes potenciados por IA creados con modelos de lenguaje grandes (LLM). Dado que los agentes de IA son no determinísticos y complejos, la observabilidad es fundamental para comprender, depurar, evaluar y mejorar su rendimiento, seguridad y confiabilidad.

Google Cloud admite la observabilidad de las aplicaciones con Application Monitoring, que crea paneles que muestran telemetría, métricas de recursos de IA e información, como incidentes abiertos. Para obtener más información, consulta la sección Observabilidad de agentes y aplicaciones en Google Cloud de este documento.

Observabilidad de la aplicación y APM

Application Performance Monitoring (APM) supervisa, diagnostica y administra el rendimiento, la disponibilidad y la experiencia del usuario de las aplicaciones de software, incluidas las aplicaciones basadas en agentes. Por lo general, un sistema de APM proporciona paneles que muestran la telemetría y los servicios que la supervisan. Estos sistemas te ayudan a identificar qué está fallando.

La observabilidad de las aplicaciones utiliza datos de telemetría para generar estadísticas que pueden ayudarte a comprender el comportamiento de tus aplicaciones.

Google Cloud admite la observabilidad de las aplicaciones con Application Monitoring, que crea paneles que muestran telemetría, métricas de recursos de IA e información, como incidentes abiertos. Para obtener más información, consulta la sección Observabilidad de agentes y aplicaciones en Google Cloud de este documento.

Servicios de observabilidad

Los servicios de observabilidad recopilan, analizan y correlacionan datos de telemetría, como datos de registros, métricas y seguimientos. Estos servicios te ayudan a mantener la confiabilidad de las aplicaciones, ya que proporcionan las siguientes capacidades:

  • Detectar problemas de forma proactiva antes de que afecten a los usuarios
  • Solucionar problemas conocidos y nuevos
  • Depurar aplicaciones durante el desarrollo
  • Comprende el impacto de los cambios en tus aplicaciones.
  • Descubre nuevas estadísticas a través de la exploración de datos.

Para obtener más información sobre las prácticas de confiabilidad, incluidos los principios y las prácticas relacionadas con la observabilidad, lee el libro Ingeniería de confiabilidad de sitios: Cómo Google ejecuta los sistemas de producción. Entre los temas, se incluyen Supervisión de sistemas distribuidos, Alertas y Solución de problemas.

Google Cloud Observability

Los servicios en Google Cloud Observability te ayudan a recopilar, analizar y correlacionar los datos de telemetría, tanto de tus aplicaciones como de la infraestructura subyacente. Estos servicios también proporcionan valores predeterminados integrados para ayudarte a comenzar más rápido. Por ejemplo, Application Monitoring crea paneles y mapas de topología para tus aplicaciones, servicios y cargas de trabajo registrados en App Hub.

Recopilación automática de datos de telemetría

Monitoring, Logging y Trace se encuentran entre los servicios habilitados de forma predeterminada cuando creas un proyecto de Google Cloud . Estos servicios proporcionan las capacidades principales para recopilar, analizar y visualizar tu telemetría:

  • Recopila automáticamente datos de telemetría para la mayoría de los Google Cloud servicios.
  • Recopila automáticamente registros de auditoría para la mayoría de los servicios de Google Cloud.
  • Proporcionar servicios de visualización, incluidos paneles y exploradores de telemetría, que te permiten ver y examinar tu telemetría Por ejemplo, el Explorador de registros te permite ver registros, tramos y metadatos, incluidas las instrucciones y las respuestas multimodales. Para obtener más información, consulta Cómo consultar y ver datos de telemetría.
  • Proporcionar servicios de análisis basados en SQL para tus datos de registro y de seguimiento Por ejemplo, puedes usar BigQuery para comparar las URLs de tus registros con un conjunto de datos públicos de URLs maliciosas conocidas.
  • Proporcionar supervisión de la aplicación y telemetría Por ejemplo, puedes crear políticas de alertas que te notifiquen cuando tus datos de registros o métricas cumplan con las condiciones que especifiques. También puedes usar la supervisión sintética para probar el rendimiento de tus aplicaciones.
  • Recopila telemetría de tus aplicaciones instrumentadas. La instrumentación es código que agregas a una aplicación para emitir datos de telemetría.

    Para instrumentar tu aplicación, te recomendamos que uses un framework de instrumentación de código abierto y con proveedor neutro, como OpenTelemetry, en lugar de las APIs o bibliotecas cliente específicas de proveedor y producto. Para obtener información sobre estos frameworks, consulta Instrumentación y observabilidad y Elige un enfoque de instrumentación.

Observabilidad de agentes y aplicaciones

La Supervisión de la aplicación en Google Cloud proporciona observabilidad del agente y de la aplicación. Este servicio proporciona paneles y mapas de topología que te permiten comprender el estado y el rendimiento de tus aplicaciones, servicios y cargas de trabajo de App Hub. También genera y muestra métricas, como las tasas de error y el uso de tokens para los recursos de IA. Para generar estas métricas, Application Monitoring filtra y agrega tus datos de seguimiento con etiquetas y eventos específicos de la aplicación que siguen las convenciones semánticas de OpenTelemetry GenAI.

Para la observabilidad del agente, te recomendamos que los compiles con el framework del Kit de desarrollo de agentes (ADK). Dado que el ADK se basa en OpenTelemetry, la telemetría que genera el ADK es coherente con las convenciones semánticas de OpenTelemetry GenAI.

Para depurar errores, supervisar costos o analizar el comportamiento de los agentes (incluidos los de la plataforma de agentes de Gemini Enterprise, la puerta de enlace del agente y Model Armor), necesitas datos de registros, métricas y registros de seguimiento:

  • Los registros proporcionan información sobre eventos y errores.
  • Las métricas te permiten supervisar la latencia y el uso de tokens.
  • Los registros proporcionan información sobre las rutas de ejecución y se analizan para derivar métricas, como la cantidad de llamadas al modelo o el uso total de tokens. Estas métricas derivadas proporcionan visibilidad sobre el rendimiento y el comportamiento de los agentes. Para obtener más información, consulta Cómo ver recursos de IA.
  • Los datos de instrucciones y respuestas te permiten evaluar la calidad y la toma de decisiones del agente con el servicio de evaluación de IA generativa.

En el panel de Application Monitoring de una aplicación, se muestra una lista de los servicios y las cargas de trabajo de la aplicación, como las apps de Gemini Enterprise, los agentes de la plataforma de agentes de Gemini Enterprise y los servidores de MCP:

Es un resumen que enumera los servicios y las cargas de trabajo de una aplicación.

Puedes identificar los servicios y las cargas de trabajo de agentes con el tipo de infraestructura o el tipo funcional de App Hub. La columna de tipo funcional está oculta de forma predeterminada.

Para ver ejemplos de código, consulta lo siguiente:

Asistencia para identificar errores

Error Reporting analiza las entradas de registro de Cloud Logging en busca de errores. Cuando Error Reporting encuentra errores, anota las entradas de registro asociadas y crea un grupo de errores. Explora estos grupos de errores para identificar la causa y el historial del error.

Compatibilidad con la generación de perfiles

Cloud Profiler te permite analizar el uso de CPU y memoria de tus aplicaciones para identificar oportunidades de mejorar el rendimiento.

Comenzar

En esta sección, se describen los pasos que puedes seguir para familiarizarte con las funciones de observabilidad en Google Cloud.

Prueba las guías de inicio rápido

Prueba las guías de inicio rápido para familiarizarte con los servicios disponibles.

Cómo ver los datos recopilados automáticamente

La mayoría de los servicios de Google Cloud generan automáticamente datos de registros y métricas. Esto significa que puedes comenzar a ver algunos datos de observabilidad de los servicios deGoogle Cloud compatibles sin configuración adicional.

  • Algunos Google Cloud servicios, como Google Kubernetes Engine (GKE), Compute Engine y Cloud SQL, proporcionan paneles predeterminados en la Google Cloud consola para ver los datos de observabilidad en el contexto del servicio.
  • Compute Engine, GKE y Cloud Run generan métricas y registros del sistema de forma predeterminada, y tú configuras la recopilación de datos adicionales.
  • Cloud Run Functions y App Engine generan métricas, registros y seguimientos de manera automática.

También puedes graficar las métricas recopiladas en el Explorador de métricas, ver los registros en el Explorador de registros o ver los seguimientos en Trace. Para revisar los datos relacionados en conjunto, crea paneles personalizados. Por ejemplo, puedes crear un panel que incluya registros, métricas de rendimiento y políticas de alertas para máquinas virtuales.

Configura las VMs de Compute Engine para recopilar datos adicionales

De forma predeterminada, las VMs de Compute Engine solo recopilan métricas y registros del sistema básicos. Sin embargo, puedes instalar el Agente de operaciones para recopilar telemetría adicional de tus instancias y aplicaciones de Compute Engine para solucionar problemas, supervisar el rendimiento y generar alertas. El Agente de operaciones no es una aplicación basada en agentes. En cambio, es un software determinístico que recopila telemetría.

Configura clústeres de GKE para recopilar datos adicionales

De forma predeterminada, los clústeres de GKE envían registros del sistema y métricas del sistema a Logging y Monitoring. Google Cloud Managed Service para Prometheus controla la recopilación de métricas definidas por el usuario y de terceros.

  • Usa los paquetes de métricas de observabilidad para comprender mejor el estado de tus aplicaciones y recursos del clúster. Por ejemplo, las métricas del plano de control son útiles para crear SLO a fin de supervisar la disponibilidad y la latencia del servicio.
  • Supervisa aplicaciones de terceros, como Postgres, MongoDB y Redis. Estas integraciones proporcionan paneles preconfigurados y políticas de alertas.

Configura Cloud Run para recopilar datos personalizados

Si tienes un servicio de Cloud Run que escribe métricas de Prometheus, puedes usar el archivo adicional de Prometheus para enviar las métricas a Cloud Monitoring.

Si tu servicio de Cloud Run escribe métricas de OTLP en su lugar, puedes usar un archivo adicional de OpenTelemetry. Si deseas ver un ejemplo, consulta el instructivo para recopilar métricas de OTLP mediante el archivo adicional.