Incidentes de políticas de alertas basadas en métricas

Un incidente es un registro de cuándo se cumplen las condiciones de una política de alertas. Si una política de alertas contiene varias condiciones, la política de alertas especifica si es suficiente con que se cumpla una condición para que se cree un incidente. Normalmente, cuando se cumplen las condiciones, Cloud Monitoring abre un incidente y envía una notificación. Sin embargo, no se crean incidentes en las siguientes circunstancias:

  • La política se ha pospuesto o inhabilitado.
  • El número de políticas o incidentes de alertas supera los límites de alertas.

Por cada incidente, Monitoring crea una página Detalles del incidente que le permite gestionar el incidente y que informa sobre la información del incidente que puede ayudarle a solucionar el problema. Por ejemplo, la página Detalles del incidente muestra la cronología del incidente y un gráfico con los datos de métricas que se están monitorizando. También puedes encontrar enlaces a incidentes y entradas de registro relacionados.

En este documento se describe cómo puede encontrar sus incidencias. También se describe cómo puedes usar la página Detalles del incidente para gestionar los incidentes de las políticas de alertas basadas en métricas, que evalúan los datos de series temporales almacenados en Cloud Monitoring.

Esta función solo se admite en proyectos de Google Cloud . En las configuraciones de App Hub, selecciona el proyecto host o el proyecto de gestión de App Hub.

Antes de empezar

Para obtener los permisos que necesitas para ver y gestionar incidencias, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tu proyecto:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Para obtener más información sobre los roles de Cloud Monitoring, consulta Controlar el acceso con Gestión de Identidades y Accesos.

Ver incidentes

Para ver los incidentes de tu proyecto, usa la Google Cloud consola, la CLI de gcloud (vista previa pública) o la API Monitoring (vista previa pública).

Google Cloud console

Para enumerar los incidentes de tu Google Cloud proyecto, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página  Alertas:

    Ve a Alertas.

    Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuya sección sea Monitorización.

  2. En la barra de herramientas de la Google Cloud consola, selecciona tu Google Cloud proyecto. En las configuraciones de App Hub, selecciona el proyecto host o el proyecto de gestión de App Hub.

    En la página Alertas se muestra información sobre tus políticas de alertas, las alertas pospuestas y los incidentes:

    • En el panel Resumen se indica el número de incidencias abiertas.
    • En la tabla Incidentes se muestran los incidentes abiertos más recientes. Para ver los incidentes más recientes en la tabla, incluidos los que están cerrados, haga clic en Mostrar incidentes cerrados.
  3. Para ver los detalles de un incidente concreto, selecciónalo en la lista.

    Se abrirá la página Detalles del incidente. Para obtener más información sobre la página Detalles del incidente, consulta la sección Investigar un incidente de este documento.

Buscar incidentes antiguos

En la tabla Incidentes de la página Alertas se muestran los incidentes abiertos más recientes. Para ver incidentes anteriores, haz una de las siguientes acciones:

  • Para desplazarte por las entradas de la tabla Incidentes, haz clic en  Más recientes o  Más antiguos.

  • Para abrir una página en la que puede ver y filtrar sus incidentes, haga clic en Ver todos los incidentes. Se abrirá la página Incidentes. En esa página, haz lo siguiente:

    • Muestra todos los incidentes, incluidos los cerrados. Para mostrar todos los incidentes, haz clic en Mostrar incidentes cerrados.
    • Filtra incidentes. Para obtener información sobre cómo añadir filtros, consulta el artículo Filtrar incidentes.
    • Confirmar o cerrar un incidente, o posponer su política de alertas. Para acceder a estas opciones, haz clic en  Más opciones en la fila del incidente y selecciona una opción del menú. Para obtener más información, consulta Gestionar incidencias.

Filtra incidentes

Para restringir los incidentes que se muestran en la tabla, añade filtros. Si añade varios filtros, en la tabla solo se mostrarán los incidentes que cumplan todos los filtros.

Para filtrar la tabla de incidencias, siga estos pasos:

  1. En la página Incidentes, haga clic en  Filtrar tabla y, a continuación, seleccione una propiedad de filtro. Las propiedades de filtro incluyen las siguientes:

    • Estado del incidente
    • Nombre de la política de alertas
    • Cuándo se abrió o cerró el incidente
    • Tipo de métrica
    • Tipo de recurso
  2. Selecciona un valor en el menú secundario o introduce un valor en la barra de filtros.

    Por ejemplo, si selecciona Tipo de métrica e introduce usage_time, es posible que solo vea las siguientes opciones en el menú secundario:

    agent.googleapis.com/cpu/usage_time
    compute.googleapis.com/guest/container/cpu/usage_time
    container.googleapis.com/container/cpu/usage_time
    

    En la tabla Incidentes se muestra el filtro.

gcloud

Puedes usar gcloud para obtener incidentes y enumerarlos.

Get incident

Antes de usar cualquiera de los datos de los comandos que se indican a continuación, haz las siguientes sustituciones:

  • ALERT_NAME: nombre del recurso de la alerta. Por ejemplo, projects/my-project/alerts/my-alert-id.

Ejecuta el comando gcloud alpha monitoring alerts describe:

Linux, macOS o Cloud Shell

gcloud alpha monitoring alerts describe ALERT_NAME

Windows (PowerShell)

gcloud alpha monitoring alerts describe ALERT_NAME

Windows (cmd.exe)

gcloud alpha monitoring alerts describe ALERT_NAME
El comando devuelve una respuesta con detalles de la alerta, como el estado de la alerta, las etiquetas asociadas y la política de alertas de origen. Ten en cuenta que las etiquetas de la respuesta pueden cambiar mientras esta función esté en versión preliminar. La respuesta será similar a la siguiente:
{
  "name": "projects/my-project/alerts/my-alert-id1",
  "state": "OPEN",
  "open_time": "2025-06-11T09:53:46Z",
  "close_time": "2025-06-13T10:11:36Z",
  "resource": {
    "type": "gce_instance",
    "labels": {
      "zone": "us-west1",
      "instance_id": "123456789",
      "project_id": "my-project"
    }
  },
  "metric": {
    "labels": {
      "instance_name": "my-instance1"
    },
    "type": "compute.googleapis.com/instance/cpu/usage_time"
  },
  "policy": {
    "name": "projects/my-project/alertPolicies/POLICY_1",
    "displayName": "my-policy"
  },
  "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
}

Mostrar incidentes

Puede enumerar los incidentes de su proyecto y filtrar los resultados con gcloud CLI.

Antes de usar cualquiera de los datos de los comandos que se indican a continuación, haz las siguientes sustituciones:

  • PROJECT_ID: identificador del proyecto.

Ejecuta el comando gcloud alpha monitoring alerts list:

Linux, macOS o Cloud Shell

gcloud alpha monitoring alerts list

Windows (PowerShell)

gcloud alpha monitoring alerts list

Windows (cmd.exe)

gcloud alpha monitoring alerts list
El comando devuelve una respuesta con detalles de la alerta, como el estado de la alerta, las etiquetas asociadas y la política de alertas de origen. Ten en cuenta que las etiquetas de la respuesta pueden cambiar mientras esta función esté en versión preliminar. La respuesta será similar a la siguiente:
{
  "alerts": [
    {
      "name": "projects/my-project/alerts/my-alert-id1",
      "state": "OPEN",
      "open_time": "2025-06-11T09:53:46Z",
      "close_time": "2025-06-13T10:11:36Z",
      "resource": {
        "type": "gce_instance",
        "labels": {
          "zone": "us-west1",
          "instance_id": "123456789",
          "project_id": "my-project"
        }
      },
      "metric": {
        "labels": {
          "instance_name": "my-instance1"
        },
        "type": "compute.googleapis.com/instance/cpu/usage_time"
      },
      "policy": {
        "name": "projects/my-project/alertPolicies/POLICY_1",
        "displayName": "my-policy"
      },
      "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
    }
  ]
}
También puede usar las siguientes marcas opcionales para filtrar, ordenar o modificar el resultado:
  • --filter: proporciona una expresión de filtro para filtrar las alertas por hora o por etiqueta. Por ejemplo, puedes filtrar por hora con --filter='close_time>="2025-09-10T00:00:00Z"' o por etiqueta con --filter='resource.labels.key="value"'.

  • --sort-by: lista separada por comas de los campos por los que se debe ordenar el resultado. Por ejemplo, --sort-by=open_time.

  • --uri: el comando genera una lista de URIs de recursos en lugar de la salida predeterminada.

  • --limit: asigna a esta marca el valor 2 o uno superior para limitar el número de alertas devueltas. No uses esta marca junto con la marca --filter.

API de Monitoring

Puedes usar la API Monitoring para obtener incidentes y enumerarlos.

Get incident

Para obtener información sobre un solo incidente con la API Monitoring, usa el método alerts.get.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: identificador del proyecto.
  • ALERT_ID: el ID de la alerta.

Método HTTP y URL:

GET https://monitoring.googleapis.com/v3/projects/PROJECT_ID/alerts/ALERT_ID

Para enviar tu solicitud, despliega una de estas opciones:

El comando devuelve una respuesta con detalles de la alerta, como el estado de la alerta, las etiquetas asociadas y la política de alertas de origen. Ten en cuenta que las etiquetas de la respuesta pueden cambiar mientras esta función esté en versión preliminar. La respuesta será similar a la siguiente:
{
  "name": "projects/my-project/alerts/my-alert-id1",
  "state": "OPEN",
  "open_time": "2025-06-11T09:53:46Z",
  "close_time": "2025-06-13T10:11:36Z",
  "resource": {
    "type": "gce_instance",
    "labels": {
      "zone": "us-west1",
      "instance_id": "123456789",
      "project_id": "my-project"
    }
  },
  "metric": {
    "labels": {
      "instance_name": "my-instance1"
    },
    "type": "compute.googleapis.com/instance/cpu/usage_time"
  },
  "policy": {
    "name": "projects/my-project/alertPolicies/POLICY_1",
    "displayName": "my-policy"
  },
  "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
}

Mostrar incidentes

Para enumerar los incidentes de tu proyecto y filtrar los resultados con la API Monitoring, usa el método alerts.list.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: identificador del proyecto.

Método HTTP y URL:

GET https://monitoring.googleapis.com/v3/projects/PROJECT_ID/alerts

Para enviar tu solicitud, despliega una de estas opciones:

El comando devuelve una respuesta con detalles de la alerta, como el estado de la alerta, las etiquetas asociadas y la política de alertas de origen. Ten en cuenta que las etiquetas de la respuesta pueden cambiar mientras esta función esté en versión preliminar. La respuesta será similar a la siguiente:
{
  "alerts": [
    {
      "name": "projects/my-project/alerts/my-alert-id1",
      "state": "OPEN",
      "open_time": "2025-06-11T09:53:46Z",
      "close_time": "2025-06-13T10:11:36Z",
      "resource": {
        "type": "gce_instance",
        "labels": {
          "zone": "us-west1",
          "instance_id": "123456789",
          "project_id": "my-project"
        }
      },
      "metric": {
        "labels": {
          "instance_name": "my-instance1"
        },
        "type": "compute.googleapis.com/instance/cpu/usage_time"
      },
      "policy": {
        "name": "projects/my-project/alertPolicies/POLICY_1",
        "displayName": "my-policy"
      },
      "summaryText": "[ALERT] VM Instance - CPU usage on my-project my-instance1"
    }
  ]
}
Los usuarios de Curl pueden añadir la marca --data-urlencode seguida de una expresión de filtro para filtrar las alertas por hora o etiqueta. Consulta los siguientes ejemplos:

Lista de alertas que se han abierto en la última hora:

--data-urlencode "filter=(open_time>=\"`date -u -d "1 hour ago" +"%Y-%m-%dT%H:%M:%SZ"`\")"

Lista y filtra las alertas que están abiertas del último día:

--data-urlencode "filter=(open_time>=\"`date -u -d "1 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\" AND state=open)"

Lista y filtra las alertas que se abrieron entre dos periodos:

--data-urlencode "filter=(open_time>=\"`date -u -d "2 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\" AND open_time<=\"`date -u -d "1 DAY ago" +"%Y-%m-%dT%H:%M:%SZ"`\")"

Lista y filtra alertas por etiqueta de usuario. En este ejemplo, se filtra por una etiqueta de usuario con el nombre app y el valor my-gke-app:

--data-urlencode "filter=(policy.user_labels.app=\"my-gke-app\")"
Los usuarios de PowerShell pueden usar el siguiente ejemplo para añadir un filtro basado en el tiempo a la URL de su solicitud:
$baseUrl = "https://monitoring.googleapis.com/v3/projects/my-project/alerts"
$filterValue = (Get-Date).AddHours(-1).ToString("yyyy-MM-ddTHH:mm:ssZ")
$filter = 'open_time >= "' + $filterValue + '"'
$encodedFilter = [System.Uri]::EscapeDataString($filter)
$url = $baseUrl + "?filter=" + $encodedFilter

Investigar un incidente

La página Detalles del incidente contiene información que puede ayudarte a identificar la causa de un incidente.

Consultar datos de métricas

Para analizar el estado de su métrica antes y después de que se haya producido el incidente, utilice el gráfico Métricas de alerta. En este gráfico se muestra una cronología y la serie temporal que ha provocado que se cumpla la condición de tu política de alertas.

Puede ajustar el intervalo de la cronología para buscar tendencias y patrones en los datos de métricas en relación con el incidente:

  • Para alternar entre mostrar solo las series temporales que han provocado que se cumpla la condición y mostrar todas las series temporales que evalúa la condición, haga clic en Mostrar todas las series temporales.

  • Para cambiar el periodo que se muestra en el gráfico, puedes usar el selector de periodo de la barra de herramientas o destacar periodos en el gráfico con el puntero.

También puede analizar sus datos de métricas con más detalle en el explorador de métricas. Para ello, vaya al gráfico Métricas de alertas y haga clic en Explorar datos. De forma predeterminada, el Explorador de métricas agrega y filtra los datos de métricas para que el gráfico de métricas se ajuste a la serie temporal que se muestra en la cronología Métricas de alerta.

Consultar entradas de registro

El panel Registros de la página Detalles del incidente muestra las entradas de registro que coinciden con el tipo de recurso y las etiquetas del recurso monitorizado de tu métrica. Puedes analizar estas entradas de registro para encontrar información adicional que te ayude a solucionar el incidente.

  • Para ver las entradas de registro en el Explorador de registros, haz clic en Ver en el Explorador de registros y, a continuación, selecciona un proyecto de ámbito. El Explorador de registros proporciona herramientas adicionales para analizar los datos de las entradas de registro, como una cronología de cuándo se crearon las entradas de registro relacionadas.
  • Para ver y editar la consulta usada para filtrar las entradas de registro en el Explorador de métricas, haz clic en Explorar datos.

Ver información de la aplicación

Para ver las políticas de alertas asociadas a una aplicación de App Hub, ve a la sección Asociada a la aplicación. En esta sección se muestra el ID de la aplicación y enlaces a un panel de control con información sobre la aplicación. La segunda entrada muestra una carga de trabajo o un servicio, y enlaces a un panel de control.

Ver información complementaria

En la sección Etiquetas se muestran las etiquetas y los valores del recurso monitorizado y de la métrica de la serie temporal que ha provocado el incidente, así como las etiquetas de usuario definidas en la política de alertas. Esta información puede ayudarte a identificar el recurso monitorizado específico que ha provocado el incidente. Para obtener más información, consulta Anotar incidencias con etiquetas.

En la sección Documentación se muestra la plantilla de documentación de las notificaciones que proporcionaste al crear la política de alertas. Esta información puede incluir una descripción de lo que monitoriza la política de alertas, así como consejos para mitigar los problemas. Para obtener más información, consulta Anotar notificaciones con documentación definida por el usuario.

Si no has configurado la documentación de tu política de alertas, en el panel Documentación se mostrará el mensaje "No se ha configurado ninguna documentación".

Para ayudarte a descubrir los problemas subyacentes de tu aplicación, puedes consultar los incidentes relacionados con otras condiciones de la política de alertas.

En la sección Incidentes relacionados se muestra una lista de incidentes que cumplen una de las siguientes condiciones:

  • El incidente se creó cuando se cumplió una condición de la misma política de alertas.
  • El incidente comparte una etiqueta con el incidente que se muestra en la página Detalles del incidente.

Gestionar incidentes

Los incidentes pueden tener uno de los siguientes estados:

  •  Abierta: Se cumplen las condiciones de la política de alertas o no hay datos que indiquen que ya no se cumplen. Si una política de alertas contiene varias condiciones, los incidentes se abren en función de cómo se combinen esas condiciones. Para obtener más información, consulta Políticas con varias condiciones.

  •  Registrado: el incidente está abierto y se ha marcado manualmente como registrado. Normalmente, este estado indica que se está investigando el incidente.

  •  Cerrado: El sistema ha detectado que ya no se cumple la condición, has cerrado el incidente o han pasado 7 días sin que se haya observado que se sigue cumpliendo la condición.

Cuando configures una política de alertas, asegúrate de que el estado estable proporcione una señal cuando todo esté bien. Esto es necesario para asegurarse de que se puede identificar el estado sin errores y, si hay un incidente abierto, para que se cierre. Si no hay ninguna señal que indique que ha dejado de producirse un error, después de abrir un incidente, este permanecerá abierto durante 7 días después de que se active la política de alertas.

Por ejemplo, si crea una política de alertas que le avise cuando el número de errores sea superior a 0, asegúrese de que genere un recuento de 0 errores cuando no haya ninguno. Si la política de alertas devuelve un valor nulo o vacío en el estado sin errores, no habrá ninguna señal que indique cuándo han dejado de producirse los errores. Si es necesario, PromQL te permite especificar un valor predeterminado que se usa cuando no hay ningún valor medido disponible.

Registrar incidentes

Te recomendamos que marques un incidente como confirmado cuando empieces a investigar la causa del incidente.

Para marcar un incidente como confirmado, siga estos pasos:

  1. En la tabla Incidentes de la página Alertas, haga clic en Ver todos los incidentes.
  2. En la página Incidentes, busca el incidente que quieras confirmar y, a continuación, haz una de las siguientes acciones:

    • Haz clic en  Más opciones y, a continuación, selecciona Confirmar.
    • Abre la página de detalles del incidente y haz clic en Confirmar incidente.

Si tu política de alertas está configurada para enviar notificaciones repetidas, reconocer un incidente no detendrá las notificaciones. Para detenerlas, haz una de las siguientes acciones:

  • Crea una suspensión para la política de alertas.
  • Inhabilita la política de alertas.

Posponer una política de alertas

Para evitar que Monitoring cree incidentes y envíe notificaciones durante un periodo específico, pospón la política de alertas relacionada. Cuando aplazas una política de alertas, Monitoring también cierra todos los incidentes relacionados con ella.

Para posponer una alerta de un incidente que estés viendo, haz lo siguiente:

  1. En la página Detalles del incidente, haz clic en Aplazar política.

  2. Selecciona la duración de la repetición. Después de seleccionar la duración de la repetición, esta empezará inmediatamente.

También puedes posponer una política de alertas desde la página Incidentes. Para ello, busca el incidente que quieras posponer, haz clic en  Más opciones y, a continuación, selecciona Posponer. Puedes posponer las políticas de alertas durante las interrupciones para evitar que se envíen más notificaciones durante el proceso de solución de problemas.

Cerrar incidentes

Puedes dejar que Monitoring cierre un incidente por ti o cerrarlo cuando dejen de llegar observaciones. Si cierra un incidente y, después, llegan datos que indican que se cumple la condición, se crea un nuevo incidente. Cuando cierras un incidente, esa acción no cierra ningún otro incidente que esté abierto para la misma condición. Si pospones una política de alertas, los incidentes abiertos se cierran cuando empieza la posposición.

Monitoring cierra automáticamente un incidente cuando se produce alguna de las siguientes situaciones:

  • Condiciones de umbral de métrica:

    • Llega una observación que indica que no se ha superado el umbral.
    • No llegan observaciones, la condición está configurada para cerrar incidentes cuando dejen de llegar observaciones y el estado del recurso subyacente sea desconocido o no esté inhabilitado.

    • No se reciben observaciones durante el periodo de cierre automático de la política de alertas y la condición no está configurada para cerrar automáticamente los incidentes cuando dejen de recibirse observaciones. Para configurar la duración del cierre automático, puedes usar la consola Google Cloud o la API Monitoring. De forma predeterminada, la duración del cierre automático es de siete días. La duración mínima de cierre automático es de 30 minutos.

  • Condiciones de ausencia de métrica:

    • Se produce una observación.
    • No se reciben observaciones durante 24 horas después de que caduque la duración de cierre automático de la política de alertas. Para configurar la duración del cierre automático, puedes usar la consola o la API Monitoring. Google Cloud De forma predeterminada, la duración del cierre automático es de siete días.
  • Condiciones de previsión:

    • Se genera una previsión que predice que la serie temporal no superará el umbral en la ventana de previsión.
    • No se reciben observaciones durante 10 minutos, la condición está configurada para cerrar incidentes cuando dejen de recibirse observaciones y el estado del recurso subyacente sea desconocido o no esté inhabilitado.

    • No se reciben observaciones durante el periodo de cierre automático de la política de alertas y la condición no está configurada para cerrar automáticamente los incidentes cuando dejen de recibirse observaciones.

Por ejemplo, una política de alertas ha generado un incidente porque la latencia de respuesta HTTP ha sido superior a 2 segundos durante 10 minutos consecutivos. Si la siguiente medición de la latencia de respuesta HTTP es inferior o igual a dos segundos, el incidente se cierra. Del mismo modo, si no se reciben datos durante siete días, el incidente se cerrará.

Para cerrar un incidente, sigue estos pasos:

  1. En la tabla Incidentes de la página Alertas, haga clic en Ver todos los incidentes.
  2. En la página Incidentes, busque el incidente que quiera cerrar y, a continuación, haga una de las siguientes acciones:

    • Haz clic en  Ver más y, a continuación, selecciona Cerrar incidencia.
    • Abre la página Detalles del incidente de ese incidente y haz clic en Cerrar incidente.

Si ves el mensaje Unable to close incident with active conditions, no se puede cerrar el incidente porque se han recibido datos en el periodo de alerta más reciente.

Si ves el mensaje Unable to close incident. Please try again in a few minutes., significa que no se ha podido cerrar el incidente debido a un error interno.

Conservación y límites de los datos

Para obtener información sobre los límites y el periodo de conservación de los incidentes, consulta Límites de las alertas.

Siguientes pasos