"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crea alertas de métricas

Puedes crear una alerta de Monitoring que te notifique cuando un clúster de Managed Service para Apache Spark o una métrica de trabajo supere un umbral especificado.

Crea una alerta

Abre la página Alertas en la consola de Google Cloud .
Haz clic en + Crear política para abrir la página Crear política de alertas.
1. Haz clic en Seleccionar métrica.
  Para ver todas las métricas disponibles de Managed Service para Apache Spark, no solo las relacionadas con un clúster o trabajo existente, anula la selección de "Mostrar solo recursos y métricas activos".
2. En la casilla de entrada "Filtrar por recurso o nombre de métrica", escribe "dataproc" para enumerar las métricas de Managed Service para Apache Spark. Navega por la jerarquía de métricas de Cloud Managed Service para Apache Spark para seleccionar una métrica de clúster, trabajo, lote o sesión.
3. Haz clic en Aplicar.
4. Haz clic en Siguiente para abrir el panel Configurar activador de alertas.
5. Establece un valor de límite para activar la alerta.
6. Haz clic en Siguiente para abrir el panel Configurar notificaciones y finalizar la alerta.
7. Configura los canales de notificación, la documentación y el nombre de la política de alertas.
8. Haz clic en Siguiente para revisar la política de alertas.
9. Haz clic en Crear política para crear la alerta.

Alertas de muestra

En esta sección, se describe una alerta de muestra para un trabajo enviado a Managed Service para Apache Spark y una alerta para un trabajo que se ejecuta como una aplicación de YARN.

Alerta de trabajo de Managed Service para Apache Spark de ejecución prolongada

Managed Service para Apache Spark emite la métrica dataproc.googleapis.com/job/state, que hace un seguimiento del tiempo que un trabajo estuvo en diferentes estados. Esta métrica se encuentra en el Explorador de métricas de la consola de Google Cloud , en el recurso Trabajo de Managed Service para Apache Spark de Cloud (cloud_dataproc_job). Puedes usar esta métrica para configurar una alerta que te notifique cuando el estado del trabajo RUNNING supere un umbral de duración (límite máximo del umbral : 7 días). Para configurar una alerta para un trabajo que se espera que se ejecute durante más de 7 días, consulta Alerta de aplicación de YARN de larga duración.

Configuración de alertas de duración del trabajo

En este ejemplo, se usa el lenguaje de consulta de Prometheus (PromQL) para crear una política de alertas. Para obtener más información, consulta Crea políticas de alertas basadas en PromQL (consola).

sum by (job_id, state) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="RUNNING"
}) != 0

Para activar esta alerta cuando un trabajo se haya ejecutado durante más de 30 minutos, en la pestaña Configurar activación, establece el Intervalo de evaluación en 30 minutos.

Puedes modificar la consulta filtrando por job_id para aplicarla a un trabajo específico:

sum by (job_id) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="RUNNING",
  "job_id"="1234567890"
}) != 0

Alerta de aplicación de YARN de larga duración

En la muestra anterior, se muestra una alerta que se activa cuando un trabajo de Managed Service para Apache Spark se ejecuta durante más tiempo del especificado, pero solo se aplica a los trabajos enviados al servicio de Managed Service para Apache Spark con la consola de Google Cloud , la Google Cloud CLI o con llamadas directas a la API de jobs de Managed Service para Apache Spark. También puedes usar métricas de OSS para configurar alertas similares que supervisen el tiempo de ejecución de las aplicaciones de YARN.

Primero, veamos algunos antecedentes. YARN emite métricas de tiempo de ejecución en varios buckets. De forma predeterminada, YARN mantiene 60, 300 y 1,440 minutos como umbrales de bucket y emite 4 métricas: running_0, running_60, running_300 y running_1440:

running_0 registra la cantidad de trabajos con un tiempo de ejecución entre 0 y 60 minutos.
running_60 registra la cantidad de trabajos con un tiempo de ejecución de entre 60 y 300 minutos.
running_300 registra la cantidad de trabajos con un tiempo de ejecución entre 300 y 1,440 minutos.
running_1440 registra la cantidad de trabajos con un tiempo de ejecución superior a 1,440 minutos.

Por ejemplo, un trabajo que se ejecuta durante 72 minutos se registrará en running_60, pero no en running_0.

Estos umbrales predeterminados de discretización se pueden modificar pasando valores nuevos a la propiedad del clúster yarn:yarn.resourcemanager.metrics.runtime.buckets durante la creación del clúster de Managed Service para Apache Spark. Cuando definas umbrales de bucket personalizados, también deberás definir anulaciones de métricas. Por ejemplo, para especificar umbrales de bucket de 30, 60 y 90 minutos, el comando gcloud dataproc clusters create debe incluir las siguientes marcas:

Umbrales del bucket: ‑‑properties=yarn:yarn.resourcemanager.metrics.runtime.buckets=30,60,90
Anulaciones de métricas: ‑‑metric-overrides=yarn:ResourceManager:QueueMetrics:running_0, yarn:ResourceManager:QueueMetrics:running_30,yarn:ResourceManager:QueueMetrics:running_60, yarn:ResourceManager:QueueMetrics:running_90

Comando de muestra para crear un clúster

gcloud dataproc clusters create test-cluster  \
   --properties ^#^yarn:yarn.resourcemanager.metrics.runtime.buckets=30,60,90  \
   --metric-sources=yarn  \
   --metric-overrides=yarn:ResourceManager:QueueMetrics:running_0,yarn:ResourceManager:QueueMetrics:running_30,yarn:ResourceManager:QueueMetrics:running_60,yarn:ResourceManager:QueueMetrics:running_90

Estas métricas se enumeran en el Explorador de métricas de la consola de Google Cloud en el recurso Instancia de VM (gce_instance).

Configuración de alertas de aplicaciones de YARN

Crea un clúster con los buckets y las métricas requeridos habilitados.
Crea una política de alertas que se active cuando la cantidad de aplicaciones en un bucket de métricas de YARN supere un umbral especificado.
- De manera opcional, agrega un filtro para generar alertas sobre los clústeres que coincidan con un patrón.
- Configura el umbral para activar la alerta.

Alerta de trabajo de Managed Service para Apache Spark fallido

También puedes usar la métrica dataproc.googleapis.com/job/state (consulta la alerta de trabajo de Managed Service para Apache Spark de larga duración) para recibir alertas cuando falla un trabajo de Managed Service para Apache Spark.

No se pudo configurar la alerta de trabajo

Alerta de PromQL

sum by (job_id, state) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="ERROR"
}) != 0

Configuración del activador de alertas

En el siguiente ejemplo, la alerta se activa cuando falla cualquier trabajo de Managed Service para Apache Spark en tu proyecto.

Puedes modificar la consulta filtrando por job_id para aplicarla a un trabajo específico:

sum by (job_id) ({
  "__name__"="dataproc.googleapis.com/job/state",
  "monitored_resource"="cloud_dataproc_job",
  "state"="ERROR",
  "job_id"="1234567890"
}) != 0

Alerta de desviación de la capacidad del clúster

Managed Service para Apache Spark emite la métrica dataproc.googleapis.com/cluster/capacity_deviation, que informa la diferencia entre la cantidad esperada de nodos en el clúster y la cantidad de nodos activos de YARN. Puedes encontrar esta métrica en el Explorador de métricas de la consola deGoogle Cloud en el recurso Clúster de Managed Service para Apache Spark administrado por Cloud. Puedes usar esta métrica para crear una alerta que te notifique cuando la capacidad del clúster se desvíe de la capacidad esperada durante más tiempo del umbral especificado.

Las siguientes operaciones pueden provocar un subregistro temporal de los nodos del clúster en la métrica capacity_deviation. Para evitar alertas de falsos positivos, establece el umbral de alerta de métricas para tener en cuenta estas operaciones:

Creación y actualizaciones de clústeres: La métrica capacity_deviation no se emite durante las operaciones de creación o actualización de clústeres.
Acciones de inicialización del clúster: Las acciones de inicialización se realizan después de que se aprovisiona un nodo.
Actualizaciones de trabajadores secundarios: Los trabajadores secundarios se agregan de forma asíncrona, después de que se completa la operación de actualización.

La ventana de visualización máxima para la métrica del clúster capacity_deviation es de 7 días. Si no se realiza una operación de actualización del clúster durante los 7 días anteriores, la métrica estará vacía.

Configuración de alertas de desviación de capacidad

{
  "__name__"="dataproc.googleapis.com/cluster/capacity_deviation",
  "monitored_resource"="cloud_dataproc_cluster"
} != 0

En el siguiente ejemplo, la alerta se activa cuando la desviación de la capacidad del clúster es distinta de cero durante más de 30 minutos.

Ver alertas

Cuando una condición de límite de una métrica activa una alerta, Monitoring crea un incidente y un evento correspondiente. Puedes ver los incidentes desde la página de alertas de Monitoring en la consola de Google Cloud .

Si definiste un mecanismo de notificación en la política de alertas, como una notificación por correo electrónico o SMS, Monitoring envía una notificación del incidente.

¿Qué sigue?

Consulta la Introducción a las alertas.