Supervisa instancias y operaciones

Cloud Monitoring recopila y almacena automáticamente información sobre tu instancia de Managed Lustre.

En este documento, se proporciona una descripción general detallada de las métricas disponibles para supervisar Lustre administrado en Google Cloud. Estas métricas te ayudan a comprender el rendimiento, la capacidad y el estado de tus sistemas de archivos Managed Lustre, de modo que puedas identificar cuellos de botella, solucionar problemas y optimizar el uso de los recursos.

Puedes usar estas métricas en Cloud Monitoring para crear paneles personalizados, configurar alertas y obtener estadísticas más detalladas sobre el comportamiento de tu instancia de Lustre administrado.

Cloud Monitoring se habilita automáticamente para Managed Lustre. No se cobran cargos por la recopilación de datos ni por ver las métricas en la consola deGoogle Cloud . Las llamadas a la API pueden generar cargos. Consulta los precios de Cloud Monitoring para obtener más detalles.

Roles de IAM obligatorios

Se requieren los siguientes roles:

  • Visualizador de Monitoring (roles/monitoring.viewer) o permisos equivalentes para ver las métricas en Cloud Monitoring
  • Editor de Monitoring (roles/monitoring.editor) o permisos equivalentes para configurar alertas

Obtén más información para otorgar un rol de IAM.

Ver métricas

Las métricas de Cloud Monitoring están disponibles en dos ubicaciones de la consola deGoogle Cloud :

  • En la página de detalles de la instancia de Lustre administrada, se muestran las métricas disponibles. Además de las métricas que se indican en esta página, calcula el ancho de banda de los bytes copiados y la tasa de objetos copiados.

  • La página de Cloud Monitoring ofrece varias opciones de gráficos y personalizaciones.

Visualiza las métricas en la página de detalles de la instancia

Para ver las métricas de una instancia específica, sigue estos pasos:

  1. Ve a la página Instancias en la Google Cloud consola.

    Ir a Instancias

  2. Haz clic en la instancia para la que deseas ver las métricas. Aparecerá la página Detalles de la instancia.

  3. Haz clic en la pestaña Monitoring. Se muestra el panel predeterminado.

Visualiza métricas en Cloud Monitoring

Para ver las métricas de Lustre administrado en Cloud Monitoring, haz lo siguiente:

  1. Ve a la página Explorador de métricas en la consola de Google Cloud .

    Ir a Monitoring: Explorador de métricas

  2. Sigue las instrucciones en Crea gráficos con el Explorador de métricas para seleccionar y mostrar tus métricas.

Configura alertas

Puedes configurar políticas de alertas en Cloud Monitoring para recibir notificaciones cuando tu sistema de archivos Lustre administrado cumpla con condiciones específicas, como superar los límites de capacidad de almacenamiento o de capacidad de procesamiento.

Requisitos previos

Para crear políticas de alertas, debes tener el rol de IAM de Editor de Monitoring (roles/monitoring.editor) en el proyecto.

Crea una política de alertas

Para configurar una alerta, define una condición con una métrica o una consulta de PromQL y configura los canales de notificaciones.

  1. En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

    Ir a Monitoring: Alertas

  2. Haz clic en + Crear política.

  3. Selecciona Compilador y elige tu métrica, o bien elige Editor de código para ingresar una consulta con PromQL. En el selector de métricas, las métricas de Managed Lustre se encuentran en los recursos Instancia de Lustre y Ubicación de Lustre.

  4. Configura la lógica del activador y define tus canales de notificación y la configuración de notificaciones.

  5. Haz clic en Crear política.

Para obtener más información sobre cómo crear activadores y otras opciones, consulta los siguientes recursos:

Ejemplo: Crea una alerta de capacidad de almacenamiento

En el siguiente ejemplo, se muestra cómo crear una alerta que se activa cuando tu instancia de Lustre administrado supera el 80% de su capacidad aprovisionada.

  1. En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

    Ir a Monitoring: Alertas

  2. Haz clic en + Crear política.

  3. Selecciona Editor de código.

  4. En el Editor de consultas, pega la siguiente consulta de PromQL:

    (
      sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
      -
      sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
    )
    /
    sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
    > 0.8
    

    Esta consulta calcula la proporción de uso en todas las instancias: (Total - Available) / Total. El valor 0.8 representa los bytes totales que alcanzan el 80% de uso. Para recibir una alerta cuando la batería llegue al 90%, cambia este valor a 0.9.

  5. Haz clic en Ejecutar consulta para verificar la sintaxis y ver un gráfico de la proporción de uso actual.

  6. Haz clic en Siguiente y configura el activador en Cualquier serie temporal es una infracción.

  7. Haz clic en Siguiente. En la sección Documentación, agrega las acciones recomendadas para resolver el problema de capacidad. Por ejemplo:

    ## Action Required: Lustre Capacity Warning
    The Managed Lustre instance is exceeding 80% capacity usage.
    
    **Metric:** Usage Ratio > 0.8
    **Severity:** Warning
    
    **Recommended Actions:**
    1. Check the instance details in the Google Cloud console.
    2. Verify if this is expected data growth or a runaway process.
    3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
    4. Failure to address this may result in "No Space Left on Device" errors for client applications.
    

Crea una política de alertas con gcloud

Puedes crear políticas de alertas con Google Cloud CLI. Ten en cuenta que debes editar la alerta en la consola de Google Cloud más adelante para habilitar canales de notificación específicos.

En el siguiente ejemplo, se crea una alerta de capacidad del 80% con gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detalles de las métricas

Las métricas de Lustre administrado se adjuntan a los siguientes tipos de recurso supervisado:

  • lustre.googleapis.com/Instance
  • lustre.googleapis.com/Job

Se toman muestras de datos cada 60 segundos. Después del muestreo, es posible que los datos no se muestren durante un máximo de 180 segundos.

Métricas de capacidad de almacenamiento

Son métricas relacionadas con el espacio de almacenamiento disponible y aprovisionado en tu sistema de archivos Lustre.

En el caso de las etiquetas de métricas, el valor de target usa el formato <fsname>-<TYPE><HEXA>, en el que <HEXA> es el índice basado en cero del objetivo en hexadecimal. Por ejemplo, si el nombre de tu sistema de archivos es filesys, el OST 43 es filesys-OST002a y el MDT 4 es filesys-MDT0003.

Las métricas de capacidad de almacenamiento se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica Descripción Detalles
available_bytes Cantidad de bytes de espacio de almacenamiento para un destino de almacenamiento de objetos (OST) o un destino de metadatos (MDT) determinado que está disponible para los usuarios que no son raíz. Nombre visible: Bytes disponibles
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de objetivo: ost,mdt o mgt.
target: Es el nombre del destino.
capacity_bytes Es la cantidad de bytes aprovisionados para el destino determinado. El espacio total de datos o metadatos utilizable del clúster para una instancia se puede obtener sumando la capacidad de todos los destinos para un tipo determinado de destino. Nombre visible: Bytes de capacidad
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de destino: ost, mdt o mgt.
target: Es el nombre del destino.
free_bytes Es la cantidad de bytes de espacio de almacenamiento para un OST o MDT determinado que está disponible para los usuarios raíz. Nombre visible: Bytes libres
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de objetivo: ost,mdt o mgt.
target: Es el nombre del destino.

Métricas de inode (objeto)

Son métricas relacionadas con la cantidad de inodos (objetos) disponibles y la capacidad máxima.

Las métricas de inode se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica Descripción Detalles
inodes_free Es la cantidad de nodos i (objetos) disponibles en el destino determinado. Nombre visible: Inodos libres
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: inodos
Etiquetas:
component: Es el tipo de destino.
target: Es el nombre del destino.
inodes_maximum Es la cantidad máxima de nodos i (objetos) que puede contener el destino. Nombre visible: Máximo de nodos i
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: nodos i
Etiquetas:
component: Es el tipo de objetivo.
target: Es el nombre del destino.

Métricas de rendimiento de E/S

Son métricas que proporcionan estadísticas sobre las tasas de transferencia de datos y la latencia de las operaciones.

Las métricas de rendimiento de E/S se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica Descripción Detalles
io_time_milliseconds_total Es la cantidad de operaciones de lectura o escritura cuya latencia se encuentra dentro de los rangos de latencia agrupados. Nombre visible: Latencia de la operación
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
component: Es el tipo de objetivo.
operation: Es el tipo de operación.
size: Es el rango de latencia agrupado en buckets. Por ejemplo, 512 incluye el recuento de operaciones que tardaron entre 512 y 1,024 milisegundos.
target: Es el nombre del destino.
read_bytes_total Es la cantidad de bytes de datos leídos del OST determinado. Nombre visible: Bytes leídos de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: Es el tipo de operación: read.
target: Es el nombre del destino.
read_samples_total Es la cantidad de operaciones de lectura realizadas en el OST determinado. Nombre visible: Operaciones de lectura de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: Es el tipo de operación: read.
target: Es el nombre del destino.
write_bytes_total Es la cantidad de bytes de datos escritos en el OST determinado. Nombre visible: Bytes escritos de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: Es el tipo de destino y siempre es ost.
operation: El tipo de operación: write.
target: Es el nombre del destino.
write_samples_total Es la cantidad de operaciones de escritura realizadas en el OST determinado. Nombre visible: Operaciones de escritura de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: Operaciones
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: El tipo de operación: write.
target: Es el nombre del destino.

Métricas de conexión del cliente

Son métricas específicas para comprender la conectividad del cliente.

Las métricas de conexión del cliente se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica Descripción Detalles
connected_clients Cantidad de clientes conectados actualmente al MDT determinado. Nombre visible: Clientes conectados
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: clientes
Etiquetas:
component: Es el tipo de objetivo. Siempre es mdt.
target: Es el nombre del MDT.

Métricas de Jobstats

Son métricas que proporcionan estadísticas de lectura, escritura y metadatos por JobID, según la configuración del cliente.

Para recopilar estas métricas, usa lctl para configurar el parámetro jobid_var en tus clientes de Lustre. Para obtener más información, consulta Lustre Jobstats.

Para configurar el cliente de modo que informe un identificador específico (por ejemplo, procname_uid), usa el comando lctl set_param jobid_var:

lctl set_param jobid_var=procname_uid

Las métricas de Jobstats se adjuntan al recurso lustre.googleapis.com/Job.

Métrica Descripción Detalles
read_bytes_total Es la cantidad total de bytes que leyó el trabajo. Nombre visible: Bytes leídos por trabajo
Tipo de métrica: ACUMULATIVA
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
write_bytes_total Es la cantidad total de bytes escritos por el trabajo. Nombre visible: Bytes de escritura de datos por trabajo
Tipo de métrica: ACUMULATIVA
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
metadata_operations_total Es la cantidad total de operaciones de metadatos que realizó el trabajo. Nombre visible: Operaciones de metadatos por trabajo
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
read_samples_total Es la cantidad total de operaciones de lectura que realizó el trabajo. Nombre visible: Operaciones de lectura de datos por trabajo
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
write_samples_total Es la cantidad total de operaciones de escritura que realizó el trabajo. Nombre visible: Operaciones de escritura de datos por trabajo
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: Operaciones
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
read_maximum_size_bytes Es el tamaño máximo en bytes de las operaciones de lectura del trabajo. Nombre visible: Tamaño máximo de datos leídos por trabajo
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
read_minimum_size_bytes Es el tamaño mínimo en bytes de las operaciones de lectura del trabajo. Nombre visible: Tamaño mínimo de datos leídos por trabajo
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
write_maximum_size_bytes Es el tamaño máximo en bytes de las operaciones de escritura del trabajo. Nombre visible: Tamaño máximo de escritura de datos por trabajo
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.
write_minimum_size_bytes Es el tamaño mínimo en bytes de las operaciones de escritura del trabajo. Nombre visible: Tamaño mínimo de escritura de datos por trabajo
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: Bytes
Etiquetas:
job_id: Es el JobID que envía el cliente.
component: Es el tipo de destino.
target: Es el nombre del destino.
instance_id: Es el ID de la instancia de Managed Lustre.