Supervisa instancias y operaciones

Cloud Monitoring recopila y almacena automáticamente información sobre tu instancia de Managed Lustre.

En este documento, se proporciona una descripción general detallada de las métricas disponibles para supervisar tus instancias de Managed Lustre en Google Cloud. Estas métricas te ayudan a comprender el rendimiento, la capacidad y el estado de tus sistemas de archivos Managed Lustre, de modo que puedas identificar cuellos de botella, solucionar problemas y optimizar el uso de los recursos.

Puedes usar estas métricas en Cloud Monitoring para crear paneles personalizados, configurar alertas y obtener estadísticas más detalladas sobre el comportamiento de tu instancia de Lustre administrado.

Cloud Monitoring se habilita automáticamente para Managed Lustre. No se cobran cargos por la recopilación de datos ni por ver las métricas en la consola deGoogle Cloud . Las llamadas a la API pueden generar cargos. Consulta los precios de Cloud Monitoring para obtener más detalles.

Roles de IAM obligatorios

Se requieren los siguientes roles:

  • Visualizador de Monitoring (roles/monitoring.viewer) o permisos equivalentes para ver las métricas en Cloud Monitoring
  • Editor de Monitoring (roles/monitoring.editor) o permisos equivalentes para configurar alertas

Obtén más información para otorgar un rol de IAM.

Ver métricas

Las métricas de Cloud Monitoring están disponibles en dos ubicaciones de la consola deGoogle Cloud :

  • En la página de detalles de la instancia de Lustre administrada, se muestran las métricas disponibles. Además de las métricas que se indican a continuación, calcula el ancho de banda de los bytes copiados y la tasa de objetos copiados.

  • La página de Cloud Monitoring ofrece varias opciones de gráficos y personalizaciones.

Visualiza las métricas en la página de detalles de la instancia

Para ver las métricas de una instancia específica, sigue estos pasos:

  1. Ve a la página Instancias en la Google Cloud consola.

    Ir a Instancias

  2. Haz clic en la instancia para la que deseas ver las métricas. Aparecerá la página Detalles de la instancia.

  3. Haz clic en la pestaña Monitoring. Se muestra el panel predeterminado.

Visualiza métricas en Cloud Monitoring

Para ver las métricas de Lustre administrado en Cloud Monitoring, haz lo siguiente:

  1. Ve a la página Explorador de métricas en la consola de Google Cloud .

    Ir a Monitoring: Explorador de métricas

  2. Sigue las instrucciones en Crea gráficos con el Explorador de métricas para seleccionar y mostrar tus métricas.

Configura alertas

Puedes configurar políticas de alertas en Cloud Monitoring para recibir notificaciones cuando tu sistema de archivos Lustre administrado cumpla con condiciones específicas, como superar los límites de capacidad de almacenamiento o de capacidad de procesamiento.

Requisitos previos

Para crear políticas de alertas, debes tener el rol de IAM de Editor de Monitoring (roles/monitoring.editor) en el proyecto.

Crea una política de alertas

Para configurar una alerta, define una condición con una métrica o una consulta de PromQL y configura los canales de notificaciones.

  1. En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

    Ir a Monitoring: Alertas

  2. Haz clic en + Crear política.

  3. Selecciona Compilador y elige tu métrica, o bien elige Editor de código para ingresar una consulta con PromQL. En el selector de métricas, las métricas de Managed Lustre se encuentran en los recursos Instancia de Lustre y Ubicación de Lustre.

  4. Configura la lógica del activador y define tus canales de notificación y la configuración de notificaciones.

  5. Haz clic en Crear política.

Para obtener más información sobre cómo crear activadores y otras opciones, consulta los siguientes recursos:

Ejemplo: Crea una alerta de capacidad de almacenamiento

En el siguiente ejemplo, se muestra cómo crear una alerta que se activa cuando tu instancia de Lustre administrado supera el 80% de su capacidad aprovisionada.

  1. En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

    Ir a Monitoring: Alertas

  2. Haz clic en + Crear política.

  3. Selecciona Editor de código.

  4. En el Editor de consultas, pega la siguiente consulta de PromQL:

    (
      sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
      -
      sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
    )
    /
    sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
    > 0.8
    

    Esta consulta calcula la proporción de uso en todas las instancias: (Total - Available) / Total. El valor 0.8 representa los bytes totales que alcanzan el 80% de uso. Para recibir una alerta cuando la batería llegue al 90%, cambia este valor a 0.9.

  5. Haz clic en Ejecutar consulta para verificar la sintaxis y ver un gráfico de la proporción de uso actual.

  6. Haz clic en Siguiente y configura el activador en Cualquier serie temporal es una infracción.

  7. Haz clic en Siguiente. En la sección Documentación, agrega las acciones recomendadas para resolver el problema de capacidad. Por ejemplo:

    ## Action Required: Lustre Capacity Warning
    The Managed Lustre instance is exceeding 80% capacity usage.
    
    **Metric:** Usage Ratio > 0.8
    **Severity:** Warning
    
    **Recommended Actions:**
    1. Check the instance details in the Google Cloud console.
    2. Verify if this is expected data growth or a runaway process.
    3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
    4. Failure to address this may result in "No Space Left on Device" errors for client applications.
    

Crea una política de alertas con gcloud

Puedes crear políticas de alertas con Google Cloud CLI. Ten en cuenta que debes editar la alerta en la consola de Google Cloud más adelante para habilitar canales de notificación específicos.

En el siguiente ejemplo, se crea una alerta de capacidad del 80% con gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detalles de las métricas

Las siguientes métricas están disponibles para las instancias de Managed Lustre. Cada métrica se identifica por su tipo (p.ej., lustre.googleapis.com/instance/available_bytes), tiene un nombre visible, una descripción y etiquetas específicas que proporcionan contexto adicional.

Se toman muestras de datos cada 60 segundos. Después del muestreo, es posible que los datos no se muestren durante un máximo de 180 segundos.

Métricas de capacidad de almacenamiento

Son métricas relacionadas con el espacio de almacenamiento disponible y aprovisionado en tu sistema de archivos Lustre.

En el caso de las etiquetas de métricas, el valor de target usa el formato <fsname>-<TYPE><HEXA>, en el que <HEXA> es el índice basado en cero del objetivo en hexadecimal. Por ejemplo, si el nombre de tu sistema de archivos es filesys, el OST 43 es filesys-OST002a y el MDT 4 es filesys-MDT0003.

Métrica Descripción Detalles
available_bytes Cantidad de bytes de espacio de almacenamiento para un destino de almacenamiento de objetos (OST) o un destino de metadatos (MDT) determinado que está disponible para los usuarios que no son raíz. Nombre visible: Bytes disponibles
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de objetivo: ost,mdt o mgt.
target: Es el nombre del destino.
capacity_bytes Es la cantidad de bytes aprovisionados para el destino determinado. El espacio total de datos o metadatos utilizable del clúster para una instancia se puede obtener sumando la capacidad de todos los destinos para un tipo determinado de destino. Nombre visible: Bytes de capacidad
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de destino: ost, mdt o mgt.
target: Es el nombre del destino.
free_bytes Es la cantidad de bytes de espacio de almacenamiento para un OST o MDT determinado que está disponible para los usuarios raíz. Nombre visible: Bytes libres
Tipo de métrica: INDICADOR
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: El tipo de objetivo: ost,mdt o mgt.
target: Es el nombre del destino.

Métricas de inode (objeto)

Son métricas relacionadas con la cantidad de inodos (objetos) disponibles y la capacidad máxima.

Métrica Descripción Detalles
inodes_free Es la cantidad de nodos i (objetos) disponibles en el destino determinado. Nombre visible: Inodos libres
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: inodos
Etiquetas:
component: Es el tipo de destino.
target: Es el nombre del destino.
inodes_maximum Es la cantidad máxima de nodos i (objetos) que puede contener el destino. Nombre visible: Máximo de nodos i
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: nodos i
Etiquetas:
component: Es el tipo de objetivo.
target: Es el nombre del destino.

Métricas de rendimiento de E/S

Son métricas que proporcionan estadísticas sobre las tasas de transferencia de datos y la latencia de las operaciones.

Latencia de las operaciones

Métrica Descripción Detalles
io_time_milliseconds_total Es la cantidad de operaciones de lectura o escritura cuya latencia se encuentra dentro de los rangos de latencia agrupados. Nombre visible: Latencia de la operación
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
component: Es el tipo de objetivo.
operation: Es el tipo de operación.
size: Es el rango de latencia agrupado en buckets. Por ejemplo, 512 incluye el recuento de operaciones que tardaron entre 512 y 1,024 milisegundos.
target: Es el nombre del destino.
read_bytes_total Es la cantidad de bytes de datos leídos del OST determinado. Nombre visible: Bytes leídos de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: Es el tipo de operación: read.
target: Es el nombre del destino.
read_samples_total Es la cantidad de operaciones de lectura realizadas en el OST determinado. Nombre visible: Operaciones de lectura de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: operaciones
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: Es el tipo de operación: read.
target: Es el nombre del destino.
write_bytes_total Es la cantidad de bytes de datos escritos en el OST determinado. Nombre visible: Bytes escritos de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: bytes
Etiquetas:
component: Es el tipo de destino y siempre es ost.
operation: El tipo de operación: write.
target: Es el nombre del destino.
write_samples_total Es la cantidad de operaciones de escritura realizadas en el OST determinado. Nombre visible: Operaciones de escritura de datos
Tipo de métrica: CUMULATIVE
Tipo de valor: INT64
Unidad: Operaciones
Etiquetas:
component: Es el tipo de destino, siempre ost.
operation: El tipo de operación: write.
target: Es el nombre del destino.

Métricas de conexión del cliente

Son métricas específicas para comprender la conectividad del cliente.

Clientes conectados

Métrica Descripción Detalles
connected_clients Cantidad de clientes conectados actualmente al MDT determinado. Nombre visible: Clientes conectados
Tipo de métrica: GAUGE
Tipo de valor: INT64
Unidad: clientes
Etiquetas:
component: Es el tipo de objetivo. Siempre es mdt.
target: Es el nombre del MDT.