Supervisa instancias y operaciones

Cloud Monitoring recopila y almacena automáticamente información sobre tu instancia de Managed Lustre.

En este documento, se proporciona una descripción general detallada de las métricas disponibles para supervisar Managed Lustre en Google Cloud. Estas métricas te ayudan a comprender el rendimiento, la capacidad y el estado de tus sistemas de archivos Managed Lustre, de modo que puedas identificar cuellos de botella, solucionar problemas y optimizar la utilización de recursos.

Puedes usar estas métricas en Cloud Monitoring para crear paneles personalizados, configurar alertas y obtener estadísticas más detalladas sobre el comportamiento de tu instancia de Managed Lustre.

Cloud Monitoring se habilita automáticamente para Managed Lustre. No se aplican cargos por la recopilación de datos ni por ver las métricas en la consola deGoogle Cloud . Las llamadas a la API pueden generar cargos. Consulta los precios de Cloud Monitoring para obtener más detalles.

Roles de IAM obligatorios

Se requieren los siguientes roles:

Visualizador de Monitoring (roles/monitoring.viewer) o permisos equivalentes para ver las métricas en Cloud Monitoring
Editor de Monitoring (roles/monitoring.editor) o permisos equivalentes para configurar alertas

Obtén más información para otorgar un rol de IAM.

Ver métricas

Las métricas de Cloud Monitoring están disponibles en dos ubicaciones de la consola deGoogle Cloud :

En la página de detalles de la instancia de Managed Lustre, se muestran las métricas disponibles. Además de las métricas que se indican en esta página, calcula el ancho de banda de los bytes copiados y la tasa de objetos copiados.
La página de Cloud Monitoring ofrece varias opciones de gráficos y personalizaciones.

Visualiza las métricas en la página de detalles de la instancia

Para ver las métricas de una instancia específica, sigue estos pasos:

Ve a la página Instancias en la Google Cloud consola.

Ir a Instancias
Haz clic en la instancia para la que deseas ver las métricas. Aparecerá la página Detalles de la instancia.
Haz clic en la pestaña Monitoring. Se muestra el panel predeterminado.

Visualiza métricas en Cloud Monitoring

Para ver las métricas de Managed Lustre en Cloud Monitoring, haz lo siguiente:

Ve a la página Explorador de métricas en la consola de Google Cloud .

Ir a Monitoring: Explorador de métricas
Sigue las instrucciones en Crea gráficos con el Explorador de métricas para seleccionar y mostrar tus métricas.

Configura alertas

Puedes configurar políticas de alertas en Cloud Monitoring para recibir notificaciones cuando tu sistema de archivos Managed Lustre cumpla con condiciones específicas, como superar los límites de capacidad de almacenamiento o de capacidad de procesamiento.

Requisitos previos

Para crear políticas de alertas, debes tener el rol de IAM de Editor de Monitoring (roles/monitoring.editor) en el proyecto.

Crea una política de alertas

Para configurar una alerta, define una condición con una métrica o una consulta de PromQL y configura los canales de notificaciones.

En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

Ir a Monitoring: Alertas
Haz clic en + Crear política.
Selecciona Compilador y elige tu métrica, o bien elige Editor de código para ingresar una consulta con PromQL. En el selector de métricas, las métricas de Managed Lustre se encuentran en los recursos Instancia de Lustre y Ubicación de Lustre.
Configura la lógica del activador y define tus canales de notificaciones y la configuración de notificaciones.
Haz clic en Crear política.

Para obtener más información sobre cómo crear activadores y otras opciones, consulta los siguientes recursos:

Ejemplo: Crea una alerta de capacidad de almacenamiento

En el siguiente ejemplo, se muestra cómo crear una alerta que se activa cuando tu instancia de Managed Lustre supera el 80% de su capacidad aprovisionada.

En la consola de Google Cloud , ve a la página Alertas en la consola de Google Cloud .

Ir a Monitoring: Alertas
Haz clic en + Crear política.
Selecciona Editor de código.
En el Editor de consultas, pega la siguiente consulta de PromQL:
```
(
  sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
  -
  sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
)
/
sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
> 0.8
```
Esta consulta calcula la proporción de uso en todas las instancias: (Total - Available) / Total. El valor 0.8 representa el total de bytes que alcanzan el 80% de uso. Para recibir una alerta cuando la batería esté al 90%, cambia este valor a 0.9.
Haz clic en Ejecutar consulta para verificar la sintaxis y ver un gráfico de la proporción de uso actual.
Haz clic en Siguiente y configura el activador en Cualquier serie temporal es una infracción.

Haz clic en Siguiente. En la sección Documentación, agrega las acciones recomendadas para resolver el problema de capacidad. Por ejemplo:

## Action Required: Lustre Capacity Warning
The Managed Lustre instance is exceeding 80% capacity usage.

**Metric:** Usage Ratio > 0.8
**Severity:** Warning

**Recommended Actions:**
1. Check the instance details in the Google Cloud console.
2. Verify if this is expected data growth or a runaway process.
3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
4. Failure to address this may result in "No Space Left on Device" errors for client applications.

Crea una política de alertas con gcloud

Puedes crear políticas de alertas con Google Cloud CLI. Ten en cuenta que debes editar la alerta en la consola de Google Cloud más adelante para habilitar canales de notificaciones específicos.

En el siguiente ejemplo, se crea una alerta de capacidad del 80% con gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detalles de las métricas

Las métricas de Managed Lustre se adjuntan a los siguientes tipos de recurso supervisado:

lustre.googleapis.com/Instance
lustre.googleapis.com/Job
lustre.googleapis.com/QuotaEntity

Se toman muestras de datos cada 60 segundos. Después del muestreo, es posible que los datos no se muestren durante un máximo de 180 segundos.

Métricas de capacidad de almacenamiento

Son métricas relacionadas con el espacio de almacenamiento disponible y aprovisionado en tu sistema de archivos Lustre.

En el caso de las etiquetas de métricas, el valor de target usa el formato <fsname>-<TYPE><HEXA>, en el que <HEXA> es el índice basado en cero del objetivo en hexadecimal. Por ejemplo, si el nombre de tu sistema de archivos es filesys, el OST número 43 es filesys-OST002a y el MDT número 4 es filesys-MDT0003.

Las métricas de capacidad de almacenamiento se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica	Descripción	Detalles
`available_bytes`	Cantidad de bytes de espacio de almacenamiento para un destino de almacenamiento de objetos (OST) o un destino de metadatos (MDT) determinado que está disponible para los usuarios que no son raíz.	Nombre visible: Bytes disponibles Tipo de métrica: INDICADOR Tipo de valor: INT64 Unidad: bytes Etiquetas: `component`: Es el tipo de destino: `ost`,`mdt` o `mgt`. `target`: Es el nombre del destino.
`capacity_bytes`	Es la cantidad de bytes aprovisionados para el destino determinado. El espacio total de datos o metadatos utilizable del clúster para una instancia se puede obtener sumando la capacidad de todos los destinos para un tipo determinado de destino.	Nombre visible: Bytes de capacidad Tipo de métrica: INDICADOR Tipo de valor: INT64 Unidad: bytes Etiquetas: `component`: El tipo de destino: `ost`, `mdt` o `mgt`. `target`: Es el nombre del destino.
`free_bytes`	Es la cantidad de bytes de espacio de almacenamiento para un OST o MDT determinado que está disponible para los usuarios raíz.	Nombre visible: Bytes libres Tipo de métrica: INDICADOR Tipo de valor: INT64 Unidad: bytes Etiquetas: `component`: El tipo de objetivo: `ost`,`mdt` o `mgt`. `target`: Es el nombre del destino.

Métricas de inode (objeto)

Son métricas relacionadas con la cantidad de inodos (objetos) disponibles y la capacidad máxima.

Las métricas de inode se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica	Descripción	Detalles
`inodes_free`	Es la cantidad de nodos I (objetos) disponibles en el destino determinado.	Nombre visible: Inodos libres Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: inodos Etiquetas: `component`: Es el tipo de destino. `target`: Es el nombre del destino.
`inodes_maximum`	Es la cantidad máxima de nodos i (objetos) que puede contener el destino.	Nombre visible: Máximo de inodos Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: inodos Etiquetas: `component`: Es el tipo de objetivo. `target`: Es el nombre del destino.

Métricas de rendimiento de E/S

Son métricas que proporcionan estadísticas sobre las tasas de transferencia de datos y la latencia de las operaciones.

Las métricas de rendimiento de E/S se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica	Descripción	Detalles
`io_time_milliseconds_total`	Es la cantidad de operaciones de lectura o escritura cuya latencia se encuentra dentro de los rangos de latencia agrupados.	Nombre visible: Latencia de la operación Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: operaciones Etiquetas: `component`: Es el tipo de destino. `operation`: Es el tipo de operación. `size`: Es el rango de latencia agrupado en buckets. Por ejemplo, 512 incluye el recuento de operaciones que tardaron entre 512 y 1,024 milisegundos. `target`: Es el nombre del destino.
`read_bytes_total`	Es la cantidad de bytes de datos leídos del OST determinado.	Nombre visible: Bytes leídos de datos Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: bytes Etiquetas: `component`: Es el tipo de destino y siempre es `ost`. `operation`: El tipo de operación: `read`. `target`: Es el nombre del destino.
`read_samples_total`	Es la cantidad de operaciones de lectura realizadas en el OST determinado.	Nombre visible: Operaciones de lectura de datos Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: Operaciones Etiquetas: `component`: Es el tipo de destino, siempre `ost`. `operation`: Es el tipo de operación: `read`. `target`: Es el nombre del destino.
`write_bytes_total`	Es la cantidad de bytes de datos escritos en el OST determinado.	Nombre visible: Bytes escritos de datos Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: bytes Etiquetas: `component`: Es el tipo de destino y siempre es `ost`. `operation`: El tipo de operación: `write`. `target`: Es el nombre del destino.
`write_samples_total`	Es la cantidad de operaciones de escritura realizadas en el OST determinado.	Nombre visible: Operaciones de escritura de datos Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: Operaciones Etiquetas: `component`: Es el tipo de destino, siempre `ost`. `operation`: El tipo de operación: `write`. `target`: Es el nombre del destino.

Métricas de caché

Son métricas que proporcionan estadísticas sobre el rendimiento y la utilización de la capa de almacenamiento en caché de datos en instancias con el nivel dinámico.

Las métricas de caché se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica	Descripción	Detalles
`cache/read_hits`	Es la cantidad de lecturas para un objetivo específico.	Nombre visible: Hits de lectura de caché Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: 1 Etiquetas: `target`: Es el nombre del destino.
`cache/read_misses`	Es la cantidad de errores de lectura para un destino específico.	Nombre visible: Errores de lectura de caché Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: 1 Etiquetas: `target`: Es el nombre del destino.

Métricas de conexión del cliente

Son métricas específicas para comprender la conectividad del cliente.

Las métricas de conexión del cliente se adjuntan al recurso lustre.googleapis.com/Instance.

Métrica	Descripción	Detalles
`connected_clients`	Es la cantidad de clientes conectados actualmente al MDT determinado.	Nombre visible: Clientes conectados Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: clientes Etiquetas: `component`: Es el tipo de objetivo. Siempre es `mdt`. `target`: Es el nombre del MDT.

Métricas de cuota del sistema de archivos

Las métricas de cuota del sistema de archivos te permiten supervisar el consumo de almacenamiento y de nodos i para usuarios, grupos y proyectos específicos. Usa estas métricas para hacer un seguimiento del uso actual en comparación con los límites flexibles y rígidos configurados en tu sistema de archivos.

Las métricas de cuota del sistema de archivos están asociadas al recurso supervisado lustre.googleapis.com/QuotaEntity.

Métrica	Descripción	Detalles
`used_bytes`	Es la cantidad total de bytes que consumen actualmente el usuario, el grupo o el proyecto.	Nombre visible: Bytes de cuota usados Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `accounting_type`: Uno de `user`, `group` o `project`. `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.
`soft_limit_bytes`	Es el umbral de consumo de almacenamiento que activa un período de gracia. Si el uso permanece por encima de este límite después de que vence el período de gracia, este se convierte en un límite estricto aplicado.	Nombre visible: Bytes de límite flexible de cuota Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `accounting_type`: Uno de `user`,`group` o `project`. `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.
`hard_limit_bytes`	Es el uso máximo de almacenamiento permitido para el usuario, el grupo o el proyecto. Se rechazan las escrituras que superen este límite.	Nombre visible: Quota hard limit bytes Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `accounting_type`: Uno de `user`, `group` o `project`. `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.
`used_inodes`	Es la cantidad total de inodos (registros de archivos) que actualmente consumen el usuario, el grupo o el proyecto.	Nombre visible: Inodos usados de la cuota Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Recuento Etiquetas: `accounting_type`: Uno de `user`, `group` o `project`. `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.
`soft_limit_inodes`	Es el umbral de consumo de inode que activa un período de gracia. Si el uso permanece por encima de este límite después de que vence el período de gracia, se convierte en un límite estricto obligatorio.	Nombre visible: Inodos de límite flexible de cuota Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Recuento Etiquetas: `accounting_type`: Uno de `user`,`group` o `project`. `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.
`hard_limit_inodes`	Es la cantidad máxima de nodos i permitidos para el usuario, el grupo o el proyecto. Se rechaza la creación de archivos que superen este límite.	Nombre visible: Inodos de límite superior de cuota Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Recuento Etiquetas: `accounting_type`: Uno de `user`, `group` o `project` `id`: Es el ID numérico del usuario, el grupo o el proyecto. `target`: Es el nombre del dispositivo de destino de Lustre.

Métricas de Jobstats

Son métricas que proporcionan estadísticas de lectura, escritura y metadatos por JobID, según la configuración del cliente.

Para recopilar estas métricas, usa lctl para configurar el parámetro jobid_var en tus clientes de Lustre. Para obtener más información, consulta Lustre Jobstats.

Para configurar el cliente de modo que informe un identificador específico (por ejemplo, procname_uid), usa el comando lctl set_param jobid_var:

lctl set_param jobid_var=procname_uid

Las métricas de Jobstats se adjuntan al recurso lustre.googleapis.com/Job.

Métrica	Descripción	Detalles
`read_bytes_total`	Es la cantidad total de bytes que leyó el trabajo.	Nombre visible: Bytes leídos por trabajo Tipo de métrica: ACUMULATIVA Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`write_bytes_total`	Es la cantidad total de bytes escritos por el trabajo.	Nombre visible: Bytes de escritura de datos por trabajo Tipo de métrica: ACUMULATIVA Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`metadata_operations_total`	Es la cantidad total de operaciones de metadatos que realizó el trabajo.	Nombre visible: Operaciones de metadatos por trabajo Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: Operaciones Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`read_samples_total`	Es la cantidad total de operaciones de lectura que realizó el trabajo.	Nombre visible: Operaciones de lectura de datos por trabajo Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: Operaciones Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`write_samples_total`	Es la cantidad total de operaciones de escritura que realizó el trabajo.	Nombre visible: Operaciones de escritura de datos por trabajo Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidad: operaciones Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`read_maximum_size_bytes`	Es el tamaño máximo en bytes de las operaciones de lectura del trabajo.	Nombre visible: Tamaño máximo de datos leídos por trabajo Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`read_minimum_size_bytes`	Es el tamaño mínimo en bytes de las operaciones de lectura del trabajo.	Nombre visible: Tamaño mínimo de lectura de datos por trabajo Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`write_maximum_size_bytes`	Es el tamaño máximo en bytes de las operaciones de escritura del trabajo.	Nombre visible: Tamaño máximo de escritura de datos por trabajo Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.
`write_minimum_size_bytes`	Es el tamaño mínimo en bytes de las operaciones de escritura del trabajo.	Nombre visible: Tamaño mínimo de escritura de datos por trabajo Tipo de métrica: GAUGE Tipo de valor: INT64 Unidad: Bytes Etiquetas: `job_id`: Es el JobID que envía el cliente. `component`: Es el tipo de destino. `target`: Es el nombre del destino. `instance_id`: Es el ID de la instancia de Managed Lustre.