Monitorar instâncias e operações

O Cloud Monitoring coleta e armazena automaticamente informações sobre sua instância do Managed Lustre.

Este documento oferece uma visão geral detalhada das métricas disponíveis para monitorar suas instâncias do Managed Lustre em Google Cloud. Essas métricas ajudam você a entender o desempenho, a capacidade e a integridade dos sistemas de arquivos Lustre gerenciados. Assim, é possível identificar gargalos, resolver problemas e otimizar a utilização de recursos.

É possível usar essas métricas no Cloud Monitoring para criar painéis personalizados, configurar alertas e ter insights mais detalhados sobre o comportamento da sua instância do Managed Lustre.

O Cloud Monitoring é ativado automaticamente para o Lustre gerenciado. Não há cobrança para coletar dados ou visualizar métricas no console doGoogle Cloud . Chamadas de API podem gerar cobranças. Consulte os preços do Cloud Monitoring para mais detalhes.

Papéis necessários do IAM

Os seguintes papéis são necessários:

Leitor do Monitoring (roles/monitoring.viewer) ou permissões equivalentes para visualizar métricas no Cloud Monitoring.
Editor do Monitoring (roles/monitoring.editor) ou permissões equivalentes para configurar alertas.

Saiba como conceder um papel do IAM.

Ver métricas

As métricas do Cloud Monitoring estão disponíveis em dois locais no console doGoogle Cloud :

A página de detalhes da instância do Lustre gerenciado mostra as métricas disponíveis. Além das métricas listadas abaixo, ele calcula a largura de banda de bytes copiados e a taxa de objetos copiados.
A página do Cloud Monitoring oferece várias opções de gráficos e personalizações.

Ver métricas na página de detalhes da instância

Para conferir as métricas de uma instância específica:

Acesse a página Instâncias no console do Google Cloud .

Acesse "Instâncias"
Clique na instância para ver as métricas. A página Detalhes da instância aparece.
Clique na guia Monitoramento. O painel padrão é exibido.

Ver métricas no Cloud Monitoring

Para conferir as métricas do Lustre gerenciado no Cloud Monitoring, faça o seguinte:

Acesse a página do Metrics Explorer no console do Google Cloud .

Acesse Monitoring: Metrics Explorer
Siga as instruções em Criar gráficos com o Metrics Explorer para selecionar e exibir suas métricas.

Configurar alertas

É possível configurar políticas de alertas no Cloud Monitoring para receber notificações quando o sistema de arquivos Lustre gerenciado atender a condições específicas, como exceder a capacidade de armazenamento ou os limites de capacidade.

Pré-requisitos

Para criar políticas de alertas, é necessário ter o papel do IAM de Editor do Monitoring (roles/monitoring.editor) no projeto.

Criar uma política de alerta

Para configurar um alerta, defina uma condição usando uma métrica ou uma consulta do PromQL e configure canais de notificação.

No console Google Cloud , acesse a página Alertas no console Google Cloud .

Acessar Monitoring: alertas
Clique em + Criar política.
Selecione Criador e escolha sua métrica ou selecione Editor de código para inserir uma consulta com PromQL. No seletor de métricas, as métricas do Managed Lustre estão nos recursos Instância do Lustre e Local do Lustre.
Configure a lógica de acionamento e defina os canais e as configurações de notificação.
Clique em Criar política.

Para mais informações sobre como criar gatilhos e outras opções, consulte:

Exemplo: criar um alerta de capacidade de armazenamento

O exemplo a seguir demonstra como criar um alerta que é acionado quando a instância gerenciada do Lustre excede 80% da capacidade provisionada.

No console Google Cloud , acesse a página Alertas no console Google Cloud .

Acessar Monitoring: alertas
Clique em + Criar política.
Selecione Editor de código.
No Editor de consultas, cole a seguinte consulta em PromQL:
```
(
  sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
  -
  sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
)
/
sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
> 0.8
```
Essa consulta calcula a proporção de uso em todas as instâncias: (Total - Available) / Total. O valor 0.8 representa o total de bytes que atingem 80% de uso. Para alertar em 90%, mude esse valor para 0.9.
Clique em Executar consulta para verificar a sintaxe e conferir um gráfico da proporção de uso atual.
Clique em Próxima e configure o gatilho como Qualquer série temporal viola.

Clique em Próxima. Na seção Documentação, adicione ações recomendadas para resolver o problema de capacidade. Exemplo:

## Action Required: Lustre Capacity Warning
The Managed Lustre instance is exceeding 80% capacity usage.

**Metric:** Usage Ratio > 0.8
**Severity:** Warning

**Recommended Actions:**
1. Check the instance details in the Google Cloud console.
2. Verify if this is expected data growth or a runaway process.
3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
4. Failure to address this may result in "No Space Left on Device" errors for client applications.

Criar uma política de alertas com a gcloud

É possível criar políticas de alertas usando a Google Cloud CLI. Edite o alerta no console Google Cloud mais tarde para ativar canais de notificação específicos.

O exemplo a seguir cria um alerta de capacidade de 80% usando gcloud:

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

Detalhes sobre métricas

As seguintes métricas estão disponíveis para instâncias do Managed Lustre. Cada métrica é identificada pelo tipo (por exemplo, lustre.googleapis.com/instance/available_bytes), tem um nome de exibição, uma descrição e rótulos específicos que fornecem mais contexto.

Os dados são amostrados a cada 60 segundos. Após a amostragem, os dados podem não ficar visíveis por até 180 segundos.

Métricas de capacidade de armazenamento

Métricas relacionadas ao espaço de armazenamento disponível e provisionado no sistema de arquivos Lustre.

Para rótulos de métricas, o valor de target usa o formato <fsname>-<TYPE><HEXA>, em que <HEXA> é o índice baseado em zero da meta em hexadecimal. Por exemplo, se o nome do seu sistema de arquivos for filesys, o 43º OST será filesys-OST002a e o 4º MDT será filesys-MDT0003.

Métrica	Descrição	Detalhes
`available_bytes`	O número de bytes de espaço de armazenamento para um determinado destino de armazenamento de objetos (OST) ou destino de metadados (MDT) disponível para usuários não raiz.	Nome de exibição:bytes disponíveis Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:bytes Rótulos: `component`: o tipo de destino: `ost`, `mdt` ou `mgt`. `target`: o nome da meta.
`capacity_bytes`	O número de bytes provisionados para o destino especificado. O espaço total de dados ou metadados utilizáveis do cluster para uma instância pode ser obtido adicionando a capacidade de todos os destinos de um determinado tipo.	Nome de exibição:bytes de capacidade Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:bytes Rótulos: `component`: o tipo de destino: `ost`, `mdt` ou `mgt`. `target`: o nome da meta.
`free_bytes`	O número de bytes de espaço de armazenamento para uma determinada OST ou MDT que está disponível para usuários root.	Nome de exibição:bytes livres Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:bytes Rótulos: `component`: o tipo de destino: `ost`, `mdt` ou `mgt`. `target`: o nome da meta.

Métricas de inode (objeto)

Métricas relacionadas ao número de inodes (objetos) disponíveis e à capacidade máxima.

Métrica	Descrição	Detalhes
`inodes_free`	O número de inodes (objetos) disponíveis na meta especificada.	Nome de exibição:inodes livres Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:inodes Rótulos: `component`: o tipo de destino. `target`: o nome da meta.
`inodes_maximum`	O número máximo de inodes (objetos) que o destino pode conter.	Nome de exibição:número máximo de inodes Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:inodes Rótulos: `component`: o tipo de destino. `target`: o nome da meta.

Métricas de performance de E/S

Métricas que fornecem insights sobre taxas de transferência de dados e latência de operação.

Latência de operações

Métrica	Descrição	Detalhes
`io_time_milliseconds_total`	O número de operações de leitura ou gravação cuja latência está dentro dos intervalos de latência agrupados.	Nome de exibição:latência da operação Tipo de métrica:CUMULATIVE Tipo de valor:INT64 Unidade:operations Rótulos: `component`: o tipo de destino. `operation`: o tipo de operação. `size`: o intervalo de latência agrupado em buckets. Por exemplo, 512 inclui a contagem de operações que levaram entre 512 e 1024 milissegundos. `target`: o nome da meta.
`read_bytes_total`	O número de bytes de dados lidos do OST especificado.	Nome de exibição: bytes lidos de dados Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidade: bytes Rótulos: `component`: o tipo de destino, sempre `ost`. `operation`: o tipo de operação: `read`. `target`: o nome da meta.
`read_samples_total`	O número de operações de leitura realizadas no OST especificado.	Nome de exibição: operações de leitura de dados Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidade: operações Rótulos: `component`: o tipo de destino, sempre `ost`. `operation`: o tipo de operação: `read`. `target`: o nome do destino.
`write_bytes_total`	O número de bytes de dados gravados no OST especificado.	Nome de exibição: bytes de gravação de dados Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidade: bytes Rótulos: `component`: o tipo de destino, sempre `ost`. `operation`: o tipo de operação: `write`. `target`: o nome da meta.
`write_samples_total`	O número de operações de gravação realizadas no OST especificado.	Nome de exibição: operações de gravação de dados Tipo de métrica: CUMULATIVE Tipo de valor: INT64 Unidade: operações Rótulos: `component`: o tipo de destino, sempre `ost`. `operation`: o tipo de operação: `write`. `target`: o nome da meta.

Métricas de conexão do cliente

Métricas específicas para entender a conectividade do cliente.

Clientes conectados

Métrica	Descrição	Detalhes
`connected_clients`	O número de clientes conectados ao MDT especificado.	Nome de exibição:clientes conectados Tipo de métrica:MEDIDOR Tipo de valor:INT64 Unidade:clientes Rótulos: `component`: o tipo de destino. Esse valor é sempre `mdt`. `target`: o nome do MDT.

Monitorar instâncias e operações Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.