Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Monitorar instâncias do Compute Engine e clusters do Slurm

Este documento explica como usar os painéis do Cloud Monitoring para monitorar instâncias A4X Max, A4X, A4, A3 Ultra e A3 Mega criadas com capacidade reservada. O uso desses painéis ajuda a identificar e resolver problemas de gargalos de desempenho nas instâncias autônomas do Compute Engine ou nos clusters do Slurm, minimizando a inatividade nas cargas de trabalho.

Ao criar painéis personalizados ou usar os painéis predefinidos do Monitoring, é possível monitorar o seguinte:

Integridade da instância de computação
Performance da GPU
Eficiência de transmissão de rede
Eficiência da rede entre blocos e sub-blocos
Eficiência da carga de trabalho de machine learning (ML)
Detecção de tarefas retardatárias
Detecção de carga de trabalho sem resposta

Para monitorar clusters do Cluster Director, consulte Monitorar a performance do cluster com painéis pré-criados.

Antes de começar

Antes de monitorar sua carga de trabalho, conclua as etapas a seguir, se ainda não tiver feito isso:

Implante uma carga de trabalho que possa ser monitorada. Para saber quais cargas de trabalho são compatíveis, consulte as limitações neste documento. Para saber como implantar uma carga de trabalho, consulte Visão geral das opções de implantação.
Saiba mais sobre os Google Cloud serviços de monitoramento de cargas de trabalho:
- As métricas neste documento usam painéis do Monitoring. Saiba mais sobre painéis do Monitoring, períodos de retenção do Monitoring e preços do Monitoring.
- A detecção de atrasos também fornece entradas de registro no Cloud Logging. Saiba mais sobre interfaces do Logging, períodos de retenção do Logging e preços do Logging.

Quando você usa o console Google Cloud para acessar serviços Google Cloud e APIs, não é necessário configurar a autenticação.

Limitações

As métricas neste documento só são compatíveis com cargas de trabalho executadas em instâncias de computação que atendem a todos os critérios a seguir:

As instâncias de computação precisam ser criadas como instâncias autônomas do Compute Engine ou como parte de um cluster do Slurm.
As instâncias de computação precisam ter sido criadas usando capacidade reservada.
As instâncias de computação precisam usar a série de máquinas A4X Max, A4X, A4, A3 Ultra ou A3 Mega.

Para monitorar as métricas de carga de trabalho de ML, é necessário configurar o monitoramento da carga de trabalho.

Limitações da detecção de tarefas retardatárias

As métricas de detecção de straggler têm as seguintes limitações adicionais:

Para séries de máquinas compatíveis que não sejam A3 Mega, a detecção de straggler só é compatível com instâncias de computação que permitem que a biblioteca Collective Communication Analyzer (CoMMA) exporte a telemetria do NCCL para serviços do Google Cloud . Para mais informações, consulte a visão geral do CoMMA.
A detecção de atrasados geralmente leva até 10 minutos para informar um atrasado.
Ao contrário das outras métricas neste documento, não é possível filtrar as métricas de detecção de atrasados dos seus projetos por cluster, bloco, subbloco ou instância de computação. No entanto, é possível filtrar consultas para registros de detecção de atrasos pelo ID de uma ou mais instâncias de computação suspeitas de atraso.

Limitações da detecção de cargas de trabalho sem resposta

As métricas de detecção de carga de trabalho sem resposta só são compatíveis com instâncias de computação que usam a biblioteca do analisador de comunicação coletiva (CoMMA) para exportar a telemetria do NCCL para serviços do Google Cloud . Para mais informações, consulte a visão geral do CoMMA.

Funções exigidas

Para receber as permissões necessárias para monitorar métricas de cargas de trabalho do AI Hypercomputer, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para ver métricas no Cloud Monitoring: Editor do Monitoring (roles/monitoring.editor) no projeto
Para ver os registros de detecção de atrasos no Logging: Visualizador de registros (roles/logging.viewer) no projeto

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esses papéis predefinidos contêm as permissões necessárias para monitorar métricas de cargas de trabalho do Hipercomputador de IA. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As permissões a seguir são necessárias para monitorar métricas de cargas de trabalho do Hipercomputador de IA:

Para ver painéis: monitoring.dashboards.get no projeto
Para criar painéis: monitoring.dashboards.create no projeto
Para ver entradas de registro: logging.logEntries.list no projeto

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Métricas disponíveis

Dependendo do seu caso de uso, as seguintes métricas estão disponíveis para monitorar suas instâncias de computação e clusters do Slurm:

Para monitorar a integridade, o desempenho e o desempenho da rede das GPUs anexadas às instâncias de computação, consulte Métricas de infraestrutura.
Para monitorar a eficiência das GPUs nas suas cargas de trabalho de ML, consulte Métricas de carga de trabalho de ML.
Para monitorar instâncias de computação lentas suspeitas em cargas de trabalho de ML com desempenho lento, consulte Métricas de detecção de lentidão.

Para saber como visualizar essas métricas, consulte Visualizar métricas neste documento.

Métricas de infraestrutura:

Para monitorar a integridade, o desempenho e o desempenho da rede das GPUs conectadas às instâncias de computação, use as seguintes métricas:

Métricas de integridade da GPU
Métricas de desempenho da GPU
Métricas de desempenho da rede de GPU
Métricas de erros fatais da GPU

Para uma visão geral das métricas disponíveis no Compute Engine, consulte métricas doGoogle Cloud .

Métricas de integridade da GPU

Para monitorar a integridade das GPUs, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Status da máquina	`machine/machine_status`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	Mostra se a máquina usada pela instância de computação está íntegra ou se ela está não íntegra e precisa de reparo.
Status do NVSwitch	`instance/gpu/nvswitch_status`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	Se um switch NVLink em uma GPU NVIDIA conectada a uma instância de computação está apresentando problemas.
Integridade da infraestrutura de VM	`instance/gpu/infra_health`	A4X, A4, A3 Ultra ou A3 Mega	A integridade do cluster, do bloco, do subbloco e do host em que suas instâncias de computação estão sendo executadas. Se essa métrica mostrar que a infraestrutura de uma instância de computação não está íntegra, ela também vai descrever o problema.
Pontuação de previsão de falha da VM	`instance/gpu/failure_prediction_score`	A4X, A4, A3 Ultra ou A3 Mega	A probabilidade de degradação do host em que a instância de computação é executada nas próximas cinco horas. O valor pode estar entre `0.0` e `1.0`. Quanto mais próximo o valor permanecer de `1.0` por um período consistente, maior a probabilidade de degradação da instância de computação. Nesse caso, recomendamos que você mova o job para outra instância de computação e, se encontrar problemas com a instância, informe o host dela como com falha.

Métricas de desempenho da GPU

Para monitorar o desempenho das GPUs, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Utilização acumulada de contexto	`instance/gpu/accumulated_context_utilization_seconds`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	O tempo total, em segundos, que a GPU fica ocupada processando uma carga de trabalho.
Consumo de energia da GPU	`instance/gpu/power_consumption`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	A energia em watts (W) e em valores decimais consumida em GPUs individuais no host. Para instâncias de computação com várias GPUs anexadas, a métrica fornece o consumo de energia separadamente para cada GPU no host.
Utilização do SM	`instance/gpu/sm_utilization`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	Um valor diferente de zero indica que os multiprocessadores de streaming (SMs) nas GPUs estão sendo usados ativamente.
Temperatura da GPU	`instance/gpu/temperature`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	A temperatura em graus Celsius (℃) e em valores decimais de GPUs individuais no host. Para instâncias de computação com várias GPUs anexadas, a métrica fornece a temperatura separadamente para cada GPU no host.
Margem térmica da GPU	`instance/gpu/tlimit`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	A margem térmica em graus Celsius (℃) e em valores decimais que as GPUs individuais têm antes de precisarem reduzir a velocidade devido à alta temperatura. Para instâncias de computação com várias GPUs anexadas, a métrica fornece o headroom térmico separadamente para cada GPU no host.

Métricas de desempenho da rede da GPU

Para monitorar o desempenho da rede das GPUs, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Mudanças na operadora do link	`instance/gpu/link_carrier_changes`	A4X, A4, A3 Ultra ou A3 Mega	Com que frequência a operadora do link de rede muda em um minuto.
RTT da rede	`instance/gpu/network_rtt`	A4X, A4, A3 Ultra ou A3 Mega	O tempo de retorno, medido em microssegundos, para que os dados de rede viajem entre uma origem e um destino.
Tráfego de rede entre blocos	`instance/gpu/network/inter_block_tx`	A4X, A4, A3 Ultra ou A3 Mega	O número de bytes de tráfego de rede entre blocos.
Tráfego de rede entre sub-blocos	`instance/gpu/network/inter_subblock_tx`	A4X, A4, A3 Ultra ou A3 Mega	O número de bytes de tráfego de rede entre sub-blocos.
Tráfego de rede no subbloco	`instance/gpu/network/intra_subblock_tx`	A4X, A4, A3 Ultra ou A3 Mega	O número de bytes de tráfego de rede em um único subbloco.
Velocidade ativa do NVLink	`instance/gpu/nvlink_active_speed`	A4X Max, A4X, A4, A3 Ultra ou A3 Mega	A velocidade atual da porta do link de acesso, em GBps.
Bytes de RX de capacidade de processamento	`instance/gpu/throughput_rx_bytes`	A4X, A4, A3 Ultra ou A3 Mega	O número de bytes recebidos do tráfego de rede.
Bytes de transmissão de capacidade	`instance/gpu/throughput_tx_bytes`	A4X, A4, A3 Ultra ou A3 Mega	O número de bytes transmitidos para o tráfego de rede.

Métricas de erros fatais da GPU

Para monitorar os erros encontrados pelas GPUs que podem forçar a interrupção das instâncias de computação ou afetar negativamente o desempenho delas, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Erro de execução do NVLink	`instance/gpu/nvlink_runtime_error`	A4X Max ou A4X	Se ocorreu um erro de execução do NVLink.
Erros de ECC de DRAM não corrigíveis	`instance/gpu/dram_uncorrectable_ecc_error_count`	A4X Max ou A4X	O número de códigos de correção de erros (ECCs) incorrigíveis em uma memória de acesso aleatório dinâmico (DRAM) da GPU.
Contagem de remapeamento de linhas da DRAM incorrigível	`instance/gpu/dram_uncorrectable_row_remapping_count`	A4X Max ou A4X	O número de remapeamentos de linhas de erros incorrigíveis em DRAMs de GPU.
Falha no remapeamento incorrigível de linhas da DRAM	`instance/gpu/dram_row_remapping_failed`	A4X Max ou A4X	Se um remapeamento de linha em DRAMs de GPU falhou devido a um dos seguintes problemas: Uma tentativa de remapeamento em um banco de memória falhou porque ele já tem oito linhas de erro incorrigíveis remapeadas. Uma tentativa de remapeamento em uma linha falhou porque ela já havia sido remapeada. Uma tentativa de remapeamento falhou porque ocorreram 512 remapeamentos totais.
Erros incorrigíveis do PCIe	`instance/gpu/pcie_fatal_error_count`	A4X Max ou A4X	O número de erros incorrigíveis de interconexão de componentes periféricos express (PCIe).
Erros de ECC de cache incorrigíveis	`instance/gpu/cache_uncorrectable_ecc_error_count`	A4X Max ou A4X	O número de ECCs incorrigíveis na memória cache.

Métricas de carga de trabalho de ML

Para monitorar a produtividade, especificamente o goodput, das suas cargas de trabalho de ML, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Tempo produtivo	`workload/goodput_time`	A4X, A4, A3 Ultra ou A3 Mega	O tempo, em segundos, que a carga de trabalho passa em atividades de goodput. Essas atividades são tarefas principais e úteis, como uma transmissão direta ou inversa durante o treinamento de modelo.
Tempo não produtivo	`workload/badput_time`	A4X, A4, A3 Ultra ou A3 Mega	O tempo, em segundos, que a carga de trabalho gasta em atividades de badput. Essas atividades são tarefas de sobrecarga, como carregar ou pré-processar dados para treinamento.

Métricas de detecção de tarefas retardatárias

As métricas de detecção de outliers ajudam você a notar e identificar outliers suspeitos. Os retardatários são falhas de ponto único e não fatais que acabam atrasando toda a carga de trabalho.

Para monitorar a detecção de lentidão nas suas VMs, use a seguinte métrica:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Suspeita de Stragglers	`instance/gpu/straggler_status`	A4X, A4, A3 Ultra ou A3 Mega	Se uma VM é suspeita de ser uma atrasada que está afetando o desempenho da carga de trabalho. Recomendamos que você tome medidas em relação a suspeitas de valores discrepantes apenas quando outras métricas indicarem que a carga de trabalho está enfrentando problemas.

Também é possível conferir as métricas de detecção de atrasos nas entradas de registro de uma instância A4X, A4, A3 Ultra ou A3 Mega. Por exemplo, é possível usar as seguintes consultas:

Descrição Consulta

Descrição	Consulta
Registros com suspeita de atrasos para VMs específicas. Use esta consulta para verificar se há atrasos suspeitos em uma carga de trabalho específica no seu projeto.	logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`" Substitua `INSTANCE_ID` pelo ID de uma VM. Para cada VM adicional que você quer especificar, adicione a seguinte condição à consulta: OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`"
Todos os registros da detecção de atrasos do seu projeto. Use esta consulta para verificar se o serviço de detecção de atrasados está em execução quando nenhum atrasado suspeito é detectado. Devido às limitações, não é possível filtrar os registros sem suspeita de atrasos por VMs específicas.	`logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"`

Registros com suspeita de atrasos para VMs específicas. Use esta consulta para verificar se há atrasos suspeitos em uma carga de trabalho específica no seu projeto.

    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

Substitua INSTANCE_ID pelo ID de uma VM. Para cada VM adicional que você quer especificar, adicione a seguinte condição à consulta:

    OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

Todos os registros da detecção de atrasos do seu projeto. Use esta consulta para verificar se o serviço de detecção de atrasados está em execução quando nenhum atrasado suspeito é detectado. Devido às limitações, não é possível filtrar os registros sem suspeita de atrasos por VMs específicas.


    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"

As métricas de detecção de straggler são especialmente úteis para cargas de trabalho de ML em grande escala pelos seguintes motivos:

Cargas de trabalho de ML em grande escala são muito suscetíveis a atrasos. Cargas de trabalho de ML em grande escala usam computação síncrona e distribuída em massa. Em outras palavras, eles têm muitos componentes altamente interdependentes que são executados simultaneamente. Essa arquitetura torna as cargas de trabalho de ML em grande escala muito suscetíveis a falhas de ponto único, como atrasos.
É muito difícil notar e identificar stragglers em cargas de trabalho de ML em grande escala. Para referência, considere que há dois tipos de falhas de ponto único:
- Falhas de interrupção: falhas que causam a paralisação de todo o sistema, por exemplo, erros de host e eventos de manutenção. Eles são relativamente simples de detectar e resolver.
- Falhas lentas: falhas que causam degradação grave do desempenho sem falhas. É muito difícil identificar e depurar esses problemas.
Devido à natureza de falha lenta, é difícil notar e identificar stragglers, especialmente em cargas de trabalho síncronas de grande escala.

Métricas de detecção de carga de trabalho sem resposta

As métricas de detecção de carga de trabalho sem resposta ajudam você a fazer o seguinte:

Notar quando uma carga de trabalho inteira está parada (às vezes chamada de NCCL hang)
Entenda por que a carga de trabalho foi interrompida, por exemplo, se foi causada por uma falha no processo ou uma rede interrompida.

Para detectar e diagnosticar cargas de trabalho sem resposta nas suas instâncias de computação, use as seguintes métricas:

Nome	Tipo de métrica	Série de máquinas compatível	Descrição
Eventos de carga de trabalho sem resposta detectados usando a telemetria do NCCL	`instance/gpu/nccl_hang`	A4X Max, A4X, A4 e A3 Ultra	O número de eventos de carga de trabalho sem resposta detectados, como uma série temporal.

Ativar a detecção de carga de trabalho sem resposta

Para ativar a detecção de carga de trabalho sem resposta, é necessário ativar o CoMMA com a telemetria de pulsação, um sinal de ping periódico que indica que uma carga de trabalho está em execução. Nas versões recentes do CoMMA, essa opção é ativada por padrão. No entanto, se você estiver usando a versão do CoMMA do pacote NICCL/gIB 1.1.1, será necessário ativar manualmente a telemetria de pulsação. Para verificar qual versão do pacote NICCL/gIB você está usando, consulte Verificar a versão do NCCL e do gIB.

Para ativar manualmente a telemetria de pulsação para o CoMMA, especifique as seguintes variáveis de ambiente no seu ambiente de treinamento:

NCCL_PROFILER_HEARTBEAT=true

NCCL_PROFILER_HEARTBEAT_UPLOAD_INTERVAL=10s

Use NCCL_PROFILER_HEARTBEAT para ativar ou desativar a telemetria de pulsação e NCCL_PROFILER_HEARTBEAT_UPLOAD_INTERVAL para especificar a frequência dela. Para mais informações, consulte Variáveis de ambiente do CoMMA.

Desativar a detecção de carga de trabalho sem resposta

Para desativar a detecção de cargas de trabalho sem resposta, desative a telemetria de pulsação no CoMMA especificando a seguinte variável de ambiente no ambiente de treinamento:

NCCL_PROFILER_HEARTBEAT=false

Entenda por que as cargas de trabalho não respondem

Para entender por que uma carga de trabalho não responde, verifique o valor do rótulo hang_reason seguindo estas etapas:

No console Google Cloud , acesse a página do Metrics explorer:
Acesse o Metrics Explorer

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

Pesquise a seguinte métrica:

compute.googleapis.com/instance/gpu/nccl_hang

Use o recurso Agregação e selecione os seguintes rótulos:
- instance_id
- hang_reason

A tabela a seguir lista os valores possíveis para o rótulo, o que esses valores significam sobre suas cargas de trabalho e as próximas etapas recomendadas.

Valor do rótulo	Descrição	Próximas etapas recomendadas
`MissingHeartbeatIssue`	A telemetria de pulsação parou para um ou mais rankings, o que geralmente indica uma falha fatal no processo ou no nó.	Verifique se a instância ainda está acessível. Verifique se os processos de carga de trabalho falharam. Verifique se há eventos de falta de memória (OOM), como `dmesg`, nos registros do sistema. Procure falhas de hardware ou erros XID da NVIDIA.
`StalledRankIssue`	A telemetria de pulsação ainda está sendo recebida, mas as classificações não estão progredindo nas operações do NCCL.	Investigue possíveis impasses em operações no nível do app. Verifique se o processo de aplicativo está preso em uma operação que impede a comunicação com outros, como computação ou ponto de verificação.
`MissingCommunicatorIssue`	Todos os ranks que pertencem a um comunicador NCCL pararam de progredir.	Sua carga de trabalho pode ter sido interrompida, ou os comunicadores NCCL podem ter sido fechados abruptamente. Se você espera que uma carga de trabalho seja executada sem interrupções nessa instância de VM, verifique se ela foi interrompida ou desligada de maneira anormal.
`NoHangIssue`	O valor padrão. Nenhum problema foi detectado.	Você não precisa fazer nada.

Ver métricas

Para conferir as métricas das instâncias de computação e dos clusters do Slurm, use os painéis do Monitoring da seguinte maneira:

Para conferir as métricas de infraestrutura e de detecção de tarefas lentas, faça o seguinte:
- Para ter uma visão geral rápida da integridade e da performance da sua infraestrutura ou personalizar um painel, use painéis pré-criados.
- Para necessidades específicas de monitoramento, crie painéis personalizados.
Para conferir as métricas de carga de trabalho de ML, consulte a documentação sobre como configurar o monitoramento da sua carga de trabalho.
Para ver os registros da detecção de atrasos, acesse os registros de detecção de atrasos.

Se você encontrar problemas ao usar um painel, consulte Resolver problemas de desempenho lento.

Usar painéis predefinidos

Use os painéis do Monitoring pré-criados para o Hipercomputador de IA e veja as métricas das instâncias de computação e dos clusters do Slurm. Também é possível criar uma cópia de um painel predefinido e modificá-lo para atender às suas necessidades.

Para usar um painel predefinido para o Hipercomputador de IA, faça o seguinte:

No console Google Cloud , acesse a página Painéis:
Acesse Painéis

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Na coluna Nome, clique no nome de um dos seguintes painéis com base nas métricas que você quer visualizar:
- Para monitorar a integridade da instância de computação, o desempenho da GPU e a detecção de atrasos, use o painel Monitoramento da integridade do Cluster Director.
  
  Para mais informações sobre como usar essas métricas para identificar e analisar problemas, use também o painel do Playbook interativo do GCE: monitoramento da integridade do Cluster Director.
- Para monitorar a eficiência da transmissão de rede, use o painel Eficiência de transmissão do Cluster Director.
- Para monitorar a eficiência da rede entre blocos e sub-blocos, use o painel Rede de blocos do Cluster Director.
  
  Para mais informações sobre como usar essas métricas para identificar e analisar problemas, use também o painel do Playbook interativo do GCE: rede de bloqueio do Cluster Director.
A página de detalhes do painel escolhido é aberta. Use o seletor de período na barra de ferramentas para mudar o período dos dados.
Opcional: para criar uma cópia de um painel e personalizar de acordo com suas necessidades, clique em Copiar painel.

Criar painéis personalizados

Para criar um painel personalizado do Monitoring, faça o seguinte:

Escolha as métricas a serem monitoradas. Se ainda não fez isso, consulte Métricas disponíveis neste documento.
Criar e gerenciar painéis personalizados.

Ver registros de detecção de straggler

Para conferir os registros de detecção de outliers usando a Análise de registros, siga estas etapas:

No console do Google Cloud , acesse a página Análise de registros:
Acessar a Análise de registros

Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Logging.

Por padrão, a página consulta todos os registros no seu projeto. Clique em Interromper consulta.
Use o seletor de período na barra de ferramentas para escolher o intervalo de tempo que você quer analisar.
No painel Consulta, insira uma consulta para registros de detecção de straggler.
Selecione Executar consulta.

Confira a seguir um exemplo de entrada de registro de detecção de atraso.

  {
    ...
    "jsonPayload": {
      ...
      "@type": "type.googleapis.com/ml.aitelemetry.performancedebugging.output.NetworkStragglersOutput",
      "suspectedStragglersDetection": {
        "numNodes": 4,
        "nodes": [
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_1"
          },
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_2"
          },
          {
            "instanceId": "INSTANCE_ID_3",
            "latencyMs": 4
          },
          {
            "instanceId": "INSTANCE_ID_4",
            "latencyMs": 0
          }
        ],
        "message": "Suspected stragglers detected."
      }
    },
    "resource": {
      "type": "project",
      "labels": {
        "project_id": "PROJECT_NUMBER"
      }
    },
    ...
    "severity": "INFO",
    "logName": "projects/PROJECT_ID/logs/compute.googleapis.com%2Fworkload_diagnostic",
    ...
  }

A entrada de registro inclui os seguintes campos:

numNodes: o número de instâncias de computação suspeitas de serem lentas detectadas no projeto. No exemplo, foram detectadas quatro instâncias de computação suspeitas.
instanceId: o ID de uma instância de computação detectada como um possível elemento atrasado.

Monitorar instâncias do Compute Engine e clusters do Slurm Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.