Monitorar e resolver problemas de cargas de trabalho em lote

Este documento descreve as ferramentas e os arquivos que podem ser usados para monitorar e solucionar problemas de cargas de trabalho em lote do Serverless para Apache Spark.

Resolver problemas de cargas de trabalho no console do Google Cloud

Quando um job em lote falha ou tem desempenho ruim, a primeira etapa recomendada é abrir a página Detalhes do lote na página Lotes do console Google Cloud .

Usar a guia "Resumo": seu hub de solução de problemas

A guia Resumo, que é selecionada por padrão quando a página Detalhes do lote é aberta, mostra métricas importantes e registros filtrados para ajudar você a fazer uma avaliação inicial rápida da integridade do lote. Depois dessa avaliação inicial, é possível fazer uma análise mais detalhada usando ferramentas mais especializadas disponíveis na página Detalhes do lote, como a interface do Spark, o Explorador de registros e o Gemini Cloud Assist.

Destaques das métricas em lote

A guia Resumo na página Detalhes do lote inclui gráficos que mostram valores importantes de métricas de carga de trabalho em lote. Os gráficos de métricas são preenchidos depois que a é concluída e oferecem uma indicação visual de possíveis problemas, como disputa de recursos, distorção de dados ou pressão de memória.

Painel de métricas em lote.

Tabela de métricas

A tabela a seguir lista as métricas de carga de trabalho do Spark exibidas na página Detalhes do lote no console Google Cloud e descreve como os valores das métricas podem fornecer insights sobre o status e a performance da carga de trabalho.

Métrica O que ele mostra?
Métricas no nível do executor
Proporção entre o tempo de GC da JVM e o tempo de execução Essa métrica mostra a proporção entre o tempo de GC (coleta de lixo) da JVM e o tempo de execução por executor. Taxas altas podem indicar vazamentos de memória em tarefas executadas em executores específicos ou estruturas de dados ineficientes, o que pode levar a uma alta rotatividade de objetos.
Bytes espalhados do disco Essa métrica mostra o número total de bytes de disco transferidos entre diferentes executores. Se um executor mostrar um alto número de bytes de disco derramados, isso pode indicar distorção de dados. Se a métrica aumentar com o tempo, isso pode indicar que há estágios com pressão ou vazamentos de memória.
Bytes lidos e gravados Essa métrica mostra os bytes gravados em comparação com os bytes lidos por executor. Grandes discrepâncias nos bytes lidos ou gravados podem indicar cenários em que as junções replicadas levam à ampliação de dados em executores específicos.
Registros lidos e gravados Essa métrica mostra os registros lidos e gravados por executor. Um grande número de registros lidos com um baixo número de registros gravados pode indicar um gargalo na lógica de processamento em executores específicos, fazendo com que os registros sejam lidos enquanto esperam. Executores que ficam consistentemente atrasados em leituras e gravações podem indicar disputa de recursos nesses nós ou ineficiências de código específicas do executor.
Proporção entre o tempo de gravação de embaralhamento e o tempo de execução A métrica mostra o tempo gasto pelo executor no tempo de execução de embaralhamento em comparação com o tempo de execução geral. Se esse valor for alto para alguns executores, isso pode indicar distorção de dados ou serialização de dados ineficiente. É possível identificar estágios com tempos longos de gravação de shuffle na interface do Spark. Procure tarefas atípicas nessas etapas que levam mais tempo do que a média para serem concluídas. Verifique se os executores com tempos de gravação de embaralhamento altos também mostram alta atividade de E/S de disco. Uma serialização mais eficiente e etapas adicionais de particionamento podem ajudar. Um número muito grande de gravações em comparação com leituras de registros pode indicar duplicação de dados não intencional devido a junções ineficientes ou transformações incorretas.
Métricas no nível do aplicativo
Progressão de fases Essa métrica mostra o número de estágios com falha, em espera e em execução. Um grande número de etapas com falha ou em espera pode indicar distorção de dados. Verifique as partições de dados e depure o motivo da falha da etapa usando a guia Etapas na interface do Spark.
Executores do Spark em lote Essa métrica mostra o número de executores que podem ser necessários em comparação com o número de executores em execução. Uma grande diferença entre os executores necessários e os em execução pode indicar problemas de escalonamento automático.
Métricas no nível da VM
Memória usada Essa métrica mostra a porcentagem da memória da VM em uso. Se a porcentagem do master for alta, isso pode indicar que o driver está sob pressão de memória. Para outros nós de VM, uma porcentagem alta pode indicar que os executores estão ficando sem memória, o que pode levar a um alto vazamento de disco e um tempo de execução mais lento da carga de trabalho. Use a interface do usuário do Spark para analisar executores e verificar se há um tempo alto de GC e muitas falhas de tarefas. Também depure o código do Spark para o armazenamento em cache de grandes conjuntos de dados e a transmissão desnecessária de variáveis.

Registros do job

A página Detalhes do lote inclui uma seção Registros do job que lista avisos e erros filtrados dos registros do job (carga de trabalho em lote). Esse recurso permite a identificação rápida de problemas críticos sem a necessidade de analisar manualmente arquivos de registro extensos. Você pode selecionar uma Gravidade do registro (por exemplo, Error) no menu suspenso e adicionar um Filtro de texto para restringir os resultados. Para fazer uma análise mais detalhada, clique no ícone Ver na Análise de registros para abrir os registros em lote selecionados na Análise de registros.

Ver registros em lote no Cloud Logging
Ver registros de lote no Cloud Logging

Exemplo: a Análise de registros é aberta depois de escolher Errors no seletor de gravidade da página Detalhes do lote no console do Google Cloud .

Análise de registros em lote.

Interface do Spark

A interface do Spark coleta detalhes de execução do Apache Spark de cargas de trabalho em lote do Serverless para Apache Spark. Não há cobrança pelo recurso da interface do Spark, que é ativado por padrão.

Os dados coletados pelo recurso da interface do Spark são armazenados por 90 dias. É possível usar essa interface da Web para monitorar e depurar cargas de trabalho do Spark sem precisar criar um servidor de histórico persistente.

Permissões e papéis necessários do Identity and Access Management

As permissões a seguir são necessárias para usar o recurso da interface do Spark com cargas de trabalho em lote.

  • Permissão de coleta de dados: dataproc.batches.sparkApplicationWrite. Essa permissão precisa ser concedida à conta de serviço que executa cargas de trabalho em lote. Essa permissão está incluída no papel Dataproc Worker, que é concedido automaticamente à conta de serviço padrão do Compute Engine usada por padrão pelo Serverless para Apache Spark (consulte Conta de serviço do Serverless para Apache Spark). No entanto, se você especificar uma conta de serviço personalizada para sua carga de trabalho em lote, adicione a permissão dataproc.batches.sparkApplicationWrite a essa conta (normalmente, concedendo à conta de serviço o papel Worker do Dataproc).

  • Permissão de acesso à interface do Spark: dataproc.batches.sparkApplicationRead. Essa permissão precisa ser concedida a um usuário para acessar a interface do Spark no consoleGoogle Cloud . Essa permissão está incluída nos papéis Dataproc Viewer, Dataproc Editor e Dataproc Administrator. Para abrir a interface do Spark no console Google Cloud , você precisa ter um destes papéis ou um papel personalizado que inclua essa permissão.

Abra a interface do Spark

A página da interface do Spark está disponível nas cargas de trabalho em lote do console Google Cloud .

  1. Acesse a página Sessões interativas do Serverless para Apache Spark.

    Acessar Lotes do Dataproc

  2. Clique em um ID do lote para abrir a página Detalhes do lote.

  3. Clique em Ver interface do Spark no menu superior.

O botão Ver interface do Spark fica desativado nos seguintes casos:

Registros do Serverless para Apache Spark

O registro em log é ativado por padrão no Serverless para Apache Spark, e os registros de carga de trabalho permanecem após a conclusão de uma carga de trabalho. O Serverless para Apache Spark coleta registros de carga de trabalho no Cloud Logging. É possível acessar os registros do Serverless para Apache Spark no recurso Cloud Dataproc Batch do Explorador de registros.

Consultar registros do Serverless para Apache Spark

A Análise de registros no console do Google Cloud fornece um painel de consultas para ajudar você a criar uma consulta e examinar os registros de carga de trabalho em lote. Confira as etapas para criar uma consulta e examinar os registros de carga de trabalho em lote:

  1. Acessar o Explorador de registros

  2. O projeto atual está selecionado. Clique em Refinar projeto de escopo para selecionar outro projeto.
  3. Defina uma consulta de registros em lote.

    • Use os menus de filtro para filtrar uma carga de trabalho em lote.

      1. Em Todos os recursos, selecione o recurso Lote do Cloud Dataproc.

        1. No painel Selecionar recurso, escolha o LOCAL do lote e depois o ID DO LOTE. Esses parâmetros de lote estão listados na página Lotes do Dataproc no console Google Cloud .

        2. Clique em Aplicar.

        3. Em Selecionar nomes de registros, digite dataproc.googleapis.com na caixa Pesquisar nomes de registros para limitar os tipos de registros a serem consultados. Selecione um ou mais dos nomes de arquivos de registro listados.

    • Use o editor de consultas para filtrar registros específicos da VM.

      1. Especifique o tipo de recurso e o nome do recurso da VM, conforme mostrado no exemplo a seguir:

        resource.type="cloud_dataproc_batch"
        labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCH_UUID-VM_SUFFIX"
        
        Observações:

        • BATCH_UUID:o UUID do lote está listado na página "Detalhes do lote" do console Google Cloud , que é aberta quando você clica no ID do lote na página Lotes.

        Os registros em lote também listam o UUID do lote no nome do recurso da VM. Confira um exemplo de um driver.log em lote:

  4. Clique em Executar consulta.

Tipos de registros e exemplos de consultas do Serverless para Apache Spark

A lista a seguir descreve diferentes tipos de registros do Serverless para Apache Spark e fornece exemplos de consultas da Análise de registros para cada tipo.

  1. dataproc.googleapis.com/output: esse arquivo de registro contém a saída da carga de trabalho em lote. O Serverless para Apache Spark transmite a saída em lote para o namespace output e define o nome do arquivo como JOB_ID.driver.log.

    Exemplo de consulta da Análise de registros para registros de saída:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Foutput"
    

  2. dataproc.googleapis.com/spark: o namespace spark agrega registros do Spark para daemons e executores em execução nas VMs master e worker do cluster do Dataproc. Cada entrada de registro inclui um rótulo de componente master, worker ou executor para identificar a origem do registro, da seguinte maneira:

    • executor: registros de executores de código do usuário. Normalmente, esses são registros distribuídos.
    • master: registros do mestre do gerenciador de recursos independente do Spark, que são semelhantes aos registros do Dataproc no Compute Engine YARN ResourceManager.
    • worker: registros do worker do gerenciador de recursos independente do Spark, que são semelhantes aos registros do Dataproc no Compute Engine YARN NodeManager.

    Exemplo de consulta da Análise de registros para todos os registros no namespace spark:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
    

    Exemplo de consulta da Análise de registros para registros de componentes autônomos do Spark no namespace spark:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
    jsonPayload.component="COMPONENT"
    

  3. dataproc.googleapis.com/startup: o namespace startup inclui os registros de inicialização do lote (cluster). Todos os registros de script de inicialização são incluídos. Os componentes são identificados por rótulo, por exemplo:

    startup-script[855]: ... activate-component-spark[3050]: ... enable spark-worker
    
    Exemplo de consulta da Análise de registros para registros de inicialização em uma VM especificada:
    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fstartup"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCH_UUID-VM_SUFFIX"
    
  4. dataproc.googleapis.com/agent: o namespace agent agrega registros do agente do Dataproc. Cada entrada de registro inclui um rótulo de nome de arquivo que identifica a origem do registro.

    Exemplo de consulta da Análise de registros para registros de agente gerados por uma VM de worker especificada:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fagent"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCHUUID-wWORKER#"
    

  5. dataproc.googleapis.com/autoscaler: o namespace autoscaler agrega registros do escalonador automático do Serverless para Apache Spark.

    Exemplo de consulta da Análise de registros para registros de agente gerados por uma VM de worker especificada:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fautoscaler"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCHUUID-wWORKER#"
    

Para mais informações, consulte Registros do Dataproc.

Para informações sobre registros de auditoria do Serverless para Apache Spark, consulte Geração de registros de auditoria do Dataproc.

Métricas de carga de trabalho

O Serverless para Apache Spark fornece métricas de lote e do Spark que podem ser visualizadas no Metrics Explorer ou na página Detalhes do lote no console Google Cloud .

Métricas de lote

As métricas de recursos do Dataproc batch fornecem insights sobre recursos em lote, como o número de executores em lote. As métricas de lote são prefixadas com dataproc.googleapis.com/batch.

Exemplo de métrica em lote no Metrics Explorer.

Métricas do Spark

Por padrão, o Serverless para Apache Spark ativa a coleta de métricas disponíveis do Spark, a menos que você use propriedades de coleta de métricas do Spark para desativar ou substituir a coleta de uma ou mais métricas do Spark.

As métricas do Spark disponíveis incluem métricas do driver e do executor do Spark, além de métricas do sistema. As métricas do Spark disponíveis têm o prefixo custom.googleapis.com/.

Exemplo de métrica de faísca no Metrics Explorer.

Configurar alertas de métricas

É possível criar alertas de métricas do Dataproc para receber notificações sobre problemas de carga de trabalho.

Criar tabelas

É possível criar gráficos que visualizam métricas de carga de trabalho usando o Metrics Explorer no console doGoogle Cloud . Por exemplo, você pode criar um gráfico para mostrar disk:bytes_used e depois filtrar por batch_id.

Cloud Monitoring

O Monitoring usa metadados e métricas de carga de trabalho para fornecer insights sobre a integridade e o desempenho das cargas de trabalho do Serverless para Apache Spark. As métricas de carga de trabalho incluem métricas do Spark, em lote e de operação.

Use o Cloud Monitoring no console Google Cloud para analisar métricas, adicionar gráficos, criar painéis e alertas.

Criar painéis

É possível criar um painel para monitorar cargas de trabalho usando métricas de vários projetos e diferentes produtos do Google Cloud . Para mais informações, consulte Criar e gerenciar painéis personalizados.

Servidor de histórico persistente

O Serverless para Apache Spark cria os recursos de computação necessários para executar uma carga de trabalho, executa a carga de trabalho nesses recursos e depois exclui os recursos quando a carga de trabalho termina. As métricas e os eventos de carga de trabalho não persistem após a conclusão de uma carga de trabalho. No entanto, é possível usar um servidor de histórico permanente (PHS, na sigla em inglês) para reter o histórico de aplicativos de carga de trabalho (registros de eventos) no Cloud Storage.

Para usar um PHS com uma carga de trabalho em lote, faça o seguinte:

  1. Crie um servidor de histórico persistente (PHS) do Dataproc.

  2. Especifique seu PHS ao enviar uma carga de trabalho.

  3. Use o Gateway de componentes para se conectar ao PHS e ver detalhes do aplicativo, estágios do programador, detalhes no nível da tarefa e informações sobre ambiente e executor.

Ajuste automático

  • Ative o ajuste automático para o Serverless para Apache Spark:é possível ativar o ajuste automático para o Serverless para Apache Spark ao enviar cada carga de trabalho em lote recorrente do Spark usando o console Google Cloud , CLI gcloud ou a API Dataproc.

Console

Siga estas etapas para ativar o ajuste automático em cada carga de trabalho em lote recorrente do Spark:

  1. No console Google Cloud , acesse a página Lotes do Dataproc.

    Acessar Lotes do Dataproc

  2. Para criar uma carga de trabalho em lote, clique em Criar.

  3. Na seção Contêiner, preencha o nome da coorte, que identifica o lote como uma série de cargas de trabalho recorrentes. A análise com a ajuda do Gemini é aplicada à segunda e às cargas de trabalho subsequentes enviadas com esse nome de coorte. Por exemplo, especifique TPCH-Query1 como o nome da coorte para uma carga de trabalho programada que executa uma consulta diária do TPC-H.

  4. Preencha outras seções da página Criar lote conforme necessário e clique em Enviar. Para mais informações, consulte Enviar uma carga de trabalho em lote.

gcloud

Execute o seguinte comando da CLI gcloud gcloud dataproc batches submit localmente em uma janela de terminal ou no Cloud Shell para ativar o ajuste automático em cada carga de trabalho em lote recorrente do Spark:

gcloud dataproc batches submit COMMAND \
    --region=REGION \
    --cohort=COHORT \
    other arguments ...

Substitua:

  • COMMAND: o tipo de carga de trabalho do Spark, como Spark, PySpark, Spark-Sql ou Spark-R.
  • REGION: a região em que sua carga de trabalho será executada.
  • COHORT: o nome da coorte, que identifica o lote como uma de uma série de cargas de trabalho recorrentes. A análise com a ajuda do Gemini é aplicada à segunda e às próximas cargas de trabalho enviadas com esse nome de coorte. Por exemplo, especifique TPCH Query 1 como o nome da coorte para uma carga de trabalho programada que executa uma consulta diária do TPC-H.

API

Inclua o nome RuntimeConfig.cohort em uma solicitação batches.create para ativar o ajuste automático em cada carga de trabalho em lote recorrente do Spark. O ajuste automático é aplicado à segunda e às próximas cargas de trabalho enviadas com esse nome de coorte. Por exemplo, especifique TPCH-Query1 como o nome da coorte para uma carga de trabalho programada que executa uma consulta diária do TPC-H.

Exemplo:

...
runtimeConfig:
  cohort: TPCH-Query1
...