Ferramentas de monitoramento e solução de problemas do Dataproc

O Dataproc é um serviço totalmente gerenciado e altamente escalonável para executar plataformas de processamento distribuído de código aberto como Apache Hadoop, Apache Spark, Apache Flink e Trino. É possível usar as ferramentas e os arquivos discutidos nas seções a seguir para investigar, resolver problemas e monitorar seus clusters e jobs do Dataproc.

Investigações com tecnologia de IA com o Gemini Cloud Assist (pré-lançamento)

Visão geral

O recurso de pré-lançamento das investigações do Gemini Cloud Assist usa os recursos avançados do Gemini para ajudar na criação e execução de clusters e jobs do Dataproc. Esse recurso analisa clusters com falha e jobs com falha e execução lenta para identificar causas raiz e recomendar correções. Ele cria uma análise persistente que pode ser revisada, salva e compartilhada com o Google Cloud suporte para facilitar a colaboração e acelerar a resolução de problemas.

Recursos

Use esse recurso para criar investigações no Google Cloud console:

  • Adicione uma descrição de contexto de linguagem natural a um problema antes de criar um a investigação.
  • Analise clusters com falha e jobs lentos e com falha.
  • Receba insights sobre as causas raiz do problema com as correções recomendadas.
  • Crie Google Cloud casos de suporte com o contexto completo da investigação anexado.

Antes de começar

Para começar a usar o recurso de investigação, ative a API Gemini Cloud Assist no seu Google Cloud projeto, .

Criar uma investigação

Para criar uma investigação, faça o seguinte:

  1. No Google Cloud console, acesse a página Investigações do Cloud Assist.

    Investigações do Cloud Assist

  2. Clique em Criar.

  3. Descreva o problema: forneça uma descrição do problema do cluster ou do job.

  4. Selecione o período: forneça um período em que o problema ocorreu (o padrão é de 30 minutos).

  5. Selecione recursos:

    1. Clique em Adicionar recurso.
      1. No campo Filtros rápidos, digite "dataproc", e selecione um ou mais de dataproc.Batch, dataproc.Job, ou dataproc.Cluster como filtros.
      2. Selecione o lote, o job ou o cluster listado para investigar.
  6. Clique em Criar.

Interpretar os resultados da investigação

Quando uma investigação é concluída, a página Detalhes da investigação é aberta. Essa página contém a análise completa do Gemini, que é organizada nas seguintes seções:

  • Problema: uma seção recolhida que contém detalhes preenchidos automaticamente do job que está sendo investigado.
  • Observações relevantes: uma seção recolhida que lista os principais pontos de dados e anomalias que o Gemini encontrou durante a análise de registros e métricas.
  • Hipóteses: essa é a seção principal, que é expandida por padrão. Ela apresenta uma lista de possíveis causas raiz para o problema observado. Cada hipótese inclui:
    • Visão geral: uma descrição da possível causa, como "Tempo de gravação de embaralhamento alto e possível inclinação de tarefa".
    • Correções recomendadas: uma lista de etapas práticas para resolver o possível problema.

Entre em ação

Depois de analisar as hipóteses e recomendações:

  • Aplique uma ou mais das correções sugeridas à configuração ou ao código do job, e execute-o novamente.

  • Forneça feedback sobre a utilidade da investigação clicando nos ícones "Gostei" ou "Não gostei" na parte de cima do painel.

Analisar e encaminhar investigações

Os resultados de uma investigação executada anteriormente podem ser analisados clicando no nome da investigação na página Investigações do Cloud Assist para abrir a Detalhes da investigação página.

Se precisar de mais ajuda, use um caso de suporte aberto. Google Cloud Esse processo fornece ao engenheiro de suporte o contexto completo da investigação realizada anteriormente, incluindo as observações e hipóteses geradas pelo Gemini. Esse compartilhamento de contexto reduz significativamente a comunicação necessária com a equipe de suporte e leva a uma resolução mais rápida do caso.

Para criar um caso de suporte em uma investigação:

Na página Detalhes da investigação, clique em Solicitar suporte.

Status e preços do pré-lançamento

Não há custo para as investigações do Gemini Cloud Assist durante o pré-lançamento público. As cobranças serão aplicadas ao recurso quando ele estiver disponível para todos os usuários (GA).

Para mais informações sobre preços após a disponibilidade geral, consulte Preços do Gemini Cloud Assist.

Interfaces da Web de código aberto

Muitos componentes de código aberto do cluster do Dataproc, como Apache Hadoop e Apache Spark, fornecem interfaces da Web. Essas interfaces podem ser usadas para monitorar recursos de cluster e desempenho de jobs. Por exemplo, é possível usar a interface do YARN Resource Manager para conferir a alocação de recursos do aplicativo YARN em um cluster do Dataproc.

Servidor de histórico persistente

As interfaces da Web de código aberto em execução em um cluster estão disponíveis quando o cluster está em execução, mas são encerradas quando você o exclui. Para conferir dados de cluster e job depois que um cluster é excluído, é possível criar um servidor de histórico persistente (PHS, na sigla em inglês).

Exemplo: você encontra um erro ou lentidão de job que quer analisar. Você interrompe ou exclui o cluster de jobs e, em seguida, visualiza e analisa os dados do histórico de jobs usando o PHS.

Depois de criar um PHS, ative-o em um cluster do Dataproc ou Google Cloud no Serverless para Apache Spark quando criar o cluster ou enviar a carga de trabalho em lote. Um PHS pode acessar dados de histórico de jobs executados em vários clusters, permitindo que você monitore jobs em um projeto em vez de monitorar interfaces separadas em clusters diferentes.

Registros do Dataproc

O Dataproc coleta os registros gerados pelo Apache Hadoop, Spark, Hive, Zookeeper e outros sistemas de código aberto em execução nos clusters e os envia para o Logging. Esses registros são agrupados com base na origem deles, o que permite selecionar e visualizar os registros de interesse. Por exemplo, os registros do YARN NodeManager e do Spark Executor gerados em um cluster são rotulados separadamente. Consulte Registros do Dataproc para mais informações sobre o conteúdo e as opções de registro do Dataproc.

Cloud Logging

O Logging é um sistema de gerenciamento de registros em tempo real totalmente gerenciado. Ele fornece armazenamento para registros ingeridos de Google Cloud serviços e ferramentas para pesquisar, filtrar, e analisar registros em escala. Os clusters do Dataproc geram vários registros, incluindo registros do agente de serviço do Dataproc, registros de inicialização de cluster e registros de componentes OSS, como registros do YARN NodeManager.

O Logging é ativado por padrão em clusters do Dataproc e cargas de trabalho em lote do Serverless para Apache Spark. Os registros são exportados periodicamente para o Logging, onde permanecem após a exclusão do cluster ou a conclusão da carga de trabalho.

Métricas do Dataproc

As métricas de cluster e job do Dataproc, prefixadas com dataproc.googleapis.com/, consistem em dados de série temporal que fornecem insights sobre o desempenho de um cluster, como a utilização da CPU ou o status do job. As métricas personalizadas do Dataproc , prefixadas com custom.googleapis.com/, incluem métricas emitidas por sistemas de código aberto em execução no cluster, como a métrica running applications do YARN. A obtenção de insights sobre as métricas do Dataproc pode ajudar a configurar os clusters de maneira eficiente. A configuração de alertas baseados em métricas pode ajudar a reconhecer e responder a problemas rapidamente.

As métricas de cluster e job do Dataproc são coletadas por padrão sem custo financeiro. A coleta de métricas personalizadas é cobrada dos clientes. É possível ativar a coleta de métricas personalizadas ao criar um cluster. A coleta de métricas do Spark do Serverless para Apache Spark é ativada por padrão em cargas de trabalho em lote do Spark.

Cloud Monitoring

O Monitoring usa metadados e métricas de cluster, incluindo métricas HDFS, YARN, job e operação, para fornecer visibilidade sobre a integridade, o desempenho e a disponibilidade de clusters e jobs do Dataproc. É possível usar o Monitoring para explorar métricas, adicionar gráficos, criar painéis e criar alertas.

Metrics Explorer

É possível usar o Metrics Explorer para conferir as métricas do Dataproc. As métricas de cluster, job e lote do Serverless para Apache Spark estão listadas nos recursos Cloud Dataproc Cluster, Cloud Dataproc Job, e Cloud Dataproc Batch. As métricas personalizadas do Dataproc estão listadas no recurso VM Instances, Custom categoria.

Gráficos

É possível usar o Metrics Explorer para criar gráficos que visualizam as métricas do Dataproc.

Exemplo: você cria um gráfico para conferir o número de aplicativos Yarn ativos em execução nos clusters e, em seguida, adiciona um filtro para selecionar métricas visualizadas por nome ou região do cluster.

Painéis

É possível criar painéis para monitorar clusters e jobs do Dataproc usando métricas de vários projetos e diferentes Google Cloud produtos. É possível criar painéis no console Google Cloud na página Visão geral de painéis clicando, criando e salvando um gráfico na página Metrics Explorer.

Alertas

É possível criar alertas de métricas do Dataproc para receber avisos oportunos de problemas de cluster ou job.

A seguir