Práticas recomendadas do Managed Service for Apache Spark para produção

Este documento discute as práticas recomendadas do Serviço Gerenciado para Apache Spark que podem ajudar você a executar jobs de processamento de dados confiáveis, eficientes e úteis em clusters do Serviço Gerenciado para Apache Spark em ambientes de produção.

Especificar versões de imagem do cluster

O Serviço Gerenciado para Apache Spark usa versões de imagem para agrupar sistema operacional, componentes de Big Data e conectores Google Cloud em um pacote implantado em um cluster. Se você não especificar uma versão de imagem ao criar um cluster, o Serviço Gerenciado para Apache Spark usará por padrão a versão de imagem estável mais recente.

Para ambientes de produção, associe o cluster a uma versão de imagem específica do Serviço Gerenciado para Apache Spark major.minor, conforme mostrado no seguinte comando da CLI gcloud.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=region \
    --image-version=2.0

O Dataproc resolve a versão major.minor para a versão secundária mais recente (2.0 é resolvido para 2.0.x). Observação: se você precisar usar uma versão secundária específica para seu cluster, especifique-a. Por exemplo, --image-version=2.0.x. Consulte Como funciona o controle de versões para mais informações.

Versões de imagem de prévia do Serviço Gerenciado para Apache Spark

Novas versões secundárias de imagens do Serviço Gerenciado para Apache Spark estão disponíveis em uma versão preview antes do lançamento na faixa padrão de versões secundárias de imagens. Use uma imagem de prévia para testar e validar seus jobs com uma nova versão secundária da imagem antes de adotar a versão secundária padrão em produção. Consulte Controle de versões do Serviço Gerenciado para Apache Spark para mais informações.

Use imagens personalizadas quando necessário

Se você tiver dependências para adicionar ao cluster, como bibliotecas nativas do Python ou software de proteção contra vírus ou reforço da proteção, crie uma imagem personalizada com base na imagem mais recente na sua faixa de versão de imagem secundária de destino. Essa prática permite atender aos requisitos de dependência ao criar clusters usando sua imagem personalizada. Ao recriar sua imagem personalizada para atualizar os requisitos de dependência, use a versão de imagem subsecundária mais recente disponível na faixa de imagem secundária.

Enviar jobs para o Serviço Gerenciado para Apache Spark

Envie jobs para o Serviço Gerenciado para Apache Spark com uma chamada jobs.submit usando a CLI gcloud ou o console Google Cloud . Defina as permissões de job e cluster concedendo papéis do Serviço Gerenciado para Apache Spark. Use papéis personalizados para separar o acesso ao cluster das permissões de envio de jobs.

Benefícios de enviar jobs para o Serviço Gerenciado para Apache Spark:

  • Não são necessárias configurações de rede complicadas. A API é amplamente acessível.
  • Fácil de gerenciar permissões e papéis do IAM
  • Acompanhe o status do job com facilidade. Não há metadados do job do Serviço Gerenciado para Apache Spark para complicar os resultados.

Em produção, execute jobs que dependem apenas de dependências no nível do cluster em uma versão de imagem secundária fixa (por exemplo, --image-version=2.0). Agrupe as dependências com os jobs quando eles forem enviados. Enviar um uber jar para o Spark ou o MapReduce é uma maneira comum de fazer isso.

  • Exemplo: se um jar de job depender de args4j e spark-sql, com args4j específico do job e spark-sql uma dependência no nível do cluster, agrupe args4j no uber jar do job.

Controlar os locais das ações de inicialização

As ações de inicialização permitem executar scripts ou instalar componentes automaticamente ao criar um cluster do Serviço Gerenciado para Apache Spark. Consulte o repositório dataproc-initialization-actions do GitHub para ações de inicialização comuns do Serviço Gerenciado para Apache Spark. Ao usar ações de inicialização de cluster em um ambiente de produção, copie os scripts de inicialização para o Cloud Storage em vez de buscá-los em um repositório público. Essa prática evita a execução de scripts de inicialização sujeitos a modificação por terceiros.

Monitorar as notas da versão do Serviço Gerenciado para Apache Spark

O Serviço Gerenciado para Apache Spark lança regularmente novas versões secundárias de imagens. Consulte ou assine as notas da versão do Serviço Gerenciado para Apache Spark para ficar por dentro das versões mais recentes da imagem do Serviço Gerenciado para Apache Spark e de outros anúncios, mudanças e correções.

Ver o bucket de staging para investigar falhas

  1. Analise o bucket de preparo do cluster para investigar mensagens de erro do cluster e do job. Normalmente, o local do bucket de staging do Cloud Storage é mostrado em mensagens de erro, como no texto em negrito na seguinte mensagem de erro de exemplo:

    ERROR:
    (gcloud.dataproc.clusters.create) Operation ... failed:
    ...
    - Initialization action failed. Failed action ... see output in:
    gs://dataproc-<BUCKETID>-us-central1/google-cloud-dataproc-metainfo/CLUSTERID/<CLUSTER_ID>\dataproc-initialization-script-0_output
     

  2. Use a CLI gcloud para conferir o conteúdo do bucket de staging:

    gcloud storage cat gs://STAGING_BUCKET
    
    Exemplo de saída:
    + readonly RANGER_VERSION=1.2.0
    ... Ranger admin password not set. Please use metadata flag - default-password
    

Receber suporte

OGoogle Cloud oferece suporte às suas cargas de trabalho de produção de OSS e ajuda você a cumprir os SLAs comerciais com níveis de suporte. Além disso,os Serviços de consultoria do Google Cloudpodem orientar sobre as práticas recomendadas para implantações de produção da sua equipe.

Para mais informações