Armazenamento em cache de cluster

Ao ativar o armazenamento em cache do cluster do Serviço Gerenciado para Apache Spark, o cluster armazena em cache os dados do Cloud Storage acessados com frequência pelos jobs do Spark.

Benefícios

  • Melhor desempenho:o armazenamento em cache pode melhorar o desempenho do job, reduzindo o tempo gasto na recuperação de dados do armazenamento.
  • Custos de armazenamento reduzidos:como os dados ativos são armazenados em cache no disco local, menos chamadas de API são feitas para o armazenamento para recuperar dados.
  • Aplicabilidade do job do Spark: quando o armazenamento em cache do cluster está ativado em um cluster, ele se aplica a todos os jobs do Spark executados no cluster, enviados ao Serviço Gerenciado para Apache Spark ou executados de forma independente no cluster.

Limitações e requisitos

  • O armazenamento em cache se aplica apenas a jobs do Serviço Gerenciado para Apache Spark.
  • Somente os dados do Cloud Storage são armazenados em cache.
  • O armazenamento em cache só se aplica a clusters que atendem aos seguintes requisitos:

Ativar o armazenamento em cache do cluster

É possível ativar o armazenamento em cache do cluster ao criar um cluster do Serviço Gerenciado para Apache Spark usando o Google Cloud console, a Google Cloud CLI ou a API Dataproc.

Google Cloud Console do

  • Abra a página Criar um cluster do Serviço Gerenciado para Apache Spark no Google Cloud console.
  • O painel Configurar cluster está selecionado. Na seção Melhorias de desempenho do Spark, selecione Ativar o armazenamento em cache do Google Cloud Storage.
  • Depois de confirmar e especificar os detalhes do cluster nos painéis de criação de cluster, clique em Criar.

CLI gcloud

Execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell usando a dataproc:dataproc.cluster.caching.enabled=true propriedade de cluster.

Exemplo:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Defina SoftwareConfig.properties para incluir a "dataproc:dataproc.cluster.caching.enabled": "true" propriedade de cluster como parte de uma clusters.create.