Componentes do Serviço Gerenciado para Apache Spark

Este documento oferece uma visão geral dos diferentes tipos de componentes disponíveis nos clusters do Serviço Gerenciado para Apache Spark. Entender esses componentes é essencial para configurar seus clusters e incluir as ferramentas e os serviços necessários para suas cargas de trabalho de Big Data. Os componentes do Serviço Gerenciado para Apache Spark são categorizados como instalados, opcionais ou de ação de inicialização.

Tipos de componentes

Os clusters do Serviço Gerenciado para Apache Spark têm os seguintes tipos de componentes:

  • Componentes instalados: componentes instalados na imagem e ativados quando o cluster é criado.

  • Componentes opcionais: são os que você seleciona para instalar e usar no cluster ao criá-lo. O Serviço Gerenciado para Apache Spark instala e ativa componentes opcionais dependendo da versão da imagem do cluster da seguinte maneira:

    • 2.2 e versões de imagem anteriores: os componentes opcionais são instalados automaticamente. Os componentes opcionais selecionados são ativados, e os não selecionados são desinstalados na criação do cluster.

    • Versões de imagem 2.3 e mais recentes: todos os componentes opcionais são instalados durante a criação do cluster, exceto os componentes opcionais Jupyter, Iceberg e Delta Lake, que são pré-instalados nas versões de imagem 2.3 e mais recentes. Os componentes opcionais pré-instalados são removidos de um cluster da versão de imagem 2.3 ou mais recente se não forem ativados quando o cluster for criado. Para mais informações, consulte Versões de lançamento do Serviço Gerenciado para Apache Spark 2.3.x.

  • Componentes de ação de inicialização: componentes instalados em um cluster como parte de uma ação de inicialização especificada ao criar um cluster.

Os componentes opcionais são instalados em um cluster antes da execução das ações de inicialização no cluster.

As páginas de versão da imagem do Serviço Gerenciado para Apache Spark listam os componentes e tipos de componentes disponíveis nas versões mais recentes da imagem do Serviço Gerenciado para Apache Spark.

Os componentes opcionais têm as seguintes vantagens em relação às ações de inicialização usadas para instalar componentes:

  • Os componentes opcionais são testados como compatíveis com versões específicas do Serviço Gerenciado para Apache Spark.
  • Os componentes opcionais são ativados com um parâmetro de criação de cluster. As ações de inicialização exigem um script.

Componentes opcionais disponíveis

Componente opcional Nome do componente
em comandos da Google Cloud CLI e solicitações de API
Versão de imagem Etapa da versão
Delta Lake DELTA 2.2.46 e versões mais recentes GA
Docker DOCKER 1.5 ou superior GA
Flink FLINK 1.5 ou superior GA
HBase HBASE 1.5 ou superior
(não disponível na versão 2.1 e posteriores)
Descontinuado
Hive WebHCat HIVE_WEBHCAT 1.3 ou superior GA
Hudi HUDI 1.5 ou superior GA
Iceberg ICEBERG 2.2 e versões mais recentes GA
Jupyter Notebook JUPYTER 1.3 ou superior GA
Pig PIG 1.5* e versões mais recentes GA
Presto PRESTO 1.3 ou superior
(não disponível na versão 2.1 e posteriores)
GA
Ranger RANGER 1.3 ou superior GA
Solr SOLR 1.3 ou superior GA
Trino TRINO 2.1 e versões mais recentes GA
Zeppelin Notebook ZEPPELIN 1.3 ou superior GA
ZooKeeper ZOOKEEPER 1.0 ou superior GA

Observações:

  • O Apache Pig é um componente opcional nas versões de imagem 2.3 e mais recentes. Ele foi pré-instalado no 2.2 e em versões de imagem anteriores.

Adicionar componentes opcionais

Console doGoogle Cloud

  1. No console do Google Cloud , abra a página Criar cluster.
  2. Clique em Configuração adicional para abrir a seção.
  3. Edite Componentes opcionais.
  4. No painel que aparece, marque as caixas de seleção dos componentes opcionais que você quer instalar no cluster e clique em Salvar.

CLI da gcloud

Para criar um cluster do Serviço Gerenciado para Apache Spark e instalar um ou mais componentes opcionais no cluster, use o comando gcloud beta dataproc clusters create cluster-name com a flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Especifique componentes opcionais por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.