Este documento oferece uma visão geral dos diferentes tipos de componentes disponíveis nos clusters do Dataproc. Entender esses componentes é essencial para configurar seus clusters de modo a incluir as ferramentas e os serviços necessários para suas cargas de trabalho de Big Data. Os componentes do Dataproc são categorizados como instalados, opcionais ou de ação de inicialização.
Tipos de componentes
Os clusters do Dataproc apresentam os seguintes tipos de componentes:
Componentes instalados: componentes instalados na imagem e ativados quando o cluster é criado.
Componentes opcionais: componentes que você seleciona para instalar e usar no cluster ao criá-lo. O Dataproc instala e ativa componentes opcionais dependendo da versão da imagem do cluster, da seguinte maneira:
2.2e versões de imagem anteriores: os componentes opcionais são instalados automaticamente. Os componentes opcionais selecionados são ativados, e os não selecionados componentes opcionais são desinstalados na criação do cluster.2.3e versões de imagem mais recentes: todos os componentes opcionais são instalados durante a criação do cluster, exceto os componentes opcionais do Jupyter, Iceberg e Delta Lake, que são pré-instalados nas versões de imagem2.3e mais recentes. Os componentes opcionais pré-instalados são removidos de um cluster de versão de imagem2.3ou mais recente se não forem ativados quando o cluster for criado. Para mais informações, consulte Versões de lançamento do Dataproc 2.3.x.
Componentes de ação de inicialização: componentes instalados em um cluster como parte de uma ação de inicialização especificada ao criar um cluster.
Os componentes opcionais são instalados em um cluster antes da execução de ações de inicialização no cluster.
As páginas de versão de imagem do Dataproc listam os componentes e tipos de componentes disponíveis nas versões de imagem mais recentes do Dataproc.
Os componentes opcionais têm as seguintes vantagens em relação às ações de inicialização usadas para instalar componentes:
- Os componentes opcionais são testados como compatíveis com versões específicas do Dataproc.
- Os componentes opcionais são ativados com um parâmetro de criação de cluster; as ações de inicialização exigem um script.
Componentes opcionais disponíveis
| Componente opcional | Nome do componente em comandos da Google Cloud CLI e solicitações de API |
Versão de imagem | Etapa da versão |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 e mais recentes | GA |
| Docker | DOCKER | 1.5 ou superior | GA |
| Flink | FLINK | 1.5 ou superior | GA |
| HBase | HBASE | 1.5 ou superior (não disponível na versão 2.1 e mais recentes) |
Descontinuado |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 ou superior | GA |
| Hudi | HUDI | 1.5 ou superior | GA |
| Iceberg | ICEBERG | 2.2 ou superior | GA |
| Jupyter Notebook | JUPYTER | 1.3 ou superior | GA |
| Pig | PIG | 1.5* ou superior | GA |
| Presto | PRESTO | 1.3 ou superior (não disponível na versão 2.1 e mais recentes) |
GA |
| Ranger | RANGER | 1.3 ou superior | GA |
| Solr | SOLR | 1.3 ou superior | GA |
| Trino | TRINO | 2.1 ou superior | GA |
| Zeppelin Notebook | ZEPPELIN | 1.3 ou superior | GA |
| Zookeeper | ZOOKEEPER | 1.0 ou superior | GA |
Observações:
- O Apache Pig é um componente opcional nas versões de imagem 2.3 e mais recentes. Ele foi
pré-instalado nas versões de imagem
2.2e anteriores.
Adicionar componentes opcionais
Console
- No Google Cloud console, acesse a página
Criar um cluster do Dataproc.
O painho Configurar cluster está selecionado.
- Na seção Componentes, em Componentes opcionais, selecione um ou mais componentes para instalar no cluster.
Google Cloud CLI
Para criar um cluster do Dataproc e instalar um ou mais
componentes opcionais no cluster, use o
gcloud beta dataproc clusters create cluster-name
comando com a --optional-components flag.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
Especifique componentes opcionais por meio da API do Dataproc usando SoftwareConfig.Component como parte de uma clusters.create.