É possível instalar componentes adicionais, como Apache Pig ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Esta página descreve o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.
Instalar o componente
Instale o componente ao criar um cluster do Dataproc.
O Apache Pig é um componente opcional nas versões de imagem do Dataproc 2.3 e mais recentes.
Consulte Versões compatíveis do Dataproc para versões de componentes incluídas nas versões de imagem mais recentes do Dataproc.
gcloud
Para criar um cluster do Dataproc que inclua o componente Pig,
use o
gcloud dataproc clusters create CLUSTER_NAME
comando com a flag --optional-components (usando a versão de imagem
2.3 ou mais recente).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
O componente Pig pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma clusters.create.
Console
Ativar o componente:
- No Google Cloud console, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.