Componente Pig opcional do Dataproc

Pode instalar componentes adicionais, como o Apache Pig, quando cria um cluster do Dataproc através da funcionalidade Componentes opcionais. Esta página descreve o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.

Instale o componente

Instale o componente quando criar um cluster do Dataproc.

O Apache Pig é um componente opcional nas versões de imagem do Dataproc 2.3 e posteriores.

Consulte o artigo Versões do Dataproc suportadas para ver as versões dos componentes incluídas nas versões mais recentes das imagens do Dataproc.

gcloud

Para criar um cluster do Dataproc que inclua o componente Pig, use o comando gcloud dataproc clusters create CLUSTER_NAME com a flag --optional-components (usando a versão da imagem 2.3 ou posterior).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

O componente Pig pode ser especificado através da API Dataproc usando SoftwareConfig.Component como parte de um pedido clusters.create.

Consola

Ative o componente:

  1. Na Google Cloud consola, abra a página do Dataproc Criar um cluster. O painel Configurar cluster está selecionado.
  2. Na secção Componentes, em Componentes opcionais, selecione o Pig e outros componentes opcionais para instalar no cluster.