Componente Pig opcional do Dataproc

É possível instalar componentes adicionais, como Apache Pig ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Esta página descreve o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.

Instalar o componente

Instale o componente ao criar um cluster do Dataproc.

O Apache Pig é um componente opcional nas versões de imagem do Dataproc 2.3 e mais recentes.

Consulte Versões compatíveis do Dataproc para versões de componentes incluídas nas versões de imagem mais recentes do Dataproc.

gcloud

Para criar um cluster do Dataproc que inclua o componente Pig, use o gcloud dataproc clusters create CLUSTER_NAME comando com a flag --optional-components (usando a versão de imagem 2.3 ou mais recente).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

O componente Pig pode ser especificado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma clusters.create.

Console

Ativar o componente:

  1. No Google Cloud console, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
  2. Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.