Componente Pig opcional do Managed Service for Apache Spark

É possível instalar componentes adicionais, como o Apache Pig, ao criar um cluster do Serviço Gerenciado para Apache Spark usando o recurso Componentes opcionais. Nesta página, descrevemos o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.

Instalar o componente

Instale o componente ao criar um cluster do Serviço Gerenciado para Apache Spark.

O Apache Pig é um componente opcional no Serviço Gerenciado para Apache Spark 2.3 e em versões de imagem mais recentes.

Consulte Versões compatíveis do Serviço Gerenciado para Apache Spark para conferir as versões dos componentes incluídas nas versões mais recentes das imagens do Serviço Gerenciado para Apache Spark.

gcloud

Para criar um cluster do Serviço Gerenciado para Apache Spark que inclua o componente Pig, use o comando gcloud dataproc clusters create CLUSTER_NAME com a flag --optional-components (usando a versão de imagem 2.3 ou mais recente).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

O componente Pig pode ser especificado pela API do Serviço Gerenciado para Apache Spark usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

Ative o componente:

  1. No console Google Cloud , abra a página Criar um cluster do Serviço Gerenciado para Apache Spark. O painel "Configurar cluster" está selecionado.
  2. Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.