Componente Pig opcional do Managed Service for Apache Spark

É possível instalar componentes adicionais, como Apache Pig ao criar um cluster do Serviço Gerenciado para Apache Spark usando o recurso Componentes opcionais. Esta página descreve o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.

Instalar o componente

Instale o componente ao criar um cluster do Serviço Gerenciado para Apache Spark.

O Apache Pig é um componente opcional no Serviço Gerenciado para Apache Spark 2.3 e versões de imagem mais recentes.

Consulte as versões compatíveis do Serviço Gerenciado para Apache Spark para conferir as versões de componentes incluídas nas versões mais recentes de imagens do Serviço Gerenciado para Apache Spark.

gcloud

Para criar um cluster do Serviço Gerenciado para Apache Spark que inclua o componente Pig, use o gcloud dataproc clusters create CLUSTER_NAME comando com a flag --optional-components (usando a versão de imagem 2.3 ou mais recente).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

O componente Pig pode ser especificado pela API do Serviço Gerenciado para Apache Spark usando SoftwareConfig.Component como parte de uma clusters.create.

Console

Ativar o componente:

  1. No Google Cloud console, abra a página Criar um cluster do Serviço Gerenciado para Apache Spark. O painel "Configurar cluster" está selecionado.
  2. Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.