É possível instalar componentes adicionais, como Apache Pig ao criar um cluster do Serviço Gerenciado para Apache Spark usando o recurso Componentes opcionais. Esta página descreve o componente Pig, uma plataforma de código aberto para analisar grandes conjuntos de dados.
Instalar o componente
Instale o componente ao criar um cluster do Serviço Gerenciado para Apache Spark.
O Apache Pig é um componente opcional no Serviço Gerenciado para Apache Spark 2.3 e versões de imagem mais recentes.
Consulte as versões compatíveis do Serviço Gerenciado para Apache Spark para conferir as versões de componentes incluídas nas versões mais recentes de imagens do Serviço Gerenciado para Apache Spark.
gcloud
Para criar um cluster do Serviço Gerenciado para Apache Spark que inclua o componente Pig,
use o
gcloud dataproc clusters create CLUSTER_NAME
comando com a flag --optional-components (usando a versão de imagem
2.3 ou mais recente).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
O componente Pig pode ser especificado pela API do Serviço Gerenciado para Apache Spark usando SoftwareConfig.Component como parte de uma clusters.create.
Console
Ativar o componente:
- No Google Cloud console, abra a página Criar um cluster do Serviço Gerenciado para Apache Spark. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes", em "Componentes opcionais", selecione Pig e outros componentes opcionais para instalar no cluster.