Componente Pig opcional de Managed Service for Apache Spark

Puedes instalar componentes adicionales, como Apache Pig cuando creas un clúster de Managed Service para Apache Spark con la función de componentes opcionales. En esta página, se describe el componente Pig, una plataforma de código abierto para analizar grandes conjuntos de datos.

Instala el componente

Instala el componente cuando crees un clúster de Managed Service para Apache Spark.

Apache Pig es un componente opcional en Managed Service para Apache Spark 2.3 y versiones de imagen posteriores.

Consulta Versiones compatibles de Managed Service para Apache Spark para obtener las versiones de los componentes incluidas en las versiones de imagen más recientes de Managed Service para Apache Spark.

gcloud

Para crear un clúster de Managed Service para Apache Spark que incluya el componente Pig, usa el gcloud dataproc clusters create CLUSTER_NAME comando con la marca --optional-components (con la versión 2.3 o posterior de la imagen).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API de REST

El componente Pig se puede especificar a través de la API de Managed Service para Apache Spark mediante SoftwareConfig.Component como parte de una clusters.create.

Console

Habilita el componente:

  1. En la Google Cloud consola, abre la página Crear un clúster de Managed Service para Apache Spark. Se selecciona el panel Configurar clúster.
  2. En la sección Componentes, en Componentes opcionales, selecciona Pig y otros componentes opcionales para instalar en tu clúster.