Componente Pig opcional de Dataproc

Puedes instalar componentes adicionales como Apache Pig cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente Pig, una plataforma de código abierto para analizar grandes conjuntos de datos.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc.

Apache Pig es un componente opcional en las versiones de imagen 2.3 y posteriores de Dataproc.

Consulta las versiones compatibles de Dataproc para conocer las versiones de los componentes incluidas en las versiones de imagen más recientes de Dataproc.

gcloud

Para crear un clúster de Dataproc que incluya el componente Pig, usa el gcloud dataproc clusters create CLUSTER_NAME comando con la marca --optional-components (si usas la versión de imagen 2.3 o posterior).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API de REST

El componente Pig se puede especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una clusters.create.

Console

Habilita el componente:

  1. En la Google Cloud consola, abre la página Create a cluster (Crear un clúster) de Dataproc. Se selecciona el panel Configurar clúster.
  2. En la sección Componentes, en Componentes opcionales, selecciona Pig y otros componentes opcionales para instalar en tu clúster.