Componente Pig facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Apache Pig quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive il componente Pig, una piattaforma open source per l' analisi di set di dati di grandi dimensioni.

Installare il componente

Installa il componente quando crei un cluster Dataproc.

Apache Pig è un componente facoltativo nelle versioni immagine Dataproc 2.3 e successive.

Per le versioni dei componenti inclusi nelle ultime release delle immagini Dataproc, consulta Versioni Dataproc supportate.

gcloud

Per creare un cluster Dataproc che includa il componente Pig, utilizza il gcloud dataproc clusters create CLUSTER_NAME comando con il --optional-components flag (utilizzando la versione immagine 2.3 o successive).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

Il componente Pig può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una clusters.create.

Console

Attiva il componente:

  1. Nella Google Cloud console, apri la pagina Crea un cluster Dataproc. Il riquadro Configura cluster è selezionato.
  2. Nella sezione Componenti, in Componenti facoltativi, seleziona Pig e altri componenti facoltativi da installare sul cluster.