Optionale Dataproc-Pig-Komponente

Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zum Analysieren großer Datasets.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Apache Pig ist eine optionale Komponente in Dataproc 2.3 und späteren Image-Versionen.

Informationen zu den Komponentenversionen, die in den neuesten Dataproc-Image Releases enthalten sind, finden Sie unter Unterstützte Dataproc-Versionen.

gcloud

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pig-Komponente enthält, verwenden Sie den gcloud dataproc clusters create CLUSTER_NAME Befehl mit dem --optional-components Flag. Sie benötigen dazu die Image-Version 2.3 oder höher.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

Die Pig-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create Anfrage angegeben werden.

Console

Aktivieren Sie die Komponente:

  1. Öffnen Sie in der Google Cloud Console die Dataproc Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
  2. Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.