Optionale Pig-Komponente für Managed Service for Apache Spark

Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Managed Service for Apache Spark-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zum Analysieren großer Datasets.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Managed Service for Apache Spark-Cluster erstellen.

Apache Pig ist eine optionale Komponente in Managed Service for Apache Spark 2.3 und späteren Image-Versionen.

Informationen zu den Komponentenversionen, die in den neuesten Managed Service for Apache Spark-Image-Releases enthalten sind, finden Sie unter Unterstützte Managed Service for Apache Spark-Versionen.

gcloud

Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters, der die Pig-Komponente enthält, den Befehl gcloud dataproc clusters create CLUSTER_NAME mit dem Flag --optional-components (mit Image-Version 2.3 oder höher).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

Die Pig-Komponente kann über die Managed Service for Apache Spark API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Aktivieren Sie die Komponente:

  1. Öffnen Sie in der Google Cloud Console die Seite „Managed Service for Apache Spark“ Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
  2. Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.