Sie können zusätzliche Komponenten wie Apache Pig installieren, wenn Sie einen Managed Service for Apache Spark-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Pig-Komponente beschrieben, eine Open-Source-Plattform zum Analysieren großer Datasets.
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Managed Service for Apache Spark-Cluster erstellen.
Apache Pig ist eine optionale Komponente in Managed Service for Apache Spark 2.3 und späteren Image-Versionen.
Informationen zu den Komponentenversionen, die in den neuesten Managed Service for Apache Spark-Image-Releases enthalten sind, finden Sie unter Unterstützte Managed Service for Apache Spark-Versionen.
gcloud
Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters, der die Pig-Komponente enthält, den Befehl gcloud dataproc clusters create CLUSTER_NAME mit dem Flag --optional-components (mit Image-Version 2.3 oder höher).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
Die Pig-Komponente kann über die Managed Service for Apache Spark API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.
Console
Aktivieren Sie die Komponente:
- Öffnen Sie in der Google Cloud Console die Seite „Managed Service for Apache Spark“ Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ Pig und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.