Composant Pig facultatif de Managed Service pour Apache Spark

Vous pouvez installer des composants supplémentaires, comme Apache Pig lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Pig, une plate-forme Open Source permettant d'analyser de grands ensembles de données.

Installer le composant

Installez le composant lorsque vous créez un cluster Managed Service pour Apache Spark.

Apache Pig est un composant facultatif dans Managed Service pour Apache Spark 2.3 et les versions d'image ultérieures.

Pour connaître les versions des composants incluses dans les dernières versions d'image de Managed Service pour Apache Spark, consultez Versions compatibles de Managed Service pour Apache Spark.

gcloud

Pour créer un cluster Managed Service pour Apache Spark incluant le composant Pig, utilisez la gcloud dataproc clusters create CLUSTER_NAME commande avec l'option --optional-components (à l'aide de la version d'image 2.3 ou ultérieure).

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

API REST

Le composant Pig peut être spécifié via l'API Managed Service pour Apache Spark à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

Activez le composant :

  1. Dans la Google Cloud console, ouvrez la page Créer un cluster de Managed Service pour Apache Spark . Le panneau "Configurer un cluster" est sélectionné.
  2. Dans la section "Composants", sous "Composants facultatifs", sélectionnez "Pig" et les autres composants facultatifs à installer sur votre cluster.