Vous pouvez installer des composants supplémentaires, comme Apache Pig lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Pig, une plate-forme Open Source permettant d'analyser de grands ensembles de données.
Installer le composant
Installez le composant lorsque vous créez un cluster Managed Service pour Apache Spark.
Apache Pig est un composant facultatif dans Managed Service pour Apache Spark 2.3 et les versions d'image ultérieures.
Pour connaître les versions des composants incluses dans les dernières versions d'image de Managed Service pour Apache Spark, consultez Versions compatibles de Managed Service pour Apache Spark.
gcloud
Pour créer un cluster Managed Service pour Apache Spark incluant le composant Pig,
utilisez la
gcloud dataproc clusters create CLUSTER_NAME
commande avec l'option --optional-components (à l'aide de la version d'image
2.3 ou ultérieure).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
Le composant Pig peut être spécifié via l'API Managed Service pour Apache Spark à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.
Console
Activez le composant :
- Dans la Google Cloud console, ouvrez la page Créer un cluster de Managed Service pour Apache Spark . Le panneau "Configurer un cluster" est sélectionné.
- Dans la section "Composants", sous "Composants facultatifs", sélectionnez "Pig" et les autres composants facultatifs à installer sur votre cluster.