Vous pouvez installer des composants supplémentaires tels qu'Apache Pig lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Pig, une plate-forme Open Source permettant d'analyser de grands ensembles de données.
Installer le composant
Installez le composant lorsque vous créez un cluster Managed Service pour Apache Spark.
Apache Pig est un composant facultatif dans les versions d'image Managed Service pour Apache Spark 2.3 et ultérieures.
Consultez Versions de Managed Service pour Apache Spark compatibles pour connaître les versions des composants inclus dans les dernières versions des images Managed Service pour Apache Spark.
gcloud
Pour créer un cluster Managed Service pour Apache Spark incluant le composant Pig, utilisez la commande gcloud dataproc clusters create CLUSTER_NAME avec l'option --optional-components (à l'aide de la version d'image 2.3 ou ultérieure).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
Le composant Pig peut être spécifié via l'API Managed Service pour Apache Spark à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.
Console
Activez le composant :
- Dans la console Google Cloud , ouvrez la page Managed Service pour Apache Spark Créer un cluster. Le panneau "Configurer un cluster" est sélectionné.
- Dans la section "Composants", sous "Composants facultatifs", sélectionnez "Pig" et les autres composants facultatifs à installer sur votre cluster.