Ce document présente les différents types de composants disponibles dans les clusters Dataproc. Il est essentiel de comprendre ces composants pour configurer vos clusters afin d'inclure les outils et services nécessaires à vos charges de travail Big Data. Les composants Dataproc sont classés comme composants installés, facultatifs ou d'action d'initialisation.
Types de composants
Les clusters Dataproc comportent les types de composants suivants :
Composants installés : composants installés dans l'image et activés lors de la création du cluster.
Composants facultatifs : composants que vous sélectionnez pour installer et utiliser sur votre cluster lorsque vous le créez. Dataproc installe et active les composants facultatifs en fonction de la version de l'image du cluster, comme suit :
Versions d'image
2.2et antérieures : les composants facultatifs sont automatiquement installés. Les composants facultatifs sélectionnés sont activés et les composants facultatifs non sélectionnés sont désinstallés lors de la création du cluster.2.3et versions d'image ultérieures : tous les composants facultatifs sont installés lors de la création du cluster, à l'exception des composants facultatifs Jupyter, Iceberg et Delta Lake, qui sont préinstallés dans les versions d'image2.3et ultérieures. Les composants facultatifs préinstallés sont supprimés d'un cluster de version d'image2.3ou ultérieure s'ils ne sont pas activés lors de la création du cluster. Pour en savoir plus, consultez Versions de la version 2.3.x de Dataproc.
Composants d'action d'initialisation : composants installés sur un cluster dans le cadre d'une action d'initialisation que vous spécifiez lorsque vous créez un cluster.
Les composants facultatifs sont installés sur un cluster avant l'exécution des actions d'initialisation sur le cluster.
Les pages de version d'image Dataproc listent les composants et les types de composants disponibles dans les dernières versions d'image Dataproc.
Les composants facultatifs présentent les avantages suivants par rapport aux actions d'initialisation utilisées pour installer des composants :
- Les composants facultatifs sont testés comme étant compatibles avec des versions spécifiques de Dataproc.
- Les composants facultatifs sont activés avec un paramètre de création de cluster; les actions d'initialisation nécessitent un script.
Composants facultatifs disponibles
| Composant facultatif. | Nom du composant dans les commandes Google Cloud CLI et les requêtes API |
Version d'image | Phase de version |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 et versions ultérieures | GA |
| Docker | DOCKER | 1.5 et versions ultérieures | GA |
| Flink | FLINK | 1.5 et versions ultérieures | DG |
| HBase | HBASE | 1.5 et versions ultérieures (non disponible dans la version 2.1 et ultérieures) |
Obsolète |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 et versions ultérieures | GA |
| Hudi | HUDI | 1.5 et versions ultérieures | GA |
| Iceberg | ICEBERG | 2.2 et versions ultérieures | GA |
| Notebook Jupyter | JUPYTER | 1.3 et versions ultérieures | GA |
| Pig | PIG | 1.5* et versions ultérieures | GA |
| Presto | PRESTO | 1.3 et versions ultérieures (non disponible dans la version 2.1 et ultérieures) |
GA |
| Ranger | RANGER | 1.3 et versions ultérieures | DG |
| Solr | SOLR | 1.3 et versions ultérieures | GA |
| Trino | TRINO | 2.1 et versions ultérieures | GA |
| Notebook Zeppelin | ZEPPELIN | 1.3 et versions ultérieures | DG |
| ZooKeeper | ZOOKEEPER | 1.0 et versions ultérieures | GA |
Remarques :
- Apache Pig est un composant facultatif dans les versions d'image 2.3 et ultérieures. Il était
préinstallé dans les versions d'image
2.2et antérieures.
Ajouter des composants facultatifs
Console
- Dans la Google Cloud console, accédez à la page Dataproc
Créer un cluster.
Accéder à la page "Créer un cluster"
Le panneau Configurer un cluster est sélectionné.
- Dans la section Composants, sous Composants facultatifs, sélectionnez un ou plusieurs composants à installer sur votre cluster.
Google Cloud CLI
Pour créer un cluster Dataproc et installer un ou plusieurs
composants facultatifs sur le cluster, utilisez la
gcloud beta dataproc clusters create cluster-name
commande avec l'option --optional-components
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
Les composants facultatifs peuvent être spécifiés via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.