Composants Dataproc

Ce document présente les différents types de composants disponibles dans les clusters Dataproc. Il est essentiel de comprendre ces composants pour configurer vos clusters afin d'inclure les outils et services nécessaires à vos charges de travail Big Data. Les composants Dataproc sont classés comme composants installés, facultatifs ou d'action d'initialisation.

Types de composants

Les clusters Dataproc comportent les types de composants suivants :

  • Composants installés : composants installés dans l'image et activés lors de la création du cluster.

  • Composants facultatifs : composants que vous sélectionnez pour installer et utiliser sur votre cluster lorsque vous le créez. Dataproc installe et active les composants facultatifs en fonction de la version de l'image du cluster, comme suit :

    • Versions d'image 2.2 et antérieures : les composants facultatifs sont automatiquement installés. Les composants facultatifs sélectionnés sont activés et les composants facultatifs non sélectionnés sont désinstallés lors de la création du cluster.

    • 2.3 et versions d'image ultérieures : tous les composants facultatifs sont installés lors de la création du cluster, à l'exception des composants facultatifs Jupyter, Iceberg et Delta Lake, qui sont préinstallés dans les versions d'image 2.3 et ultérieures. Les composants facultatifs préinstallés sont supprimés d'un cluster de version d'image 2.3 ou ultérieure s'ils ne sont pas activés lors de la création du cluster. Pour en savoir plus, consultez Versions de la version 2.3.x de Dataproc.

  • Composants d'action d'initialisation : composants installés sur un cluster dans le cadre d'une action d'initialisation que vous spécifiez lorsque vous créez un cluster.

Les composants facultatifs sont installés sur un cluster avant l'exécution des actions d'initialisation sur le cluster.

Les pages de version d'image Dataproc listent les composants et les types de composants disponibles dans les dernières versions d'image Dataproc.

Les composants facultatifs présentent les avantages suivants par rapport aux actions d'initialisation utilisées pour installer des composants :

  • Les composants facultatifs sont testés comme étant compatibles avec des versions spécifiques de Dataproc.
  • Les composants facultatifs sont activés avec un paramètre de création de cluster; les actions d'initialisation nécessitent un script.

Composants facultatifs disponibles

Composant facultatif. Nom du composant
dans les commandes Google Cloud CLI et les requêtes API
Version d'image Phase de version
Delta Lake DELTA 2.2.46 et versions ultérieures GA
Docker DOCKER 1.5 et versions ultérieures GA
Flink FLINK 1.5 et versions ultérieures DG
HBase HBASE 1.5 et versions ultérieures
(non disponible dans la version 2.1 et ultérieures)
Obsolète
Hive WebHCat HIVE_WEBHCAT 1.3 et versions ultérieures GA
Hudi HUDI 1.5 et versions ultérieures GA
Iceberg ICEBERG 2.2 et versions ultérieures GA
Notebook Jupyter JUPYTER 1.3 et versions ultérieures GA
Pig PIG 1.5* et versions ultérieures GA
Presto PRESTO 1.3 et versions ultérieures
(non disponible dans la version 2.1 et ultérieures)
GA
Ranger RANGER 1.3 et versions ultérieures DG
Solr SOLR 1.3 et versions ultérieures GA
Trino TRINO 2.1 et versions ultérieures GA
Notebook Zeppelin ZEPPELIN 1.3 et versions ultérieures DG
ZooKeeper ZOOKEEPER 1.0 et versions ultérieures GA

Remarques :

  • Apache Pig est un composant facultatif dans les versions d'image 2.3 et ultérieures. Il était préinstallé dans les versions d'image 2.2 et antérieures.

Ajouter des composants facultatifs

Console

  1. Dans la Google Cloud console, accédez à la page Dataproc Créer un cluster.

    Accéder à la page "Créer un cluster"

    Le panneau Configurer un cluster est sélectionné.

  2. Dans la section Composants, sous Composants facultatifs, sélectionnez un ou plusieurs composants à installer sur votre cluster.

Google Cloud CLI

Pour créer un cluster Dataproc et installer un ou plusieurs composants facultatifs sur le cluster, utilisez la gcloud beta dataproc clusters create cluster-name commande avec l'option --optional-components

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Les composants facultatifs peuvent être spécifiés via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.