Vous pouvez installer des composants supplémentaires comme Trino lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page explique comment installer le composant Trino sur un cluster Dataproc.
Trino est un moteur de requêtes SQL distribué Open
Source. Le serveur et
l'interface utilisateur Web de Trino sont disponibles par défaut sur le port 8060 (ou le port 7778 si Kerberos est
activé) sur le premier nœud maître du cluster.
Par défaut, Trino sur Dataproc est configuré pour fonctionner avec Hive, BigQuery,
Memory, TPCH et TPCDS connecteurs.
Après avoir créé un cluster avec le composant Trino, vous pouvez exécuter des requêtes :
- à partir d'un terminal local avec la
gcloud dataproc jobs submit trinocommande ; - à partir d'une fenêtre de terminal sur le premier nœud maître du cluster à l'aide de l'
trinointerface de ligne de commande (voir Utiliser Trino avec Dataproc).
Installer le composant
Installez le composant lorsque vous créez un cluster Dataproc.
Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.
Console
- Dans la Google Cloud console, accédez à la page Dataproc
Créer un cluster.
Accéder à la page Créer un cluster
Le panneau Configurer un cluster est sélectionné.
- Dans la section "Composants" :
- Sous Composants facultatifs, sélectionnez "Trino" et les autres composants facultatifs à installer sur votre cluster.
- Sous "Passerelle des composants", sélectionnez "Activer la passerelle des composants" (consultez la section Afficher les URL de la passerelle des composants et y accéder).
CLI gcloud
Pour créer un cluster Dataproc incluant le composant Trino,
utilisez la
commande gcloud dataproc clusters create
avec l'option --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME : nom du cluster.
- REGION : région Compute Engine dans laquelle se trouvera le cluster.
Configurer les propriétés
Ajoutez l'--properties à la
gcloud dataproc clusters create pour définir
trino, trino-jvm et trino-catalog
propriétés de configuration.
-
Propriétés de l'application : utilisez les propriétés du cluster avec le
trino:préfixe pour configurer les propriétés de l'application Trino (par exemple,--properties="trino:join-distribution-type=AUTOMATIC"). - Propriétés de configuration de la machine virtuelle Java : utilisez les propriétés de cluster avec le
trino-jvm:préfixe pour configurer les propriétés de la machine virtuelle Java pour les processus Java des coordinateurs et des nœuds de calcul de Trino, par exemple--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError". - Créer des catalogues et ajouter des propriétés de catalogue Utilisez
trino-catalog:catalog-name.property-namepour configurer les catalogues Trino.Exemple : l'option "propriétés" suivante peut être utilisée avec la commande "gcloud dataproc clusters create" pour créer un cluster Trino avec un catalogue Hive "prodhive". Un fichier
prodhive.propertiessera créé sous/usr/lib/trino/etc/catalog/pour activer le catalogue de prodhives.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
API REST
Le composant Trino peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.