"Service géré pour Apache Spark" est le nouveau nom du produit anciennement appelé "Dataproc sur Compute Engine" (déploiement de cluster) et "Google Cloud Serverless pour Apache Spark" (déploiement sans serveur).

Composant Trino facultatif de Managed Service pour Apache Spark

Vous pouvez installer des composants supplémentaires tels que Trino lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la fonctionnalité Composants facultatifs. Cette page explique comment installer le composant Trino sur un cluster Managed Service pour Apache Spark.

Trino est un moteur de requêtes SQL Open Source distribué. Le serveur Trino et l'interface utilisateur Web sont disponibles par défaut sur le port 8060 (ou le port 7778 si Kerberos est activé) sur le premier nœud maître du cluster.

Par défaut, Trino sur Managed Service pour Apache Spark est configuré pour fonctionner avec les connecteurs Hive, BigQuery, Memory, TPCH et TPCDS.

Après avoir créé un cluster avec le composant Trino, vous pouvez exécuter des requêtes :

à partir d'un terminal local avec la commande gcloud dataproc jobs submit trino ;
à partir d'une fenêtre de terminal sur le premier nœud maître du cluster à l'aide de l'interface de ligne de commande trino (voir Utiliser Trino avec Managed Service pour Apache Spark).

Installer le composant

Installez le composant lorsque vous créez un cluster Managed Service pour Apache Spark.

Consultez la section Versions Managed Service pour Apache Spark compatibles pour obtenir la version de composant incluse dans chaque version d'image Managed Service pour Apache Spark.

Console

Dans la console Google Cloud , accédez à la page Créer un cluster de Managed Service pour Apache Spark.
Accéder à la page "Créer un cluster"

Le panneau Configurer un cluster est sélectionné.
Dans la section "Composants" :
- Dans Composants facultatifs, sélectionnez Trino et les autres composants facultatifs à installer sur votre cluster.
- Sous "Passerelle des composants", sélectionnez "Activer la passerelle des composants" (consultez la section Afficher les URL de la passerelle des composants et y accéder).

gcloud CLI

Pour créer un cluster Managed Service pour Apache Spark incluant le composant Trino, exécutez la commande gcloud dataproc clusters create avec l'option --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Remarques :

CLUSTER_NAME : nom du cluster.
REGION : région Compute Engine dans laquelle le cluster sera situé.

Configurer les propriétés

Ajoutez l'option --properties à la commande gcloud dataproc clusters create pour définir les propriétés de configuration trino, trino-jvm et trino-catalog.

Propriétés de l'application : utilisez les propriétés du cluster avec le préfixe trino: pour configurer les propriétés de l'application Trino (par exemple, --properties="trino:join-distribution-type=AUTOMATIC").
Propriétés de configuration de la JVM : utilisez les propriétés du cluster avec le préfixe trino-jvm: pour configurer les propriétés de la JVM pour les processus Java des coordinateurs et des nœuds de calcul Trino, par exemple --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
Créer des catalogues et ajouter des propriétés de catalogue : utilisez trino-catalog:catalog-name.property-name pour configurer les catalogues Trino.
Exemple : l'option "propriétés" suivante peut être utilisée avec la commande "gcloud dataproc clusters create" pour créer un cluster Trino avec un catalogue Hive "prodhive". Un fichier prodhive.properties sera créé sous /usr/lib/trino/etc/catalog/ pour activer le catalogue de prodhives.
```
--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
```

API REST

Le composant Trino peut être spécifié via l'API Managed Service pour Apache Spark à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

À l'aide de l'API Managed Service pour Apache Spark v1, définissez la propriété EndpointConfig.enableHttpPortAccess sur true dans le cadre de la requête clusters.create pour activer la connexion à l'interface utilisateur Web de Trino à l'aide de la passerelle des composants.

Composant Trino facultatif de Managed Service pour Apache Spark Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Installer le composant

Console

gcloud CLI

Configurer les propriétés

API REST

Composant Trino facultatif de Managed Service pour Apache Spark