Ce document explique comment activer et utiliser la traçabilité des données pour les tâches Dataproc Hive.
Vous activez la traçabilité des données pour les tâches Dataproc Hive à l'aide d'une action d'initialisation lorsque vous créez un cluster.
Lorsque vous activez la traçabilité des données Hive sur un cluster, les tâches Hive que vous envoyez au cluster capturent les événements de traçabilité des données et les publient dans Dataplex Universal Catalog.
Visualiser les informations de traçabilité
Un graphique de traçabilité des données affiche les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez accéder aux graphiques de traçabilité à l'aide de Dataplex Universal Catalog, BigQuery Studio, et Vertex AI dans la Google Cloud console.
Tarifs
La traçabilité des données Dataproc Hive est proposée pendant la phase de preview sans frais supplémentaires. La tarification standard de Dataproc s'applique.
Avant de commencer
Dans la Google Cloud console, sur la page Sélecteur de projet, sélectionnez le projet contenant le cluster Dataproc pour lequel vous souhaitez suivre la traçabilité.
Activez l'API Data Lineage et l'API Dataplex.
Rôles requis
-
Afficher la traçabilité des données dans Dataplex Universal Catalog ou utiliser l'API Data Lineage :
Lecteur de traçabilité des données (
roles/datalineage.viewer) -
Produire manuellement la traçabilité des données à l'aide de l'API:
Producteur d'événements de traçabilité des données (
roles/datalineage.producer) -
Modifier la traçabilité des données à l'aide de l'API:
Éditeur de traçabilité des données (
roles/datalineage.editor) -
Effectuer toutes les opérations sur la traçabilité des données:
Administrateur de traçabilité des données (
roles/datalineage.admin)
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Activer la traçabilité des données Hive
Pour activer la traçabilité des données Hive sur un cluster, spécifiez l'hive-lineage.sh
action d'initialisation lorsque
vous créez un cluster Dataproc.
Cette action d'initialisation est stockée dans des buckets régionaux dans Cloud Storage.
Exemple de création de cluster gcloud CLI :
gcloud dataproc clusters create CLUSTER_NAME \
--project PROJECT_ID \
--region REGION \
--image-version IMAGE_VERSION \
--initialization-actions gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.shRemplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster.
- PROJECT_ID : ID de votre Google Cloud projet. Les ID de projet sont répertoriés dans la section Informations sur le projet du tableau de bord de la Google Cloud console Dashboard.
- REGION : région Compute Engine dans laquelle localiser le cluster.
- IMAGE_VERSION : version d'image prévue pour le cluster.
--initialization-actions: spécifie une action d'installation située dans un emplacement régional Cloud Storage, qui active la traçabilité des données Hive.- Vous pouvez également ajouter l'action d'initialisation du connecteur Hive-BigQuery. Si vous souhaitez intégrer des tables BigQuery à des charges de travail Hive, vous devez installer le connecteur Hive-BigQuery sur le cluster. Consultez l' exemple de traçabilité des données Hive avec BigQuery, qui exécute une action d'initialisation du connecteur pour installer le connecteur Hive-BigQuery sur le cluster.
Envoyer une tâche Hive
Lorsque vous envoyez une tâche Hive à un cluster Dataproc créé avec la traçabilité des données Hive activée, Dataproc capture et signale les informations de traçabilité des données à Dataplex Universal Catalog.
Exemple d'envoi de tâche Hive gcloud CLI :
gcloud dataproc jobs submit hive \
--cluster=CLUSTER_NAME \
--project PROJECT_ID \
--region REGION \
--properties=hive.openlineage.namespace=CUSTOM_NAMESPACE \
--execute HIVE_QUERYRemplacez les éléments suivants :
- CLUSTER_NAME : nom du cluster.
- PROJECT_ID : ID de votre Google Cloud projet. Les ID de projet sont répertoriés dans la section Informations sur le projet du tableau de bord de la Google Cloud console Dashboard.
- REGION : région Compute Engine où se trouve votre cluster.
- CUSTOM_NAMESPACE : espace de noms Hive personnalisé facultatif que vous pouvez spécifier pour identifier la tâche Hive.
- HIVE_QUERY : requête Hive à envoyer au cluster.
Au lieu de spécifier une requête, vous pouvez remplacer l'option
--execute HIVE_QUERYpar une option--file SQL_FILEpour spécifier l'emplacement d'un fichier contenant la requête.
Afficher la traçabilité dans Dataplex Universal Catalog
Un graphique de traçabilité affiche les relations entre les ressources de votre projet et les processus qui les ont créées. Vous pouvez afficher les informations de traçabilité des données dans la Google Cloud consoleou les récupérer à partir de l'API Data Lineage sous forme de données JSON.
Exemple de traçabilité des données Hive avec BigQuery
L'exemple décrit dans cette section comprend les étapes suivantes :
- Créez un cluster Dataproc sur lequel la traçabilité des données Hive est activée et le connecteur Hive-BigQuery est installé sur le cluster.
- Exécutez une requête Hive sur le cluster pour copier des données entre les tables Hive.
- Affichez le graphique de traçabilité des données généré dans BigQuery Studio.
Créer un cluster Dataproc
Exécutez la commande suivante dans une fenêtre de terminal locale ou dans Cloud Shell pour créer un cluster Dataproc.
gcloud dataproc clusters create CLUSTER_NAME \ --project PROJECT_ID \ --region REGION \ --image-version IMAGE_VERSION \ --initialization-actions gs://goog-dataproc-initialization-actions-REGION/connectors/connectors.sh, gs://goog-dataproc-initialization-actions-REGION/hive-lineage/hive-lineage.sh \ --metadata hive-bigquery-connector-version=HIVE_BQ_VERSION
Remarques :
- CLUSTER_NAME : nom du cluster.
- PROJECT_ID : ID de votre Google Cloud projet. Les ID de projet sont répertoriés dans la section Informations sur le projet du tableau de bord de la Google Cloud console Dashboard.
- REGION : région Compute Engine dans laquelle localiser le cluster.
- IMAGE_VERSION : version d'image prévue pour le cluster.
--initialization-actions: ces actions d'installation, situées dans Cloud Storage, installent le connecteur Hive-BigQuery et activent la traçabilité des données Hive.- HIVE_BQ_VERSION : spécifie la
version du connecteur Hive-BigQuery.
L'option
--metadatatransmet la version à l'action d'initialisationconnectors.shpour installer le connecteur Hive-BigQuery sur le cluster.
Exécuter une requête Hive
Exécutez une requête Hive pour effectuer les actions suivantes :
- Créez une table externe
us_statesavec des exemples de données d'entrée à partirgs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout. - Créez une table gérée
us_states_copydans l'ensemble de données BigQuery spécifié. - Copiez toutes les données de
us_statesdansus_states_copy.
Pour exécuter la requête :
- Dans une fenêtre de terminal locale ou dans Cloud Shell,
utilisez un éditeur de texte tel que
viounano, pour copier l'instruction de requête Hive suivante dans un fichierhive-example.sql, puis enregistrez le fichier dans le répertoire actuel. - Envoyez le fichier
hive-example.sqlau cluster Dataproc créé précédemment en remplaçant l'option--execute HIVE_QUERYpar une option--file SQL_FILEpour spécifier l'emplacement du fichierhive-example.sqlenregistré. Notez que les PROJECT et BQ_DATASET variables doivent être renseignées.
Hive BigQueryStorageHandler
CREATE EXTERNAL TABLE us_states ( name STRING, post_abbr STRING ) STORED AS PARQUET LOCATION 'gs://cloud-samples-data/bigquery/hive-partitioning-samples/autolayout'; CREATE TABLE us_states_copy ( name STRING, post_abbr STRING ) STORED BY 'com.google.cloud.hive.bigquery.connector.BigQueryStorageHandler' TBLPROPERTIES ( 'bq.table'='PROJECT.BQ_DATASET.us_states_copy' ); INSERT INTO us_states_copy SELECT * FROM us_states;
Afficher le graphique de traçabilité des données
Une fois la tâche Hive terminée, affichez la traçabilité des données dans BigQuery Studio dans la Google Cloud console :
Pour en savoir plus sur l'affichage de graphiques dans BigQuery Studio, consultez la section Afficher la traçabilité dans BigQuery. Pour en savoir plus sur la compréhension des graphiques, consultez la section Modèle d'informations sur la traçabilité des données.
Étape suivante
- Découvrez-en plus sur la traçabilité des données.