Générer des insights sur un ensemble de données
Ce document explique comment générer des insights sur un ensemble de données pour les ensembles de données BigQuery. Les insights sur un ensemble de données vous aident à comprendre les relations entre les tables d'un ensemble de données en générant des graphiques de relations et des requêtes inter-tables.
Les insights sur un ensemble de données vous aident à accélérer l'exploration des ensembles de données comportant plusieurs tables en détectant et en visualisant automatiquement les relations entre les tables dans un graphique, en identifiant les relations de clé primaire et de clé étrangère, et en générant des exemples de requêtes inter-tables. Cela est utile pour comprendre la structure des données sans documentation, découvrir les relations définies par le schéma, basées sur l'utilisation ou déduites par l'IA entre les tables, et générer des requêtes complexes qui joignent plusieurs tables.
Pour obtenir une vue d'ensemble des insights sur les tables et les ensembles de données, consultez Présentation des insights sur les données.
Avant de commencer
Les insights sur les données sont générés à l'aide de Gemini dans BigQuery. Pour commencer à générer des insights, vous devez d'abord configurer Gemini dans BigQuery.
Activer les API
Pour utiliser les insights sur les données, activez les API suivantes dans votre projet : API Dataplex, API BigQuery et API Gemini pour Google Cloud.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui
contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer
des rôles.
Pour en savoir plus sur l'activation de l'API Gemini pour Google Cloud, consultez Activer l'API Gemini pour Google Cloud dans un Google Cloud projet.
Effectuer une analyse de profilage des données
Pour améliorer la qualité des insights, générez des résultats de profilage des données pour les tables de votre ensemble de données.
Rôles requis
Pour obtenir les autorisations nécessaires pour générer, gérer et récupérer des insights sur un ensemble de données, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Pour générer, gérer et récupérer des insights :
-
Éditeur Dataplex DataScan (
roles/dataplex.dataScanEditor) ou administrateur Dataplex DataScan (roles/dataplex.dataScanAdmin) sur le projet -
Éditeur de données BigQuery (
roles/bigquery.dataEditor) sur les tables -
Utilisateur BigQuery (
roles/bigquery.user) ou utilisateur BigQuery Studio (roles/bigquery.studioUser) sur le projet.
-
Éditeur Dataplex DataScan (
-
Pour afficher les insights :
-
Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer) sur le projet -
Lecteur de données BigQuery (
roles/bigquery.dataViewer) sur l'ensemble de données
-
Lecteur de données Dataplex DataScan (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Pour connaître les autorisations exactes requises pour générer des insights, développez la section Autorisations requises :
Autorisations requises
bigquery.datasets.get: lire les métadonnées de l'ensemble de donnéesbigquery.jobs.create: créer des jobsbigquery.tables.get: obtenir les métadonnées de la tablebigquery.tables.getData: obtenir les données et les métadonnées de la tabledataplex.datascans.create: créer une ressource DataScandataplex.datascans.get: lire les métadonnées de la ressource DataScandataplex.datascans.getData: lire les résultats d'exécution de DataScandataplex.datascans.run: exécuter DataScan à la demande
Générer des insights sur un ensemble de données
Dans la Google Cloud console, accédez à BigQuery Studio.
Dans le volet Explorateur , sélectionnez le projet, puis l'ensemble de données pour lequel vous souhaitez générer des insights.
Cliquez sur l'onglet Insights.
Cliquez sur Générer.
Si votre ensemble de données se trouve dans un emplacement multirégional, vous serez peut-être invité à sélectionner une région pour générer des insights. Sélectionnez une région correspondant à l'emplacement multirégional dans lequel l'analyse d'insights sera créée.
L'insertion des insights prend quelques minutes. La qualité des insights s'améliore si les tables de l'ensemble de données contiennent des résultats de profilage des données.
Une fois les insights générés, BigQuery affiche une description de l'ensemble de données, un graphique de relations, une table de relations et des exemples de requêtes inter-tables.
Afficher et enregistrer la description de l'ensemble de données
Gemini génère une description en langage naturel de l'ensemble de données, qui récapitule les types de tables qu'il contient et le domaine d'activité qu'il représente. Pour enregistrer cette description dans les métadonnées de l'ensemble de données, cliquez sur Enregistrer dans les détails.
Vous pouvez modifier la description avant d'enregistrer les détails.
Explorer le graphique de relations
Le graphique Relations fournit une représentation visuelle de la manière dont les tables de l'ensemble de données sont liées les unes aux autres. Il affiche les 10 tables les plus connectées sous forme de nœuds, avec des lignes représentant les relations entre elles.
- Pour afficher les détails d'une relation, tels que les colonnes qui joignent deux tables, pointez sur le bord reliant les nœuds de la table.
- Pour réorganiser le graphique afin d'améliorer la visibilité, faites glisser les nœuds de la table.
Utiliser la table de relations
La table de relations répertorie les relations détectées dans un format tabulaire. Chaque ligne représente une relation entre deux tables, en indiquant la table et la colonne sources, ainsi que la table et la colonne de destination. La colonne Source indique comment la relation a été déterminée :
- Déduite par le LLM : relations déduites par Gemini, en fonction des noms et des descriptions des tables et des colonnes de l'ensemble de données.
- Basée sur l'utilisation : relations extraites des journaux de requêtes, en fonction des jointures fréquentes.
- Définie par le schéma : relations dérivées des mappages de clés primaires et étrangères existants dans le schéma de la table.
Vous pouvez filtrer les relations pour une table spécifique ou fournir des commentaires sur la qualité des relations détectées. Pour exporter la description et les relations générées de l'ensemble de données dans un fichier JSON, cliquez sur Exporter au format JSON.
Utiliser les recommandations de requêtes
En fonction des relations détectées, Gemini génère des exemples de requêtes. Il s'agit de questions en langage naturel avec des requêtes SQL correspondantes qui joignent plusieurs tables dans l'ensemble de données.
Pour afficher une requête SQL, cliquez sur une question.
Pour ouvrir la requête dans l'éditeur de requête BigQuery, cliquez sur Copier vers la requête. Vous pouvez ensuite exécuter la requête ou la modifier.
Pour poser une question complémentaire, cliquez sur Poser une question complémentaire, ce qui ouvre un canevas de données sans titre dans lequel vous pouvez discuter avec Gemini pour explorer vos données.
Étape suivante
- En savoir plus sur la présentation des insights sur les données.
- Découvrez comment générer des insights sur les tables.
- En savoir plus sur le profilage des données dans Dataplex Universal Catalog.