Générer des insights sur un ensemble de données

Ce document explique comment générer des insights sur les ensembles de données BigQuery. Les insights sur les ensembles de données vous aident à comprendre les relations entre les tables d'un ensemble de données en générant des graphiques de relations et des requêtes inter-tables.

Les insights sur les ensembles de données vous aident à explorer plus rapidement les ensembles de données comportant plusieurs tables. Pour ce faire, ils découvrent et visualisent automatiquement les relations entre les tables dans un graphique, identifient les relations de clé primaire et de clé étrangère, et génèrent des exemples de requêtes inter-tables. Cela permet de comprendre la structure des données sans documentation, de découvrir les relations entre les tables définies par le schéma, basées sur l'utilisation ou déduites par l'IA, et de générer des requêtes complexes qui joignent plusieurs tables.

Pour obtenir une vue d'ensemble des insights sur les tables et les ensembles de données, consultez Présentation des insights sur les données.

Avant de commencer

Les insights sur les données sont générés à l'aide de Gemini dans BigQuery. Pour commencer à générer des insights, vous devez d'abord configurer Gemini dans BigQuery.

Activer les API

Pour utiliser les insights sur les données, activez les API suivantes dans votre projet : API Dataplex, API BigQuery et API Gemini pour Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Pour en savoir plus sur l'activation de l'API Gemini pour Google Cloud, consultez Activer l'API Gemini pour Google Cloud dans un projet Google Cloud .

Effectuer une analyse de profil de données

Pour améliorer la qualité des insights, générez des résultats de profilage des données pour les tables de votre ensemble de données.

Rôles requis

Pour obtenir les autorisations nécessaires pour générer, gérer et récupérer des insights sur les ensembles de données, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour générer, gérer et récupérer des insights :
- Éditeur Dataplex DataScan (roles/dataplex.dataScanEditor) ou Administrateur Dataplex DataScan (roles/dataplex.dataScanAdmin) sur le projet
- Éditeur de données BigQuery (roles/bigquery.dataEditor) sur les tables
- Utilisateur BigQuery (roles/bigquery.user) ou utilisateur BigQuery Studio (roles/bigquery.studioUser) sur le projet.
Pour afficher les insights :
- Lecteur de données Dataplex DataScan (roles/dataplex.dataScanDataViewer) sur le projet
- Lecteur de données BigQuery (roles/bigquery.dataViewer) sur l'ensemble de données

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour connaître les autorisations exactes requises pour générer des insights, développez la section Autorisations requises :

Autorisations requises

bigquery.datasets.get : lire les métadonnées de l'ensemble de données
bigquery.jobs.create : créer des jobs
bigquery.tables.get : obtenir les métadonnées de la table
bigquery.tables.getData : obtenir des données et des métadonnées de table
dataplex.datascans.create : créer une ressource DataScan
dataplex.datascans.get : lire les métadonnées de la ressource DataScan
dataplex.datascans.getData : lire les résultats d'exécution DataScan
dataplex.datascans.run : exécutez DataScan à la demande.

Générer des insights sur un ensemble de données

Dans la console Google Cloud , accédez à BigQuery Studio.

Accéder à BigQuery Studio
Dans le panneau Explorateur, sélectionnez le projet, puis l'ensemble de données pour lesquels vous souhaitez générer des insights.
Cliquez sur l'onglet Insights.
Cliquez sur Générer.

Si votre ensemble de données se trouve dans une région multiple, vous serez peut-être invité à sélectionner une région pour générer des insights. Sélectionnez une région correspondant à l'emplacement multirégional dans lequel l'analyse d'insights sera effectuée.

L'insertion des insights prend quelques minutes. La qualité des insights s'améliore si les tables de l'ensemble de données contiennent des résultats de profilage des données.

Une fois les insights générés, BigQuery affiche une description de l'ensemble de données, un graphique des relations, un tableau des relations et des exemples de requêtes inter-tables.

Afficher et enregistrer la description de l'ensemble de données

Gemini génère une description en langage naturel de l'ensemble de données, en résumant les types de tables qu'il contient et le domaine d'activité qu'il représente. Pour enregistrer cette description dans les métadonnées de l'ensemble de données, cliquez sur Enregistrer dans les détails.

Vous pouvez modifier la description avant d'enregistrer les informations.

Explorer le graphique des relations

Le graphique Relations fournit une représentation visuelle de la façon dont les tables de l'ensemble de données sont liées les unes aux autres. Il affiche les 10 tables les plus connectées sous forme de nœuds, avec des lignes représentant les relations entre elles.

Pour afficher les détails d'une relation, comme les colonnes qui joignent deux tables, pointez sur le bord qui relie les nœuds des tables.
Pour réorganiser le graphique et améliorer la visibilité, faites glisser les nœuds du tableau.

Utiliser le tableau des relations

Le tableau des relations liste les relations découvertes sous forme de tableau. Chaque ligne représente une relation entre deux tables, en indiquant la table et la colonne sources, ainsi que la table et la colonne de destination. La colonne Source indique comment la relation a été déterminée :

LLM inféré. Relations déduites par Gemini, en fonction des noms et des descriptions des tables et des colonnes dans l'ensemble de données.
En fonction de l'utilisation : Relations extraites des journaux de requête, basées sur les jointures fréquentes.
Défini par le schéma Relations dérivées des mappages de clés primaires et étrangères existants dans le schéma de table.

Vous pouvez filtrer les relations pour un tableau spécifique ou envoyer des commentaires sur la qualité des relations détectées. Pour exporter la description et les relations de l'ensemble de données généré vers un fichier JSON, cliquez sur Exporter au format JSON.

Utiliser les recommandations de requêtes

En fonction des relations découvertes, Gemini génère des exemples de requêtes. Il s'agit de questions en langage naturel avec des requêtes SQL correspondantes qui joignent plusieurs tables dans l'ensemble de données.

Pour afficher une requête SQL, cliquez sur une question.
Pour ouvrir la requête dans l'éditeur de requête BigQuery, cliquez sur Copier vers la requête. Vous pouvez ensuite exécuter la requête ou la modifier.
Pour poser une question complémentaire, cliquez sur Poser une question complémentaire. Un canevas de données sans titre s'ouvre, dans lequel vous pouvez discuter avec Gemini pour explorer vos données.

Étapes suivantes

En savoir plus sur la présentation des insights sur les données
Découvrez comment générer des insights sur les tableaux.
En savoir plus sur le profilage des données Dataplex Universal Catalog