Ce document explique comment générer, afficher et gérer les insights sur les données structurées. Les insights sur les données basés sur l'IA vous aident à accélérer l'exploration des données en générant automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de vos tables et ensembles de données.
Dans BigQuery Studio, vous pouvez générer des insights sur les données pour les ensembles de données, les tables, les vues, les tables BigLake et les tables externes BigQuery.
Dans Knowledge Catalog, vous pouvez générer des insights sur les données pour les tables BigLake et Iceberg REST Catalog.
Avant de commencer
Avant d'utiliser les insights sur les données, assurez-vous d'avoir rempli les conditions préalables suivantes :
Rôles requis
Pour obtenir les autorisations nécessaires pour utiliser les insights de données, demandez à votre administrateur de vous accorder les rôles IAM suivants :
-
Obtenez un accès en lecture seule aux insights générés :
Lecteur de données Dataplex DataScan (
roles/dataplex.dataScanDataViewer) sur le projet contenant la ressource -
Lire les données de table du catalogue REST Iceberg :
Lecteur BigLake (
roles/biglake.viewer) sur la ressource -
Publier des descriptions en tant qu'aspects :
Éditeur de catalogue Dataplex (
roles/dataplex.catalogEditor) sur la ressource -
Publier des requêtes en tant qu'aspects :
Propriétaire des entrées et des liens d'entrée Dataplex (
roles/dataplex.entryOwner) sur la ressource
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ces rôles prédéfinis contiennent les autorisations requises pour utiliser les insights sur les données. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :
Autorisations requises
Vous devez disposer des autorisations suivantes pour utiliser les insights de données :
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.
Activer les API
Pour utiliser les insights sur les données, activez les API suivantes dans votre projet :
- API Dataplex
- API BigQuery
- API Gemini pour Google Cloud.
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.
Pour en savoir plus sur l'activation de l'API Gemini for Google Cloud, consultez Activer l'API Gemini for Google Cloud dans un projet Google Cloud .
Préparer les données
Pour les tables BigLake, assurez-vous que vos données se trouvent dans Cloud Storage et qu'une table BigLake a été créée.
Pour les tables du catalogue REST Iceberg, assurez-vous qu'elles sont enregistrées dans le BigLake Metastore.
Générer des insights dans BigQuery
Les insights sur les données pour les ensembles de données, les tables, les vues, les tables BigLake et les tables externes BigQuery sont générés à l'aide de Gemini dans BigQuery et ne peuvent l'être que dans BigQuery Studio.
Vous devez d'abord configurer Gemini dans BigQuery, puis générer des insights. Une fois les insights générés, vous pouvez les afficher et les modifier dans le catalogue de connaissances.
Pour en savoir plus sur la génération d'insights dans BigQuery, consultez les documents suivants :
- Présentation des insights sur les données
- Générer des insights sur les tableaux
- Générer des insights sur les ensembles de données
Générer des insights pour les tables du catalogue REST Iceberg
Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.
Dans Filtres, sélectionnez BigLake.
Sélectionnez la table du catalogue REST Iceberg pour laquelle vous souhaitez générer des insights.
Cliquez sur l'onglet Insights. Si l'onglet est vide, cela signifie que les insights de cette table ne sont pas encore générés.
Pour générer des insights et les associer de manière permanente à la table en tant qu'aspects, cliquez sur Générer et publier. Les insights sont ainsi indexables, consultables et visibles par les autres utilisateurs de votre organisation dans le catalogue de connaissances.
Pour générer des insights et les afficher temporairement pendant votre session actuelle, cliquez sur Générer sans publier. Utilisez cette option si vous avez uniquement besoin d'une analyse rapide des données sans enregistrer les métadonnées dans le catalogue de connaissances.
Pour en savoir plus sur les différences entre les modes Générer et publier et Générer sans publier, consultez Modes de génération d'insights sur les données.
Sélectionnez une région pour générer des insights, puis cliquez sur Générer.
L'insertion des insights prend quelques minutes.
Cliquez sur l'onglet Insights et examinez les éléments suivants :
- Descriptions : il s'agit de résumés générés par IA qui expliquent l'objectif de la table et détaillent des colonnes spécifiques.
- Exemples de requêtes : il s'agit de la liste des requêtes SQL personnalisées conçues spécifiquement pour le schéma et le contenu de votre ensemble de données.
Pour afficher la requête SQL qui répond à une question, cliquez sur la question.
Examiner les insights générés pour une ressource
Pour afficher les insights générés pour une ressource, procédez comme suit :
Dans la console Google Cloud , accédez à la page Rechercher de Knowledge Catalog.
Recherchez la ressource pour laquelle vous souhaitez afficher des insights.
Dans les résultats de recherche, cliquez sur la ressource pour ouvrir la page d'informations correspondante.
Examinez les descriptions et les requêtes générées pour la ressource sélectionnée.
Pour afficher les graphiques de relations et comprendre comment les points de données sont connectés, cliquez sur l'onglet Relations (aperçu). Vous ne pouvez afficher les relations qu'au niveau de la table, et non au niveau de l'ensemble de données.
Gérer les insights sur les tables
Une fois que vous avez généré et publié des insights sur les tableaux, vous pouvez les examiner et les gérer en tant qu'aspects de métadonnées dans le catalogue de connaissances. Les insights au niveau des tables incluent des descriptions de tables et de colonnes, ainsi que des exemples de requêtes.
Mettre à jour les descriptions générées pour une table
Vous ne pouvez mettre à jour les descriptions de tables et de colonnes qu'à l'aide de l'API Dataplex. Pour ce faire, utilisez la méthode entries.patch.
Mettre à jour les requêtes générées pour une table
Vous pouvez mettre à jour les requêtes générées pour une table à l'aide de la console Google Cloud et de l'API Dataplex.
Console
Recherchez la table pour laquelle vous souhaitez mettre à jour les requêtes générées.
Dans les résultats de recherche, cliquez sur le tableau pour ouvrir la page d'informations correspondante.
Dans la section Requêtes, cliquez sur Modifier.
Modifiez la description de la requête si nécessaire.
Gérer la propriété : par défaut, la source est définie sur Agent. Si vous modifiez une requête et que vous remplacez la source par Utilisateur, les générations d'insights suivantes n'écraseront pas vos modifications. Si la source reste Agent, la requête peut être remplacée lors d'une régénération.
Gérer les remplacements : pour empêcher le remplacement de toutes les requêtes lors d'une nouvelle exécution, vous pouvez définir l'option Géré par l'utilisateur sur True. Cela s'applique à l'ensemble des requêtes pour cet aspect des métadonnées, ce qui garantit qu'aucune modification manuelle n'est perdue.
REST
Pour mettre à jour les requêtes d'une table, utilisez la méthode entries.patch.
Mettre à jour les relations générées pour une table
Vous ne pouvez mettre à jour les relations qu'à l'aide de l'API Dataplex. Pour ce faire, utilisez la méthode entries.patch.
Gérer les insights sur les ensembles de données
Les insights au niveau de l'ensemble de données se concentrent sur les descriptions générales et les requêtes à l'échelle de l'ensemble de données.
Mettre à jour les descriptions générées pour un ensemble de données
Vous ne pouvez mettre à jour les descriptions des ensembles de données qu'à l'aide de l'API Dataplex. Pour ce faire, utilisez la méthode entries.patch.
Mettre à jour les requêtes générées pour un ensemble de données
Vous pouvez mettre à jour les requêtes générées pour un ensemble de données à l'aide de la console Google Cloud et de l'API Dataplex.
Console
Recherchez l'ensemble de données pour lequel vous souhaitez mettre à jour les requêtes générées.
Dans les résultats de recherche, cliquez sur l'ensemble de données pour ouvrir la page d'informations correspondante.
Dans la section Requêtes, cliquez sur Modifier.
Modifiez la description si nécessaire.
Gérer la propriété : par défaut, la source est définie sur Agent. Si vous modifiez une requête et que vous remplacez la source par Utilisateur, les générations d'insights suivantes n'écraseront pas vos modifications. Si la source reste Agent, la requête peut être remplacée lors d'une régénération.
Gérer les remplacements : pour empêcher le remplacement de toutes les requêtes lors d'une nouvelle exécution, vous pouvez définir l'option Géré par l'utilisateur sur True. Cela s'applique à l'ensemble des requêtes pour cet aspect des métadonnées, ce qui garantit qu'aucune modification manuelle n'est perdue.
REST
Pour mettre à jour les requêtes d'un ensemble de données, utilisez la méthode entries.patch.
Étapes suivantes
En savoir plus sur les insights sur les données structurées
Découvrez comment générer des insights pour les données non structurées.