Présentation des insights sur les données
Ce document présente les insights sur les données, une fonctionnalité de Gemini dans BigQuery qui permet d'accélérer l'exploration et l'analyse initiales lorsque vous êtes confronté à des données nouvelles ou inconnues. Les insights sur les données génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL, ainsi que des suggestions de questions en langage naturel, à partir des métadonnées de votre table et de votre ensemble de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle approfondie.
Avant de commencer
Les insights sur les données sont générés à l'aide de Gemini dans BigQuery. Pour commencer à générer des insights, vous devez d'abord configurer Gemini dans BigQuery.
Types d'insights sur les données
Vous pouvez générer des insights sur les données au niveau de la table ou de l'ensemble de données :
Pour les tables : Gemini génère des questions en langage naturel et leurs équivalents SQL pour vous aider à comprendre les données d'une seule table. Grâce aux insights sur les tables, vous pouvez détecter des schémas de données, des anomalies, des valeurs aberrantes ou des problèmes de qualité dans une table. Gemini génère également des descriptions de tables et de colonnes.
Pour les ensembles de données (preview) Gemini génère un graphique de relations interactif montrant les relations entre les tables et les requêtes SQL entre les tables pour vous aider à comprendre comment les tables sont liées dans un ensemble de données. Grâce aux graphiques de relations, vous pouvez découvrir comment les données sont dérivées, ce qui peut vous aider à résoudre les problèmes de qualité, de cohérence ou de redondance. Grâce aux requêtes entre les tables, vous pouvez trouver des relations plus larges. Par exemple, vous pouvez calculer les revenus par segment de clientèle en exploitant les données d'une table de ventes et d'une table de clients.
Pour en savoir plus, vous pouvez poser des questions complémentaires dans le canevas de données.
Insights sur les tables
Les insights sur les tables vous aident à comprendre le contenu, la qualité et les schémas d'une seule table BigQuery. Par exemple, en générant des requêtes qui effectuent une analyse statistique, vous pouvez utiliser les insights sur les tables pour détecter des schémas de données, des anomalies et des valeurs aberrantes. Les insights sur les tables peuvent également vous aider à détecter les problèmes de qualité, en particulier lorsque des analyses de profilage des données sont disponibles pour une table. Lorsque vous générez des insights pour une table, Gemini fournit une description de la table, des descriptions de colonnes et une sortie d'analyse de profil en fonction des métadonnées de la table. Les options suivantes sont disponibles :
- Générer des requêtes : suggère des questions en langage naturel et fournit les requêtes SQL correspondantes pour y répondre. Cela vous aide à découvrir des schémas, à évaluer la qualité des données et à effectuer des analyses statistiques sans avoir à écrire de code SQL à partir de zéro.
- Générer des descriptions : génère des descriptions pour la table et ses colonnes. Gemini utilise la sortie d'analyse de profil (si disponible) pour ancrer les descriptions générées. Vous pouvez examiner, modifier et publier ces descriptions dans Knowledge Catalog pour améliorer la détectabilité et la documentation des données.
Insights sur les ensembles de données
Les insights sur les ensembles de données vous aident à comprendre les relations et les chemins de jointure entre plusieurs tables d'un ensemble de données BigQuery, ce qui vous offre une vue globale du contenu de l'ensemble de données. Lorsque vous générez des insights pour un ensemble de données, Gemini fournit les éléments suivants :
- Description de l'ensemble de données : fournit un résumé de l'ensemble de données généré par l'IA.
- Relations : affiche une carte visuelle et interactive montrant les relations entre les tables de l'ensemble de données. Vous pouvez pointer sur les connexions pour afficher les détails des relations, tels que les clés de jointure.
- Table de relations : présente une vue tabulaire des relations entre les tables, y compris les clés étrangères et les jointures inférées. Les relations peuvent être définies par le schéma (à partir des contraintes de clé primaire et de clé étrangère), basées sur l'utilisation (à partir des journaux de requêtes) ou inférées par Gemini en fonction des noms et des descriptions des tables et des colonnes.
- Recommandations de requêtes : propose des exemples de requêtes SQL qui montrent comment joindre des données entre différentes tables, en fonction des relations identifiées.
Exemple d'insights sur les données de table
Prenons l'exemple d'une table appelée telco_churn avec des colonnes telles que CustomerID, Tenure, InternetService, Contract, MonthlyCharges et Churn.
Le tableau suivant décrit les métadonnées de la table.
| Nom du champ | Type |
|---|---|
CustomerID |
STRING |
Gender |
STRING |
Tenure |
INT64 |
InternetService |
STRING |
StreamingTV |
STRING |
OnlineBackup |
STRING |
Contract |
STRING |
TechSupport |
STRING |
PaymentMethod |
STRING |
MonthlyCharges |
FLOAT64 |
Churn |
BOOL |
Les insights sur les données génèrent les exemples de requêtes suivants pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY customers DESC LIMIT 1;
Exemple d'insights sur les données d'ensemble de données
Prenons l'exemple d'un ensemble de données contenant les tables order_items et inventory_items. Les insights sur les ensembles de données peuvent déduire que order_items.inventory_item_id est lié à inventory_items.id.
En fonction de ces relations, Gemini peut générer la requête entre les tables suivante :
Identifiez les cinq principales catégories de produits avec le prix de vente moyen le plus élevé et leur coût moyen correspondant.
SELECT
ii.product_category,
AVG(oi.sale_price) AS avg_sale_price,
AVG(ii.cost) AS avg_cost
FROM
`ecommerce_data.order_items` AS oi
JOIN
`ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
ii.product_category
ORDER BY
avg_sale_price DESC
LIMIT 5;
Workflows d'insights sur les données
Cette section décrit les principaux workflows que différents rôles d'utilisateur peuvent effectuer à l'aide de la fonctionnalité d'insights sur les données dans BigQuery.
Workflows pour les consommateurs de données
Ces workflows se concentrent sur les tâches des analystes de données, des analystes métier et d'autres utilisateurs qui ont besoin de trouver, de comprendre et d'analyser des données.
Comprendre une table BigQuery : comprenez rapidement le schéma, le contenu et les utilisations potentielles d'une table spécifique. Vous pouvez effectuer les tâches suivantes après avoir sélectionné une table dans BigQuery Studio :
Examiner les descriptions de tables et de colonnes générées automatiquement.
Examiner les suggestions de questions en langage naturel et les requêtes SQL équivalentes pour comprendre les nuances des données.
Adapter et exécuter les requêtes suggérées pour commencer l'analyse.
Pour en savoir plus sur la génération et l'affichage des insights sur les tables, consultez Générer des insights sur les tables.
Explorer un ensemble de données complet : découvrez les relations entre les tables d'un ensemble de données et comprenez sa structure globale. Vous pouvez effectuer les tâches suivantes après avoir sélectionné un ensemble de données dans BigQuery Studio :
Générer et afficher des insights sur les ensembles de données.
Utiliser le graphique de relations interactif pour visualiser les connexions entre les tables.
Analyser la table de relations pour les clés de jointure et les types de connexion (définis par le schéma, basés sur l'utilisation, inférés par le LLM).
Utiliser les suggestions de requêtes SQL entre les tables pour interroger efficacement plusieurs tables.
Pour en savoir plus sur la génération et l'affichage des insights sur les ensembles de données, consultez Générer des insights sur les ensembles de données.
Workflows pour les producteurs de données
Ces workflows sont destinés aux ingénieurs de données, aux ingénieurs d'analyse et à d'autres personnes qui créent et gèrent des éléments de données.
Générer une documentation de base sur les données : créez et gérez automatiquement des descriptions de métadonnées essentielles. Vous pouvez effectuer les tâches suivantes :
Après la création ou la modification d'une table, déclenchez des insights sur les données pour générer des descriptions de tables et de colonnes. Vous pouvez également générer ces descriptions à grande échelle à l'aide de l'API de génération automatique de métadonnées de Knowledge Catalog.
Examiner et affiner le texte généré par l'IA pour garantir l'exactitude technique et la pertinence commerciale.
Pour en savoir plus sur la génération de descriptions de tables et de colonnes, consultez Générer des insights sur les tables.
Améliorer la compréhension des ensembles de données pour les utilisateurs : facilitez la compréhension et l’utilisation des ensembles de données fournis par les consommateurs. Vous pouvez effectuer les tâches suivantes :
Générer des insights sur les ensembles de données clés, en particulier ceux qui présentent des relations complexes.
S'assurer que les analyses de profilage des données s'exécutent sur les tables pour fournir un contexte riche pour des insights plus précis et utiles.
Pour en savoir plus, consultez Générer des insights sur les ensembles de données et Ancrer les insights sur les résultats du profilage des données.
Workflows pour les responsables des données
Ces workflows aident les responsables des données et les équipes de gouvernance à maintenir l'intégrité et la fiabilité des données.
Valider et auditer les métadonnées générées par l'IA : assurez-vous de l'exactitude et de la fiabilité des métadonnées produites par les insights sur les données. Vous pouvez effectuer les tâches suivantes :
Examiner régulièrement les descriptions et les relations générées par la fonctionnalité d'insights.
Croiser les relations inférées dans le graphique de relations avec les modèles de données et la logique métier établis.
Examiner et corriger les inexactitudes dans les métadonnées générées par l'IA.
Pour en savoir plus, consultez Générer des insights sur les tables et Générer des insights sur les ensembles de données.
Tarifs
Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.
Quotas et limites
Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.
Limites
Les insights sur les données sont soumis aux limites suivantes :
Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues.
Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
Les insights sur les données ne sont pas compatibles avec les types de colonnes
GEOniJSON.Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, relancez le pipeline d'insights.
Pour les tables avec un contrôle des accès au niveau des colonnes et des autorisations utilisateur limitées, vous pouvez générer des insights si vous disposez d'un accès en lecture à toutes les colonnes de la table. Pour exécuter les requêtes générées, vous devez disposer des autorisations suffisantes permissions.
Gemini génère des descriptions de colonnes pour un maximum de 350 colonnes dans une table.
Pour les insights sur les ensembles de données, vous ne pouvez pas modifier les relations dans le graphique de relations.
La génération de nouveaux insights sur les ensembles de données remplace les insights précédents pour cet ensemble de données.
Les insights sur les ensembles de données ne sont pas compatibles avec les ensembles de données associés.
Emplacements
Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez Où Gemini dans BigQuery traite vos données.
Étape suivante
Découvrez comment générer des insights sur les tables.
Découvrez comment générer des insights sur les ensembles de données.
En savoir plus sur le profilage des données dans Knowledge Catalog.
Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.
En savoir plus sur Gemini dans BigQuery.
Découvrez comment itérer sur les résultats de requêtes avec des questions en langage naturel à l'aide du canevas de données.