Les insights sur les données de Knowledge Catalog (anciennement Dataplex Universal Catalog) génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de votre table et de votre ensemble de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle approfondie. Pour approfondir vos recherches, vous pouvez poser des questions complémentaires dans Data Canvas.
Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid : comment commencer à écrire des requêtes ? Le problème peut impliquer des incertitudes concernant la structure des données et les approches clés dans les données. La fonctionnalité d'insights sur les données de Knowledge Catalog offre un moyen automatisé d'explorer et de comprendre vos données. Elle vous aide à découvrir des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.
Comment fonctionnent les insights sur les données ?
Les insights sur les données utilisent Gemini pour analyser vos métadonnées et générer les éléments suivants :
Descriptions : résumés générés par l'IA expliquant l'objectif de l'ensemble de données, la structure de la table et les détails de colonnes spécifiques.
Exemples de requêtes : requêtes SQL personnalisées conçues spécifiquement pour le schéma et le contenu de votre ensemble de données ou de votre table.
Graphiques de relations : visualisations qui montrent les connexions et les dépendances entre différentes tables de votre ensemble de données.
Ressources compatibles
Les insights sur les données sont disponibles pour les types de données structurées suivants :
- Ensembles de données, tables et vues BigQuery
- Tables Google Cloud Lakehouse (y compris Apache Iceberg)
- Tables externes
- Tables de catalogue REST Iceberg
Exemple d'exécution d'insights
Les insights sur les données génèrent automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table.
Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :
| Nom du champ | Type |
|---|---|
| CustomerID | STRING |
| Sexe | STRING |
| Ancienneté | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contrat | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modes de génération d'insights sur les données
Lors de la génération d'insights sur les données, Knowledge Catalog propose deux modes :
| Mode | Description | Utilisation |
|---|---|---|
| Générer et publier |
Conserve les insights sur les données générés dans Knowledge Catalog en tant qu'aspects de métadonnées. Vous devez disposer des autorisations nécessaires pour publier. Lorsque vous utilisez Générer et publier, les actions suivantes se produisent :
|
Utilisez ce mode pour la documentation des données à l'échelle de l'entreprise qui est persistante et réutilisable, ou lorsque vous créez des workflows de gouvernance basés sur le catalogue |
| Générer sans publier |
Crée des insights sur les données tels que des descriptions, des questions en langage naturel, et des requêtes SQL à la demande. Générer sans publier ne publie pas d'insights dans Knowledge Catalog. |
Utilisez ce mode pour une exploration rapide et ad hoc afin d'éviter d'encombrer le catalogue. |
Tarifs
Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.
Quotas et limites
Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.
Emplacements
Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez la section Où Gemini dans BigQuery traite vos données.
Limites
- Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
- Les insights sur les données ne sont pas compatibles avec les types de colonnes
GeoniJSON. - Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, régénérez les insights dans BigQuery Studio.
Étape suivante
- Découvrez comment générer des insights dans BigQuery.
- Découvrez comment générer une analyse de profilage de données.
- Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.