Les insights sur les données du Knowledge Catalog (anciennement Dataplex Universal Catalog) génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de vos tables et ensembles de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle approfondie. Pour approfondir l'analyse, vous pouvez poser des questions complémentaires dans le canevas de données.
Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid, qui consiste à ne pas savoir comment commencer à écrire des requêtes. Le problème peut impliquer des incertitudes concernant la structure des données et les approches clés dans les données. La fonctionnalité d'insights sur les données de Knowledge Catalog offre un moyen automatisé d'explorer et de comprendre vos données. Cela vous aide à découvrir des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.
Comment fonctionnent les insights sur les données ?
Les insights sur les données utilisent Gemini pour analyser vos métadonnées et générer les éléments suivants :
Descriptions : résumés générés par IA expliquant l'objectif de l'ensemble de données, la structure du tableau et les détails de colonnes spécifiques.
Exemples de requêtes : requêtes SQL personnalisées conçues spécifiquement pour le schéma et le contenu de votre ensemble de données ou de votre tableau.
Graphiques relationnels : visualisations qui montrent les liens et les dépendances entre les différentes tables de votre ensemble de données.
Ressources compatibles
Les insights sur les données sont disponibles pour les types de données structurées suivants :
- Ensembles de données, tables et vues BigQuery
- Tables BigLake (y compris Apache Iceberg)
- Tables externes
- Tables du catalogue REST Iceberg
Exemple d'exécution d'insights
Les insights sur les données génèrent automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table.
Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :
| Nom du champ | Type |
|---|---|
| CustomerID | STRING |
| Sexe | STRING |
| Ancienneté | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contrat | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :
Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifiez le service Internet qui compte le plus de clients perdus.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modes de génération d'insights sur les données
Lorsque vous générez des insights sur les données, Knowledge Catalog propose deux modes :
| Mode | Description | Utilisation |
|---|---|---|
| Générer et publier |
Conserve les insights sur les données générés dans Knowledge Catalog en tant qu'aspects de métadonnées. Vous devez disposer des autorisations nécessaires pour publier. Lorsque vous utilisez Générer et publier, les actions suivantes se produisent :
|
Utilisez ce mode pour la documentation des données à l'échelle de l'entreprise qui est persistante et réutilisable, ou lorsque vous créez des workflows de gouvernance basés sur le catalogue. |
| Générer sans publier |
Crée des insights sur les données à la demande, comme des descriptions, des questions en langage naturel et des requêtes SQL. L'option Générer sans publier ne publie pas les insights dans le catalogue de connaissances. |
Utilisez ce mode pour une exploration ad hoc rapide afin d'éviter d'encombrer le catalogue. |
Tarifs
Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.
Quotas et limites
Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.
Emplacements
Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez Où Gemini dans BigQuery traite vos données.
Limites
- Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
- Les insights sur les données ne sont pas compatibles avec les types de colonnes
GeoetJSON. - Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, régénérez les insights dans BigQuery Studio.
Étapes suivantes
- Découvrez comment générer des insights dans BigQuery.
- Découvrez comment générer une analyse de profilage de données.
- Découvrez comment écrire des requêtes avec l'assistance de Gemini dans BigQuery.