À propos des insights sur les données structurées

Les insights sur les données du Knowledge Catalog (anciennement Dataplex Universal Catalog) génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de vos tables et ensembles de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle approfondie. Pour approfondir l'analyse, vous pouvez poser des questions complémentaires dans le canevas de données.

Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid, qui consiste à ne pas savoir comment commencer à écrire des requêtes. Le problème peut impliquer des incertitudes concernant la structure des données et les approches clés dans les données. La fonctionnalité d'insights sur les données de Knowledge Catalog offre un moyen automatisé d'explorer et de comprendre vos données. Cela vous aide à découvrir des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.

Comment fonctionnent les insights sur les données ?

Les insights sur les données utilisent Gemini pour analyser vos métadonnées et générer les éléments suivants :

  • Descriptions : résumés générés par IA expliquant l'objectif de l'ensemble de données, la structure du tableau et les détails de colonnes spécifiques.

  • Exemples de requêtes : requêtes SQL personnalisées conçues spécifiquement pour le schéma et le contenu de votre ensemble de données ou de votre tableau.

  • Graphiques relationnels : visualisations qui montrent les liens et les dépendances entre les différentes tables de votre ensemble de données.

Ressources compatibles

Les insights sur les données sont disponibles pour les types de données structurées suivants :

  • Ensembles de données, tables et vues BigQuery
  • Tables BigLake (y compris Apache Iceberg)
  • Tables externes
  • Tables du catalogue REST Iceberg

Exemple d'exécution d'insights

Les insights sur les données génèrent automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table.

Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :

Nom du champ Type
CustomerID STRING
Sexe STRING
Ancienneté INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrat STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :

  • Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifiez le service Internet qui compte le plus de clients perdus.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modes de génération d'insights sur les données

Lorsque vous générez des insights sur les données, Knowledge Catalog propose deux modes :

Mode Description Utilisation
Générer et publier

Conserve les insights sur les données générés dans Knowledge Catalog en tant qu'aspects de métadonnées. Vous devez disposer des autorisations nécessaires pour publier. Lorsque vous utilisez Générer et publier, les actions suivantes se produisent :

  • Stocke les descriptions de tables et de colonnes dans le catalogue de connaissances.
  • Capture les requêtes et questions suggérées en tant qu'aspects réutilisables.
  • Rend les insights publiés accessibles à tous les utilisateurs disposant d'un accès approprié au catalogue de connaissances, ce qui garantit le partage des connaissances organisationnelles.
  • Vous permet de modifier et d'enregistrer des descriptions directement dans le catalogue de connaissances.

Utilisez ce mode pour la documentation des données à l'échelle de l'entreprise qui est persistante et réutilisable, ou lorsque vous créez des workflows de gouvernance basés sur le catalogue.

Générer sans publier

Crée des insights sur les données à la demande, comme des descriptions, des questions en langage naturel et des requêtes SQL. L'option Générer sans publier ne publie pas les insights dans le catalogue de connaissances.

Utilisez ce mode pour une exploration ad hoc rapide afin d'éviter d'encombrer le catalogue.

Tarifs

Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.

Quotas et limites

Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.

Emplacements

Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez Où Gemini dans BigQuery traite vos données.

Limites

  • Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
  • Les insights sur les données ne sont pas compatibles avec les types de colonnes Geo et JSON.
  • Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, régénérez les insights dans BigQuery Studio.

Étapes suivantes