À propos des insights sur les données structurées

Les insights sur les données de Knowledge Catalog (anciennement Dataplex Universal Catalog) génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL à partir des métadonnées de votre table et de votre ensemble de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle approfondie. Pour approfondir vos recherches, vous pouvez poser des questions complémentaires dans Data Canvas.

Lorsqu'ils explorent une nouvelle table inconnue, les analystes de données sont souvent confrontés au problème de démarrage à froid : comment commencer à écrire des requêtes ? Le problème peut impliquer des incertitudes concernant la structure des données et les approches clés dans les données. La fonctionnalité d'insights sur les données de Knowledge Catalog offre un moyen automatisé d'explorer et de comprendre vos données. Elle vous aide à découvrir des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.

Comment fonctionnent les insights sur les données ?

Les insights sur les données utilisent Gemini pour analyser vos métadonnées et générer les éléments suivants :

  • Descriptions : résumés générés par l'IA expliquant l'objectif de l'ensemble de données, la structure de la table et les détails de colonnes spécifiques.

  • Exemples de requêtes : requêtes SQL personnalisées conçues spécifiquement pour le schéma et le contenu de votre ensemble de données ou de votre table.

  • Graphiques de relations : visualisations qui montrent les connexions et les dépendances entre différentes tables de votre ensemble de données.

Ressources compatibles

Les insights sur les données sont disponibles pour les types de données structurées suivants :

  • Ensembles de données, tables et vues BigQuery
  • Tables Google Cloud Lakehouse (y compris Apache Iceberg)
  • Tables externes
  • Tables de catalogue REST Iceberg

Exemple d'exécution d'insights

Les insights sur les données génèrent automatiquement des requêtes en langage naturel et leurs équivalents SQL en fonction des métadonnées d'une table.

Prenons l'exemple d'une table appelée telco_churn contenant les métadonnées suivantes :

Nom du champ Type
CustomerID STRING
Sexe STRING
Ancienneté INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrat STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Voici quelques exemples de requêtes générées par les insights sur les données pour cette table :

  • Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifiez le service Internet qui compte le plus de clients perdus.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifiez les taux de perte d'utilisateurs par segment parmi les clients à fort potentiel.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modes de génération d'insights sur les données

Lors de la génération d'insights sur les données, Knowledge Catalog propose deux modes :

Mode Description Utilisation
Générer et publier

Conserve les insights sur les données générés dans Knowledge Catalog en tant qu'aspects de métadonnées. Vous devez disposer des autorisations nécessaires pour publier. Lorsque vous utilisez Générer et publier, les actions suivantes se produisent :

  • Stocke les descriptions de tables et de colonnes dans Knowledge Catalog.
  • Capture les requêtes et les questions suggérées en tant qu'aspects réutilisables aspects.
  • Rend les insights publiés accessibles à tous les utilisateurs disposant d'un accès approprié à Knowledge Catalog, ce qui garantit le partage des connaissances organisationnelles.
  • Vous permet de modifier et d'enregistrer des descriptions directement dans Knowledge Catalog.

Utilisez ce mode pour la documentation des données à l'échelle de l'entreprise qui est persistante et réutilisable, ou lorsque vous créez des workflows de gouvernance basés sur le catalogue

Générer sans publier

Crée des insights sur les données tels que des descriptions, des questions en langage naturel, et des requêtes SQL à la demande. Générer sans publier ne publie pas d'insights dans Knowledge Catalog.

Utilisez ce mode pour une exploration rapide et ad hoc afin d'éviter d'encombrer le catalogue.

Tarifs

Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.

Quotas et limites

Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.

Emplacements

Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez la section Où Gemini dans BigQuery traite vos données.

Limites

  • Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.
  • Les insights sur les données ne sont pas compatibles avec les types de colonnes Geo ni JSON.
  • Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, régénérez les insights dans BigQuery Studio.

Étape suivante