Présentation des insights sur les données

Ce document présente les insights sur les données, une fonctionnalité Gemini dans BigQuery qui permet d'accélérer l'exploration et l'analyse initiales lorsque vous êtes confronté à des données nouvelles ou inconnues. Les insights sur les données génèrent automatiquement des descriptions, des graphiques de relations et des requêtes SQL, ainsi que des suggestions de questions en langage naturel, à partir des métadonnées de vos tables et ensembles de données. Ces informations vous aident à comprendre rapidement la structure, le contenu et les relations des données sans configuration manuelle complexe.

Avant de commencer

Les insights sur les données sont générés à l'aide de Gemini dans BigQuery. Pour commencer à générer des insights, vous devez d'abord configurer Gemini dans BigQuery.

Types d'insights sur les données

Vous pouvez générer des insights sur les données au niveau de la table ou de l'ensemble de données :

  • Pour les tables : Gemini génère des questions en langage naturel et leurs équivalents SQL pour vous aider à comprendre les données d'une même table. Grâce aux insights sur les tables, vous pouvez détecter des schémas de données, des anomalies, des valeurs aberrantes ou des problèmes de qualité dans une table. Gemini génère également des descriptions de tables et de colonnes.

  • Pour les ensembles de données : (preview) Gemini génère un graphique interactif des relations qui affiche les relations entre les tables et les requêtes SQL entre les tables pour vous aider à comprendre comment les tables sont liées dans un ensemble de données. Grâce aux graphiques de relations, vous pouvez découvrir comment les données sont dérivées, ce qui peut vous aider à résoudre les problèmes de qualité, de cohérence ou de redondance. Les requêtes inter-tables vous permettent d'identifier des relations plus larges. Par exemple, vous pouvez calculer les revenus par segment de clients en exploitant les données d'une table de ventes et d'une table de clients.

Pour en savoir plus, vous pouvez poser des questions complémentaires dans le canevas de données.

Insights sur les tables

Les insights sur les tables vous aident à comprendre le contenu, la qualité et les tendances d'une même table BigQuery. Par exemple, en générant des requêtes qui effectuent des analyses statistiques, vous pouvez utiliser les insights sur les tables pour détecter des modèles de données, des anomalies et des valeurs aberrantes. Les insights sur les tables peuvent également vous aider à détecter les problèmes de qualité, en particulier lorsque des analyses de profil de données sont disponibles pour une table. Lorsque vous générez des insights pour une table, Gemini fournit une description de la table, des descriptions de colonnes et le résultat de l'analyse du profil en fonction des métadonnées de la table. Les options suivantes sont disponibles :

  • Générer des requêtes : suggère des questions en langage naturel et fournit les requêtes SQL correspondantes pour y répondre. Cela vous aide à découvrir des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques sans avoir à écrire de code SQL en partant de zéro.
  • Générer des descriptions : génère des descriptions pour la table et ses colonnes. Gemini utilise les résultats de l'analyse de profil (si disponibles) pour ancrer les descriptions générées. Vous pouvez examiner, modifier et publier ces descriptions dans Dataplex Universal Catalog pour améliorer la découverte et la documentation des données.

Insights sur les ensembles de données

Les insights sur les ensembles de données vous aident à comprendre les relations et les chemins de jointure entre plusieurs tables d'un ensemble de données BigQuery, ce qui vous donne une vue globale du contenu de l'ensemble de données. Lorsque vous générez des insights pour un ensemble de données, Gemini fournit les éléments suivants :

  • La description de l'ensemble de données fournit un résumé de l'ensemble de données généré par l'IA.
  • Relations : affiche une carte visuelle et interactive montrant les relations entre les tables de l'ensemble de données. Vous pouvez pointer sur les connexions pour afficher les détails de la relation, comme les clés de jointure.
  • Tableau des relations : présente une vue tabulaire des relations entre les tables, y compris les clés étrangères et les jointures inférées. Les relations peuvent être définies par le schéma (à partir des contraintes de clés primaires et étrangères), basées sur l'utilisation (à partir des journaux de requêtes) ou déduites par Gemini en fonction des noms et des descriptions des tables et des colonnes.
  • Les recommandations de requêtes proposent des exemples de requêtes SQL qui montrent comment joindre des données de différentes tables en fonction des relations identifiées.

Exemple d'insights sur les données de tableau

Prenons l'exemple d'une table appelée telco_churn avec des colonnes telles que CustomerID, Tenure, InternetService, Contract, MonthlyCharges et Churn. Le tableau suivant décrit les métadonnées de la table.

Nom du champ Type
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

Les insights sur les données génèrent les exemples de requêtes suivants pour cette table :

  • Identifiez les clients qui sont abonnés à tous les services Premium et qui sont clients depuis plus de 50 mois.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifiez le service Internet qui compte le plus de clients perdus.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

Exemple d'insights sur les données d'un ensemble de données

Prenons l'exemple d'un ensemble de données contenant les tables order_items et inventory_items. Les insights sur les ensembles de données peuvent déduire que order_items.inventory_item_id est lié à inventory_items.id.

Sur la base de ces relations, Gemini peut générer la requête croisée suivante :

Identifiez les cinq principales catégories de produits ayant le prix soldé moyen le plus élevé et leur coût moyen correspondant.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

Workflows d'insights sur les données

Cette section décrit les principaux workflows que les différents rôles utilisateur peuvent effectuer à l'aide de la fonctionnalité d'insights sur les données dans BigQuery.

Workflows pour les consommateurs de données

Ces workflows se concentrent sur les tâches des analystes de données, des analystes métier et des autres utilisateurs qui ont besoin de trouver, de comprendre et d'analyser des données.

  • Comprendre une table BigQuery : saisissez rapidement le schéma, le contenu et les utilisations potentielles d'une table spécifique. Une fois que vous avez sélectionné une table dans BigQuery Studio, vous pouvez effectuer les tâches suivantes :

    • Vérifiez les descriptions de tables et de colonnes générées automatiquement.

    • Examinez les questions en langage naturel suggérées et les requêtes SQL équivalentes pour comprendre les nuances des données.

    • Adaptez et exécutez les requêtes suggérées pour commencer l'analyse.

    Pour en savoir plus sur la génération et l'affichage des insights sur les tables, consultez Générer des insights sur les tables.

  • Explorer un ensemble de données complet : découvrez les relations entre les tables d'un ensemble de données et comprenez sa structure globale. Une fois que vous avez sélectionné un ensemble de données dans BigQuery Studio, vous pouvez effectuer les tâches suivantes :

    • Générez et affichez des insights sur les ensembles de données.

    • Utilisez le graphique interactif des relations pour visualiser les connexions entre les tables.

    • Analysez le tableau des relations pour les clés de jointure et les types de connexion (définis par le schéma, basés sur l'utilisation, déduits par LLM).

    • Utilisez les requêtes SQL suggérées entre tables pour interroger efficacement plusieurs tables.

    Pour en savoir plus sur la génération et l'affichage d'insights sur les ensembles de données, consultez Générer des insights sur les ensembles de données.

Workflows pour les producteurs de données

Ces workflows sont destinés aux ingénieurs de données, aux ingénieurs analytiques et à toute personne qui crée et gère des composants de données.

  • Générez la documentation des données de référence : créez et gérez automatiquement les descriptions de métadonnées essentielles. Vous pouvez effectuer les tâches suivantes :

    • Après avoir créé ou modifié une table, déclenchez des insights sur les données pour générer des descriptions de table et de colonnes. Vous pouvez également générer ces descriptions à grande échelle à l'aide de l'API de génération automatisée de métadonnées Dataplex Universal Catalog.

    • Examinez et affinez le texte généré par l'IA pour vous assurer de son exactitude technique et de sa pertinence commerciale.

    Pour en savoir plus sur la génération de descriptions de tables et de colonnes, consultez Générer des insights sur les tables.

  • Aidez les utilisateurs à mieux comprendre les ensembles de données : permettez aux consommateurs de comprendre et d'utiliser plus facilement les ensembles de données fournis. Vous pouvez effectuer les tâches suivantes :

    • Générez des insights sur les ensembles de données clés, en particulier ceux qui présentent des relations complexes.

    • Assurez-vous que les analyses de profilage des données sont exécutées sur les tables pour fournir un contexte riche et des insights plus précis et utiles.

    Pour en savoir plus, consultez Générer des insights sur les ensembles de données et Ancrer les insights aux résultats du profilage des données.

Workflows pour les responsables des données

Ces workflows aident les responsables des données et les équipes de gouvernance à préserver l'intégrité et la fiabilité des données.

  • Validez et auditez les métadonnées générées par l'IA : assurez-vous de l'exactitude et de la fiabilité des métadonnées produites par les insights sur les données. Vous pouvez effectuer les tâches suivantes :

    • Examinez régulièrement les descriptions et les relations générées par la fonctionnalité Insights.

    • Croisez les relations inférées dans le graphique des relations avec les modèles de données et la logique métier établis.

    • Examinez et corrigez les inexactitudes dans les métadonnées générées par l'IA.

    Pour en savoir plus, consultez Générer des insights sur les tableaux et Générer des insights sur les ensembles de données.

Tarifs

Pour en savoir plus sur les tarifs de cette fonctionnalité, consultez la section Présentation des tarifs de Gemini dans BigQuery.

Quotas et limites

Pour en savoir plus sur les quotas et les limites de cette fonctionnalité, consultez la page Quotas pour Gemini dans BigQuery.

Limites

Les insights sur les données présentent les limites suivantes :

  • Les insights sur les données sont disponibles pour les tables BigQuery, les tables BigLake, les tables externes et les vues.

  • Pour les clients multicloud, les données des autres clouds ne sont pas disponibles.

  • Les insights sur les données ne sont pas compatibles avec les types de colonnes GEO et JSON.

  • Les exécutions d'Insights ne garantissent pas systématiquement la présentation de requêtes. Pour augmenter les chances de générer des requêtes plus attrayantes, relancez le pipeline d'insights.

  • Pour les tables avec un contrôle des accès au niveau des colonnes et des autorisations utilisateur limitées, vous pouvez générer des insights si vous disposez d'un accès en lecture à toutes les colonnes de la table. Pour exécuter les requêtes générées, vous devez disposer d'autorisations suffisantes.

  • Gemini génère des descriptions de colonnes pour un maximum de 350 colonnes dans un tableau.

  • Pour les insights sur les ensembles de données, vous ne pouvez pas modifier les relations dans le graphique des relations.

  • La génération de nouveaux insights sur un ensemble de données écrase les insights précédents pour cet ensemble de données.

  • Les insights sur les ensembles de données ne sont pas compatibles avec les ensembles de données associés.

Emplacements

Vous pouvez utiliser les insights sur les données dans tous les emplacements BigQuery. Pour savoir où Gemini dans BigQuery traite vos données, consultez Où Gemini dans BigQuery traite vos données.

Étapes suivantes