Présentation de la transformation des données

Ce document décrit les différentes manières de transformer des données dans vos tables BigQuery.

Pour en savoir plus sur les intégrations de données, consultez la page Présentation du chargement, de la transformation et de l'exportation de données.

Méthodes de transformation des données

Vous pouvez transformer des données dans BigQuery de différentes manières :

  • Utiliser le langage de manipulation de données (LMD) pour transformer les données de vos tables BigQuery.
  • Utiliser des vues matérialisées pour mettre automatiquement en cache les résultats d’une requête afin d’améliorer les performances et l’efficacité.
  • Utiliser des requêtes continues pour analyser les données entrantes en temps réel et insérer en continu les lignes de sortie dans une table BigQuery ou les exporter vers Pub/Sub ou Bigtable.
  • Utiliser des pipelines BigQuery ou Dataform pour développer, tester, contrôler les versions, et planifier des pipelines dans BigQuery.
  • Utiliser des préparations de données avec des recommandations de transformation générées par l'IA et adaptées au contexte pour nettoyer les données avant l'analyse. Les préparations de données sont alimentées par l'API Dataform.

Le tableau suivant présente les différentes caractéristiques de chaque méthode de transformation.

Méthode de transformation Cible de transformation Méthode de définition Fréquence de transformation
Langage de manipulation de données (LMD) Table (sur place) LMD SQL Déclenchement par l'internaute ou planifié
Vues matérialisées Vue matérialisée Requête SQL Actualisation automatique ou manuelle
Requêtes continues Table, sujet Pub/Sub, table Bigtable Requête SQL avec EXPORT DATA Continue
Dataform Table Dataform Core (SQLX) Planifié (pipelines)
Pipelines BigQuery Table Pipelines BigQuery Planifié (pipelines)
Préparation des données Table Éditeur visuel Planifié

Vous pouvez également examiner l'historique des modifications d'une table BigQuery pour examiner les transformations apportées à une table sur une période donnée.

Transformer des données avec le LMD

Vous pouvez utiliser le langage de manipulation de données (LMD) pour transformer les données de vos tables BigQuery. Les instructions LMD sont des requêtes GoogleSQL qui manipulent les données de table existantes pour ajouter ou supprimer des lignes, modifier des données dans des lignes existantes ou fusionner des données avec des valeurs d'une autre table. Les transformations LMD sont également compatibles avec les tables partitionnées.

Vous pouvez exécuter plusieurs instructions LMD simultanément, BigQuery mettant en file d'attente plusieurs instructions LMD qui transforment vos données les unes après les autres. BigQuery gère l'exécution des instructions LMD simultanées, en fonction du type de transformation.

Transformer des données avec des vues matérialisées

Les vues matérialisées sont des vues précalculées qui mettent régulièrement en cache les résultats d'une requête SQL pour optimiser les performances et l'efficacité. BigQuery exploite les résultats précalculés des vues matérialisées et, dans la mesure du possible, ne lit que les modifications apportées aux tables de base pour calculer les résultats à jour.

Les vues matérialisées sont précalculées en arrière-plan lorsque les tables de base changent. Toutes les modifications incrémentielles apportées aux données depuis les tables de base sont automatiquement ajoutées aux vues matérialisées, sans aucune action de l'utilisateur.

Transformer des données avec des requêtes continues

Les requêtes continues sont des instructions SQL qui s'exécutent en continu. Elles vous permettent d'analyser les données entrantes dans BigQuery en temps réel. Vous pouvez insérer les lignes de sortie produites par une requête continue dans une table BigQuery ou les exporter vers Pub/Sub ou Bigtable.

Transformer des données avec Dataform

Dataform vous permet de gérer la transformation des données dans le processus d'extraction, de chargement et de transformation (ELT, Extract-Load-Transform) pour l'intégration des données. Après avoir extrait les données brutes des systèmes sources et les avoir chargées dans BigQuery, vous pouvez les utiliser dans Dataform pour les transformer en tables organisées, testées et documentées. Alors que dans le langage LMD, vous adoptez une approche impérative en indiquant à BigQuery comment exactement transformer vos données, dans Dataform, vous écrivez des instructions déclaratives dans lesquelles Dataform détermine ensuite la transformation nécessaire pour atteindre cet état.

Dans Dataform, vous pouvez développer, tester et contrôler les versions des workflows SQL pour la transformation de données, qu'il s'agisse de déclarations de source de données, de tables de sortie, de vues ou de vues matérialisées. Vous pouvez développer des workflows SQL avec Dataform Core ou JavaScript pur. Dataform Core est un méta-langage Open Source qui étend SQL avec SQLX et JavaScript. Vous pouvez utiliser Dataform Core pour gérer les dépendances, configurer des tests automatisés de qualité des données et documenter les descriptions de tables ou de colonnes dans le code.

Dataform stocke le code de votre workflow SQL dans des dépôts et utilise Git pour suivre les modifications apportées aux fichiers. Les espaces de travail de développement dans Dataform vous permettent de travailler sur le contenu du dépôt sans affecter le travail des autres utilisateurs qui travaillent dans le même dépôt. Vous pouvez connecter des dépôts Dataform à des fournisseurs Git tiers, y compris Azure DevOps Services, Bitbucket, GitHub et GitLab.

Vous pouvez exécuter ou planifier des workflows SQL avec des configurations de version et de workflow Dataform. Vous pouvez également planifier des exécutions avec Managed Service pour Apache Airflow, ou avec Workflows et Cloud Scheduler. Lors de l'exécution, Dataform exécute les requêtes SQL dans BigQuery en fonction des dépendances des objets dans votre workflow SQL. Une fois l'exécution terminée, vous pouvez utiliser les tables et les vues que vous avez définies pour l'analyse dans BigQuery.

Pour en savoir plus sur la création de workflows SQL de transformation de données dans Dataform, consultez les pages Présentation de Dataform et Fonctionnalités de Dataform.

Transformer des données avec des pipelines BigQuery

Les pipelines BigQuery sont alimentés par Dataform et vous permettent de créer et de gérer la transformation des données dans les processus d'extraction, de chargement et de transformation (ELT) ou d'extraction, de transformation et de chargement (ETL).

Vous pouvez créer et gérer des pipelines BigQuery de manière visuelle dans BigQuery Studio.

Pour en savoir plus sur la création de pipelines BigQuery, consultez la page Créer des pipelines.

Préparer les données dans BigQuery

Pour réduire la charge de travail liée à la préparation des données, BigQuery vous permet de nettoyer les données à l'aide de suggestions de transformation générées par Gemini. La préparation des données dans BigQuery offre l'assistance suivante :

  • Application de transformations et de règles de qualité des données
  • Normalisation et enrichissement des données
  • Automatisation du mappage de schéma

Vous pouvez valider les résultats dans un aperçu de vos données avant d'exécuter les modifications sur toutes vos données.

Pour en savoir plus, consultez la page Présentation de la préparation des données BigQuery.

Étape suivante