Ce document vous explique comment :
- définir une instruction SQL à exécuter avant la création d'une table.
- définir une instruction SQL à exécuter après la création d'une table.
- désactiver la création d'une table ;
- ajouter des tags d'exécution.
Avant de commencer
Dans la Google Cloud console, accédez à la page Dataform.
Sélectionnez ou créez un dépôt.
Sélectionnez ou créez un espace de travail de développement.
Définissez un fichier SQLX de l'un des types suivants :
Rôles requis
Pour obtenir les autorisations nécessaires pour effectuer les tâches de ce document, demandez à votre administrateur de vous accorder le rôle IAM Éditeur Dataform (roles/dataform.editor) sur les espaces de travail.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Définir une instruction SQL à exécuter avant la création d'une table
Vous pouvez configurer Dataform pour qu'il exécute une ou plusieurs instructions SQL avant de créer une table sélectionnée dans BigQuery. Pour exécuter une instruction SQL avant que Dataform ne crée une table sélectionnée, ajoutez votre instruction au bloc pre_operations dans le fichier SQLX de définition de table.
Pour créer une instruction SQL personnalisée qui s'exécute avant que Dataform ne crée une table spécifique, procédez comme suit :
- Accédez à votre espace de travail de développement.
- Dans le volet Files (Fichiers), développez
definitions/. - Ouvrez un fichier SQLX de définition de table.
- En dehors du bloc
config, saisissezpre_operations { ... }. - Dans
pre_operations { ... }, ajoutez votre instruction SQL. - Facultatif : Pour ajouter plusieurs instructions, séparez-les par
---. - Facultatif : Cliquez sur Format.
L'exemple de code suivant montre une instruction pre_operations qui crée une fonction temporaire pouvant être utilisée dans l'instruction select :
pre_operations {
CREATE TEMP FUNCTION AddFourAndDivide(x INT64, y INT64)
RETURNS FLOAT64
AS ((x + 4) / y);
}
Définir une instruction SQL à exécuter après la création d'une table
Vous pouvez configurer Dataform pour qu'il exécute une ou plusieurs instructions SQL après avoir créé une table sélectionnée dans BigQuery. Pour exécuter une instruction SQL après que Dataform a créé une table sélectionnée, ajoutez votre instruction au bloc post_operations dans le fichier SQLX de définition de table. Vous pouvez ajouter plusieurs instructions SQL au bloc post_operations.
Pour créer une instruction SQL personnalisée qui s'exécute après que Dataform a créé une table spécifique, procédez comme suit :
- Accédez à votre espace de travail de développement.
- Dans le volet Files (Fichiers), développez
definitions/. - Ouvrez un fichier SQLX de définition de table.
- En dehors du bloc
config, saisissezpost_operations { ... }. - Dans
post_operations { ... }, ajoutez votre instruction SQL. - Facultatif : Cliquez sur Format.
L'exemple de code suivant montre des instructions post_operations qui accordent aux groupes l'accès à la table créée :
post_operations {
GRANT `roles/bigquery.dataViewer`
ON
TABLE ${self()}
TO "group:allusers@example.com", "user:otheruser@example.com"
}
Désactiver la création d'une table
Pour empêcher Dataform de créer une table sélectionnée dans BigQuery, vous pouvez la désactiver dans son fichier SQLX de définition de table. Dataform conserve une table désactivée dans le graphique de dépendances, mais ne la compile ni ne la crée. Cela peut être utile, par exemple, si une table échoue et que vous ne souhaitez pas que l'ensemble de votre workflow échoue pendant que vous résolvez le problème.
Pour désactiver une table, procédez comme suit :
- Accédez à votre espace de travail de développement.
- Dans le volet Files (Fichiers), développez
definitions/. - Sélectionnez un fichier SQLX de définition de table.
- Dans le bloc
configdu fichier, saisissezdisabled: true. - Facultatif : Cliquez sur Format.
L'exemple de code suivant montre une table désactivée :
config {
type: "table",
disabled: true
}
select * from ${ref("source_data")}
Ajouter des tags d'exécution
Cette section explique comment ajouter des tags aux fichiers SQLX principaux de Dataform pour catégoriser votre workflow.
Pour organiser les composants de votre workflow en collections, vous pouvez ajouter des tags personnalisés aux fichiers SQLX des types suivants :
tableviewincrementalassertionoperations
Lors de l'exécution d'un workflow, vous pouvez exécuter que les fichiers comportant un tag sélectionné.
Avec Managed Service for Apache Airflow ou Workflows associé à Cloud Scheduler, vous pouvez créer une planification qui exécute un workflow Dataform avec un tag sélectionné à un intervalle spécifique.
Ajouter un tag
Vous pouvez ajouter plusieurs tags à un fichier SQLX.
Pour ajouter un tag à un fichier SQLX, procédez comme suit :
- Accédez à votre espace de travail de développement.
- Dans le volet Files (Fichiers), développez
definitions/. - Sélectionnez un fichier SQLX.
Dans le bloc
config, ajoutez un tag au format suivant :tags: ["CUSTOM_TAG"]Remplacez
CUSTOM_TAGpar votre tag.Facultatif : Pour ajouter plusieurs tags, séparez-les par une virgule (
,).Facultatif : Cliquez sur Format.
L'exemple de code suivant montre la vue user_counts avec les tags daily et hourly :
config {
type: "view",
name: "user_counts",
tags: ["daily", "hourly"]
}
Étape suivante
- Pour savoir comment configurer les paramètres Dataform dans
workflow_settings.yaml, consultez Configurer les paramètres de workflow Dataform. - Pour savoir comment tester les données de table avec des assertions, consultez Tester la qualité des données.
- Pour savoir comment réutiliser du code avec des inclusions, consultez Réutiliser du code dans un seul dépôt avec des inclusions.
- Pour savoir comment déclencher manuellement des exécutions, consultez Déclencher manuellement des exécutions.
- Pour savoir comment ajouter des tags de stratégie BigQuery dans Dataform, consultez Contrôler l'accès aux colonnes.