Cette page a été traduite par l'API Cloud Translation.

Destination BigQuery

Cette page vous offre un aperçu de la destination BigQuery. Il décrit le comportement d'écriture et les limites connues de Datastream lorsque vous répliquez des données dans BigQuery.

Comportement d'écriture

La taille maximale d'un événement lorsque vous diffusez des données dans BigQuery est de 20 Mo.
Lorsque vous configurez votre flux, vous pouvez sélectionner la manière dont Datastream écrit vos données de modification dans BigQuery. Pour en savoir plus, consultez Configurer le mode écriture.

Métadonnées de table

Datastream ajoute une colonne STRUCT nommée datastream_metadata à chaque table écrite dans la destination BigQuery.

Mode écriture de fusion

Si une table comporte une clé primaire au niveau de la source, la colonne contient les champs suivants :

UUID : ce champ est de type de données STRING.
SOURCE_TIMESTAMP : ce champ est de type de données INTEGER.

Si une table ne comporte pas de clé primaire, la colonne contient un champ supplémentaire : IS_DELETED. Ce champ est de type de données BOOLEAN. Il indique si les données que Datastream diffuse vers la destination sont associées à une opération DELETE au niveau de la source. Les tables sans clé primaire sont en mode ajout uniquement.

Mode écriture "Ajout uniquement"

La colonne datastream_metadata contient les mêmes champs pour les tables avec et sans clés primaires :

UUID : ce champ est de type de données STRING.
SOURCE_TIMESTAMP : ce champ est de type de données INTEGER.
CHANGE_SEQUENCE_NUMBER : ce champ est de type de données STRING. Il s'agit d'un numéro de séquence interne utilisé par Datastream pour chaque événement de modification.
CHANGE_TYPE : ce champ est de type de données STRING. Il indique le type d'événement de modification : INSERT, UPDATE-INSERT, UPDATE-DELETE ou DELETE.
SORT_KEYS : ce champ contient un tableau de valeurs STRING. Vous pouvez utiliser les valeurs pour trier les événements de modification.

Contrôler les coûts BigQuery

Les coûts BigQuery sont facturés séparément de ceux de Datastream. Pour savoir comment contrôler vos coûts BigQuery, consultez Tarifs de la CDC BigQuery.

Bonnes pratiques de gestion des coûts

Lorsque vous utilisez Datastream avec BigQuery comme destination, tenez compte des bonnes pratiques suivantes pour gérer les coûts :

Comprendre les coûts de la CDC BigQuery : lorsque vous utilisez Datastream avec BigQuery comme destination, la capture des données modifiées (CDC) implique des opérations de fusion en arrière-plan qui sont facturées en tant qu'utilisation du SKU Analyse.
Utiliser des réservations BigQuery : pour gérer et plafonner les coûts associés aux jobs de fusion CDC, nous vous recommandons d'acheter une réservation d'emplacement BigQuery. Vous bénéficiez ainsi d'une capacité fixe à un prix fixe, ce qui rend vos coûts plus prévisibles.
Régler max_staleness : le paramètre max_staleness dans BigQuery représente un compromis direct entre la fraîcheur des données et le coût. Une valeur basse signifie des opérations de fusion plus fréquentes et des coûts plus élevés, mais des données plus récentes. Ajustez ce paramètre à un niveau qui répond aux exigences de votre entreprise en termes de fraîcheur des données, sans dépasser votre budget. Pour en savoir plus, consultez Gérer l'obsolescence des tables.

Limites connues

Les limites connues d'utilisation de BigQuery en tant que destination incluent les suivantes :

Par défaut, Datastream n'est pas compatible avec l'ajout d'une clé primaire à une table déjà répliquée dans BigQuery sans clé primaire, ni avec la suppression d'une clé primaire d'une table répliquée dans BigQuery avec une clé primaire. Si vous devez effectuer de telles modifications, contactez l'assistance Google. Pour savoir comment modifier la définition de la clé primaire d'une table source qui en possède déjà une, consultez Diagnostiquer les problèmes.
Dans BigQuery, les clés primaires doivent être des types de données suivants :
- DATE
- BOOL
- GEOGRAPHY
- INT64
- NUMERIC
- BIGNUMERIC
- STRING
- TIMESTAMP
- DATETIME
Les tables contenant des clés primaires de types de données non acceptés ne sont pas répliquées par Datastream.
BigQuery n'accepte pas les noms de tables contenant les caractères ., $, /, @ ou +. Datastream remplace ces caractères par des traits de soulignement lors de la création de tables de destination.

Par exemple, table.name dans la base de données source devient table_name dans BigQuery.

Pour en savoir plus sur les noms de tables dans BigQuery, consultez Nommer les tables.
BigQuery n'accepte pas plus de quatre colonnes de clustering. Lorsque vous répliquez une table comportant plus de quatre colonnes de clé primaire, Datastream utilise quatre colonnes de clé primaire comme colonnes de clustering.
Datastream mappe les littéraux de date et d'heure hors plage, tels que les types de date PostgreSQL "infinity", sur les valeurs suivantes :
- Valeur positive DATE à la valeur 9999-12-31
- Valeur négative de DATE à la valeur de 0001-01-01
- Valeur positive TIMESTAMP à la valeur 9999-12-31 23:59:59.999000 UTC
- Valeur négative de TIMESTAMP à la valeur de 0001-01-01 00:00:00 UTC
BigQuery n'accepte pas les tables de flux qui comportent des clés primaires de types de données FLOAT ou REAL. Ces tables ne sont pas répliquées. Pour en savoir plus sur les types et les plages de dates BigQuery, consultez Types de données.
Si votre source est Salesforce, l'option de configuration Ensemble de données pour chaque schéma n'est pas disponible.

Étape suivante

Découvrez comment répliquer les données d'une base de données source vers des ensembles de données BigQuery à l'aide de Datastream.