Auf dieser Seite finden Sie eine Übersicht über das BigQuery-Ziel. Außerdem werden das Schreibverhalten und bekannte Einschränkungen von Datastream beschrieben, wenn Sie Daten in BigQuery replizieren.
Schreibverhalten
Die maximale Ereignisgröße beim Streamen von Daten in BigQuery beträgt 20 MB.
Wenn Sie Ihren Stream konfigurieren, können Sie auswählen, wie Datastream Ihre Änderungsdaten in BigQuery schreibt. Weitere Informationen finden Sie unter Schreibmodus konfigurieren.
Tabellenmetadaten
Datastream fügt jeder Tabelle, die in das BigQuery-Ziel geschrieben wird, eine STRUCT-Spalte mit dem Namen datastream_metadata hinzu.
Schreibmodus „Zusammenführen“
Wenn eine Tabelle in der Quelle einen Primärschlüssel hat, enthält die Spalte die folgenden Felder:
UUID: Dieses Feld hat den DatentypSTRING.SOURCE_TIMESTAMP: Dieses Feld hat den DatentypINTEGER.
Wenn eine Tabelle keinen Primärschlüssel hat, enthält die Spalte ein zusätzliches Feld: IS_DELETED. Dieses Feld hat den Datentyp BOOLEAN und gibt an, ob die Daten, die Datastream an das Ziel streamt, mit einem DELETE-Vorgang in der Quelle verknüpft sind. Tabellen ohne Primärschlüssel können nur angehängt werden.
Schreibmodus „Nur anhängen“
Die Spalte datastream_metadata enthält für Tabellen mit und ohne Primärschlüssel dieselben Felder:
UUID: Dieses Feld hat den DatentypSTRING.SOURCE_TIMESTAMP: Dieses Feld hat den DatentypINTEGER.CHANGE_SEQUENCE_NUMBER: Dieses Feld hat den DatentypSTRING. Es ist eine interne Sequenznummer, die von Datastream für jedes Änderungsereignis verwendet wird.CHANGE_TYPE: Dieses Feld hat den DatentypSTRING. Es gibt den Typ des Änderungsereignisses an:INSERT,UPDATE-INSERT,UPDATE-DELETEoderDELETE.SORT_KEYS: Dieses Feld enthält ein Array vonSTRING-Werten. Mit den Werten können Sie die Änderungsereignisse sortieren.
BigQuery-Kosten kontrollieren
BigQuery-Kosten werden separat von Datastream in Rechnung gestellt. Informationen zum Kontrollieren Ihrer BigQuery-Kosten finden Sie unter BigQuery CDC-Preise.
Best Practices für das Kostenmanagement
Wenn Sie Datastream mit BigQuery als Ziel verwenden, sollten Sie die folgenden Best Practices für das Kostenmanagement beachten:
- BigQuery CDC-Kosten verstehen: Wenn Sie Datastream mit BigQuery als Ziel verwenden, umfasst Change Data Capture (CDC) Hintergrundvorgänge zum Zusammenführen, die als Analysis SKU-Nutzung in Rechnung gestellt werden.
- BigQuery-Reservierungen verwenden: Um die Kosten für CDC-Zusammenführungsjobs zu verwalten und zu begrenzen, empfehlen wir Ihnen, eine BigQuery-Slotreservierung zu erwerben. So erhalten Sie eine feste Kapazität zu einem festen Preis, wodurch Ihre Kosten besser vorhersehbar sind.
max_stalenessoptimieren: Der Parametermax_stalenessin BigQuery ist ein direkter Kompromiss zwischen Datenaktualität und Kosten. Ein niedrigerer Wert bedeutet häufigere Zusammenführungsvorgänge und höhere Kosten, aber aktuellere Daten. Optimieren Sie diesen Parameter so, dass er die geschäftlichen Anforderungen an die Datenaktualität erfüllt, ohne Ihr Budget zu überschreiten. Weitere Informationen finden Sie unter Tabellenaktualität verwalten.
Bekannte Einschränkungen
Bekannte Einschränkungen bei der Verwendung von BigQuery als Ziel:
- Standardmäßig unterstützt Datastream das Hinzufügen eines Primärschlüssels zu einer Tabelle, die bereits ohne Primärschlüssel in BigQuery repliziert wurde, oder das Entfernen eines Primärschlüssels aus einer Tabelle, die mit einem Primärschlüssel in BigQuery repliziert wurde, nicht. Wenn Sie solche Änderungen vornehmen müssen, wenden Sie sich an den Google-Support. Informationen zum Ändern der Primärschlüsseldefinition für eine Quelltabelle, die bereits einen Primärschlüssel hat, finden Sie unter Probleme diagnostizieren.
Primärschlüssel in BigQuery müssen die folgenden Datentypen haben:
DATEBOOLGEOGRAPHYINT64NUMERICBIGNUMERICSTRINGTIMESTAMPDATETIME
Tabellen mit Primärschlüsseln mit nicht unterstützten Datentypen werden von Datastream nicht repliziert.
BigQuery unterstützt keine Tabellennamen mit den Zeichen „
.“, „$“, „/“, „@“ oder „+“. Datastream ersetzt solche Zeichen beim Erstellen von Zieltabellen durch Unterstriche.Beispiel:
table.namein der Quelldatenbank wird in BigQuery zutable_name.Weitere Informationen zu Tabellennamen in BigQuery finden Sie unter Tabellen namen.
BigQuery unterstützt maximal vier Clustering-Spalten. Wenn Sie eine Tabelle mit mehr als vier Primärschlüsselspalten replizieren, verwendet Datastream vier Primärschlüsselspalten als Clustering-Spalten.
Datastream ordnet Datums- und Zeitliterale außerhalb des gültigen Bereichs wie PostgreSQL-Datentypen für unendliche Daten den folgenden Werten zu:
- Positives
DATEzum Wert9999-12-31 - Negatives
DATEzum Wert0001-01-01 - Positives
TIMESTAMPzum Wert9999-12-31 23:59:59.999000 UTC - Negatives
TIMESTAMPzum Wert0001-01-01 00:00:00 UTC
- Positives
BigQuery unterstützt keine Streamingtabellen mit Primärschlüsseln vom Datentyp
FLOAToderREAL. Solche Tabellen werden nicht repliziert. Weitere Informationen zu BigQuery-Datentypen und -Bereichen finden Sie unter Datentypen.Wenn Ihre Quelle Salesforce oder Salesforce Marketing Cloud (Vorschau) ist, wird die Konfigurationsoption Dataset für jedes Schema nicht unterstützt.
Nächste Schritte
- Hier erfahren Sie, wie Sie Daten aus einer Quelldatenbank mit Datastream in BigQuery-Datasets replizieren verwenden.