Auf dieser Seite wird beschrieben, wie Sie Datastream für die Replikation in BigLake Iceberg-Tabellen in BigQuery konfigurieren.
BigLake-Iceberg-Tabellen bieten dieselbe vollständig verwaltete Umgebung wie Standard-BigQuery-Tabellen, speichern Daten jedoch in kundeneigenen Cloud Storage-Buckets im Apache Iceberg-Tabellenformat und Parquet-Dateiformat. Sie können Daten mit BigQuery-Funktionen abfragen und analysieren, während die Daten in Ihren eigenen Speicher-Buckets verbleiben.
Tabellenmetadaten
Datastream fügt jeder Tabelle, die in das BigQuery-Ziel geschrieben wird, eine STRUCT-Spalte mit dem Namen datastream_metadata hinzu.
Die Spalte datastream_metadata enthält die folgenden Felder:
UUID: Dieses Feld hat den DatentypSTRING.SOURCE_TIMESTAMP: Dieses Feld hat den DatentypINTEGER.CHANGE_SEQUENCE_NUMBER: Dieses Feld hat den DatentypSTRING. Dies ist eine interne Sequenznummer, die von Datastream für jedes Änderungsereignis verwendet wird.CHANGE_TYPE: Dieses Feld hat den DatentypSTRING. Gibt den Typ des Änderungsereignisses an. Im Nur-anhängen-Schreibmodus ist der WertINSERT.SORT_KEYS: Dieses Feld enthält ein Array vonSTRING-Werten. Sie können die Werte verwenden, um die Änderungsereignisse zu sortieren.
Streaming zu BigLake Iceberg-Tabellen konfigurieren
So richten Sie Ihren Stream zum Aufnehmen von Daten in BigLake Iceberg-Tabellen ein:
- Erstellen Sie einen Cloud Storage-Bucket, in dem Sie Ihre Daten speichern möchten.
- Cloud-Ressourcenverbindung in BigQuery erstellen Informationen zum Erstellen dieser Art von Verbindung finden Sie unter Cloud-Ressourcen-Verbindung erstellen und einrichten.
Rufen Sie die ID des Dienstkontos für die Verbindung ab:
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAMEGewähren Sie der Cloud-Ressourcenverbindung Zugriff auf den erstellten Cloud Storage-Bucket. Fügen Sie dazu dem Dienstkonto der Verbindung die IAM-Berechtigung
storage.adminhinzu:gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.adminErstellen Sie einen Stream für BigLake Iceberg-Tabellen.
Informationen zum Erstellen eines Streams für BigLake Iceberg-Tabellen mit der Google Cloud -Konsole finden Sie unter Stream erstellen.
Informationen zum Erstellen einer Anfrage zum Streamen von Daten in BigLake Iceberg-Tabellen mit REST,
Google Cloud CLIoder Terraform finden Sie unter Streams mit der API verwalten.
Nächste Schritte
- Weitere Informationen zu Streams finden Sie unter Stream-Lebenszyklus.
- Informationen zum Erstellen eines Streams finden Sie unter Stream erstellen.
- Informationen zum Erstellen eines Verbindungsprofils, das Sie mit einem Stream für BigLake-Iceberg-Tabellen verwenden können, finden Sie unter Verbindungsprofil für BigQuery erstellen.