Halaman ini menjelaskan cara mengonfigurasi Datastream untuk replikasi ke tabel Iceberg BigLake di BigQuery.
Tabel Iceberg BigLake menawarkan pengalaman terkelola sepenuhnya yang sama seperti tabel BigQuery standar, tetapi menyimpan data di bucket Cloud Storage milik pelanggan dalam format tabel Apache Iceberg dan format file Parquet. Anda dapat membuat kueri dan menganalisis data menggunakan kemampuan BigQuery sambil menyimpan data di bucket penyimpanan Anda sendiri.
Metadata tabel
Datastream menambahkan kolom STRUCT bernama datastream_metadata ke setiap tabel yang ditulis ke tujuan BigQuery.
Kolom datastream_metadata berisi kolom berikut:
UUID: Kolom ini memiliki jenis dataSTRING.SOURCE_TIMESTAMP: Kolom ini memiliki jenis dataINTEGER.CHANGE_SEQUENCE_NUMBER: Kolom ini memiliki jenis dataSTRING. Nomor urut internal yang digunakan oleh Datastream untuk setiap peristiwa perubahan.CHANGE_TYPE: Kolom ini memiliki jenis dataSTRING. Menunjukkan jenis peristiwa perubahan. Untuk mode penulisan hanya tambah, nilainya adalahINSERT.SORT_KEYS: Kolom ini berisi array nilaiSTRING. Anda dapat menggunakan nilai untuk mengurutkan peristiwa perubahan.
Mengonfigurasi streaming ke tabel Iceberg BigLake
Untuk menyiapkan aliran Anda agar menyerap data ke dalam tabel Iceberg BigLake:
- Buat bucket Cloud Storage tempat Anda ingin menyimpan data.
- Buat koneksi resource Cloud di BigQuery. Untuk mengetahui informasi tentang cara membuat jenis koneksi ini, lihat Membuat dan menyiapkan koneksi resource Cloud.
Dapatkan ID akun layanan koneksi:
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAMEBeri koneksi resource Cloud Anda akses ke bucket Cloud Storage yang Anda buat. Untuk melakukannya, tambahkan izin IAM
storage.adminke akun layanan koneksi:gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.adminBuat aliran tabel BigLake Iceberg.
Untuk mengetahui informasi tentang cara membuat aliran tabel Iceberg BigLake menggunakan konsol Google Cloud , lihat Membuat aliran.
Untuk mengetahui informasi tentang cara membuat permintaan untuk melakukan streaming data ke tabel Iceberg BigLake menggunakan REST,
Google Cloud CLI, atau Terraform, lihat Mengelola streaming menggunakan API.
Langkah berikutnya
- Untuk mempelajari aliran lebih lanjut, lihat Siklus proses aliran.
- Untuk mempelajari cara membuat aliran, lihat Membuat aliran.
- Untuk mempelajari cara membuat profil koneksi yang dapat Anda gunakan dengan aliran tabel Iceberg BigLake, lihat Membuat profil koneksi untuk BigQuery.