Mengonfigurasi tabel Iceberg BigLake di BigQuery

Halaman ini menjelaskan cara mengonfigurasi Datastream untuk replikasi ke tabel Iceberg BigLake di BigQuery.

Tabel Iceberg BigLake menawarkan pengalaman terkelola sepenuhnya yang sama seperti tabel BigQuery standar, tetapi menyimpan data di bucket Cloud Storage milik pelanggan dalam format tabel Apache Iceberg dan format file Parquet. Anda dapat membuat kueri dan menganalisis data menggunakan kemampuan BigQuery sambil menyimpan data di bucket penyimpanan Anda sendiri.

Metadata tabel

Datastream menambahkan kolom STRUCT bernama datastream_metadata ke setiap tabel yang ditulis ke tujuan BigQuery.

Kolom datastream_metadata berisi kolom berikut:

  • UUID: Kolom ini memiliki jenis data STRING.
  • SOURCE_TIMESTAMP: Kolom ini memiliki jenis data INTEGER.
  • CHANGE_SEQUENCE_NUMBER: Kolom ini memiliki jenis data STRING. Nomor urut internal yang digunakan oleh Datastream untuk setiap peristiwa perubahan.
  • CHANGE_TYPE: Kolom ini memiliki jenis data STRING. Menunjukkan jenis peristiwa perubahan. Untuk mode penulisan hanya tambah, nilainya adalah INSERT.
  • SORT_KEYS: Kolom ini berisi array nilai STRING. Anda dapat menggunakan nilai untuk mengurutkan peristiwa perubahan.

Mengonfigurasi streaming ke tabel Iceberg BigLake

Untuk menyiapkan aliran Anda agar menyerap data ke dalam tabel Iceberg BigLake:

  1. Buat bucket Cloud Storage tempat Anda ingin menyimpan data.
  2. Buat koneksi resource Cloud di BigQuery. Untuk mengetahui informasi tentang cara membuat jenis koneksi ini, lihat Membuat dan menyiapkan koneksi resource Cloud.
  3. Dapatkan ID akun layanan koneksi:

    bq show --location=LOCATION --connection --project_id=PROJECT_ID
    CONNECTION_NAME
    
  4. Beri koneksi resource Cloud Anda akses ke bucket Cloud Storage yang Anda buat. Untuk melakukannya, tambahkan izin IAM storage.admin ke akun layanan koneksi:

    gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \
    --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \
    --role=roles/storage.admin
    
  5. Buat aliran tabel BigLake Iceberg.

    Untuk mengetahui informasi tentang cara membuat aliran tabel Iceberg BigLake menggunakan konsol Google Cloud , lihat Membuat aliran.

    Untuk mengetahui informasi tentang cara membuat permintaan untuk melakukan streaming data ke tabel Iceberg BigLake menggunakan REST, Google Cloud CLI, atau Terraform, lihat Mengelola streaming menggunakan API.

Langkah berikutnya