Halaman ini menjelaskan cara mengonfigurasi Datastream untuk replikasi ke tabel Apache Iceberg di BigQuery.
Tabel Apache Iceberg menawarkan pengalaman terkelola sepenuhnya yang sama seperti tabel BigQuery standar, tetapi menyimpan data di bucket Cloud Storage milik pelanggan dalam format tabel Apache Iceberg dan format file Parquet. Anda dapat membuat kueri dan menganalisis data menggunakan kemampuan BigQuery sambil menyimpan data di bucket penyimpanan Anda sendiri.
Metadata tabel
Datastream menambahkan kolom STRUCT bernama datastream_metadata ke setiap tabel yang ditulis ke tujuan BigQuery.
Kolom datastream_metadata berisi kolom berikut:
UUID: Kolom ini memiliki jenis dataSTRING.SOURCE_TIMESTAMP: Kolom ini memiliki jenis dataINTEGER.CHANGE_SEQUENCE_NUMBER: Kolom ini memiliki jenis dataSTRING. Nomor urut internal yang digunakan oleh Datastream untuk setiap peristiwa perubahan.CHANGE_TYPE: Kolom ini memiliki jenis dataSTRING. Menunjukkan jenis peristiwa perubahan. Untuk mode penulisan hanya tambah, nilainya adalahINSERT.SORT_KEYS: Kolom ini berisi array nilaiSTRING. Anda dapat menggunakan nilai untuk mengurutkan peristiwa perubahan.
Mengonfigurasi streaming ke tabel Apache Iceberg
Untuk menyiapkan aliran agar data dapat di-ingest ke dalam tabel Apache Iceberg:
- Buat bucket Cloud Storage tempat Anda ingin menyimpan data.
- Buat koneksi resource Cloud di BigQuery. Untuk mengetahui informasi tentang cara membuat jenis koneksi ini, lihat Membuat dan menyiapkan koneksi resource Cloud.
Dapatkan ID akun layanan koneksi:
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAMEBeri koneksi resource Cloud Anda akses ke bucket Cloud Storage yang Anda buat. Untuk melakukannya, tambahkan izin IAM
storage.adminke akun layanan koneksi:gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.adminBuat aliran tabel Apache Iceberg.
Untuk mengetahui informasi tentang cara membuat streaming tabel Apache Iceberg menggunakan konsol Google Cloud , lihat Membuat streaming.
Untuk mengetahui informasi tentang cara membuat permintaan untuk mengalirkan data ke tabel Apache Iceberg menggunakan REST,
Google Cloud CLI, atau Terraform, lihat Mengelola aliran menggunakan API.
Langkah berikutnya
- Untuk mempelajari aliran lebih lanjut, lihat Siklus proses aliran.
- Untuk mempelajari cara membuat aliran, lihat Membuat aliran.
- Untuk mempelajari cara membuat profil koneksi yang dapat Anda gunakan dengan aliran tabel Apache Iceberg, lihat Membuat profil koneksi untuk BigQuery.